Синтетические наборы данных — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
м
Строка 1: Строка 1:
 
Синтетические данные -- это любые "производные" данные, применимые в конкретной ситуации, которые не были получены путём прямого сбора и измерений <ref name="McGraw-Hill Dictionary of Scientific and Technical Terms. Retrieved November 29, 2009."></ref>. В то же время, "производные данные" (согласно второму словарю) -- это постоянно-хранимая информация, которую используют специалисты в своей повседневной работе.
 
Синтетические данные -- это любые "производные" данные, применимые в конкретной ситуации, которые не были получены путём прямого сбора и измерений <ref name="McGraw-Hill Dictionary of Scientific and Technical Terms. Retrieved November 29, 2009."></ref>. В то же время, "производные данные" (согласно второму словарю) -- это постоянно-хранимая информация, которую используют специалисты в своей повседневной работе.
  
Synthetic data is "any production data applicable to a given situation that are not obtained by direct measurement" according to the McGraw-Hill Dictionary of Scientific and Technical Terms;[1] where Craig S. Mullins, an expert in data management, defines production data as "information that is persistently stored and used by professionals to conduct business processes."
+
Методы их генерации обычно специфичны для каждого конкретного случая.
Синтетические наборы данных — ну это что-то там такое.<ref name="vorontsov">https://somewebsite.com/</ref>
 
  
 
== Применение ==
 
== Применение ==
  
Да, их как-то применяют там, ага.
+
Применение синтетических данных оправдано в тех случаях, когда реальные измерения проводить либо сложно, либо дорого, но известны правила генерации и законы распределения для реальных данных. В задачах обучения с учителем можно расширить обучающее множество сгенерированными объектами, однако в тестовом множестве должны присутствовать лишь реальные объекты. В таком случае задача обучения с учителем сводится к задачам частичного обучения и самообучения.
 +
В некоторых случаях, разработчикам недоступны реальные данные, например данные о банковских счетах и другие sensitive data.
 +
В таком случае, если известно, каким требованиям должны удовлетворять реальные объекты, а также владея информацией об их предположительных распределениях, можно также применить генерацию.
 +
 
 +
Не существует единого способа генерации данных, применимого во всех ситуациях, для каждого конкретного случая необъодимо учитывать его специфику.
 +
 
 +
Применение синтетических данных в задачах обучения с учителем или частичного обучения возможно только в обучающем множестве. Тестовое множество должно содержать только реальные объекты.
 +
 
  
 
== Как их получать ==
 
== Как их получать ==

Версия 00:19, 5 января 2021

Синтетические данные -- это любые "производные" данные, применимые в конкретной ситуации, которые не были получены путём прямого сбора и измерений [1]. В то же время, "производные данные" (согласно второму словарю) -- это постоянно-хранимая информация, которую используют специалисты в своей повседневной работе.

Методы их генерации обычно специфичны для каждого конкретного случая.

Применение

Применение синтетических данных оправдано в тех случаях, когда реальные измерения проводить либо сложно, либо дорого, но известны правила генерации и законы распределения для реальных данных. В задачах обучения с учителем можно расширить обучающее множество сгенерированными объектами, однако в тестовом множестве должны присутствовать лишь реальные объекты. В таком случае задача обучения с учителем сводится к задачам частичного обучения и самообучения. В некоторых случаях, разработчикам недоступны реальные данные, например данные о банковских счетах и другие sensitive data. В таком случае, если известно, каким требованиям должны удовлетворять реальные объекты, а также владея информацией об их предположительных распределениях, можно также применить генерацию.

Не существует единого способа генерации данных, применимого во всех ситуациях, для каждого конкретного случая необъодимо учитывать его специфику.

Применение синтетических данных в задачах обучения с учителем или частичного обучения возможно только в обучающем множестве. Тестовое множество должно содержать только реальные объекты.


Как их получать

Ну вот берём и получаем.

Примеры

Тут какие наборы бывают.

Примечания

  1. Ошибка цитирования Неверный тег <ref>; для сносок McGraw-Hill_Dictionary_of_Scientific_and_Technical_Terms._Retrieved_November_29.2C_2009. не указан текст