Синтетические наборы данных — различия между версиями
264264 (обсуждение | вклад) м |
264264 (обсуждение | вклад) |
||
Строка 1: | Строка 1: | ||
Синтетические данные -- это любые "производные" данные, применимые в конкретной ситуации, которые не были получены путём прямого сбора и измерений <ref name="McGraw-Hill Dictionary of Scientific and Technical Terms. Retrieved November 29, 2009."></ref>. В то же время, "производные данные" (согласно второму словарю) -- это постоянно-хранимая информация, которую используют специалисты в своей повседневной работе. | Синтетические данные -- это любые "производные" данные, применимые в конкретной ситуации, которые не были получены путём прямого сбора и измерений <ref name="McGraw-Hill Dictionary of Scientific and Technical Terms. Retrieved November 29, 2009."></ref>. В то же время, "производные данные" (согласно второму словарю) -- это постоянно-хранимая информация, которую используют специалисты в своей повседневной работе. | ||
− | + | Методы их генерации обычно специфичны для каждого конкретного случая. | |
− | |||
== Применение == | == Применение == | ||
− | + | Применение синтетических данных оправдано в тех случаях, когда реальные измерения проводить либо сложно, либо дорого, но известны правила генерации и законы распределения для реальных данных. В задачах обучения с учителем можно расширить обучающее множество сгенерированными объектами, однако в тестовом множестве должны присутствовать лишь реальные объекты. В таком случае задача обучения с учителем сводится к задачам частичного обучения и самообучения. | |
+ | В некоторых случаях, разработчикам недоступны реальные данные, например данные о банковских счетах и другие sensitive data. | ||
+ | В таком случае, если известно, каким требованиям должны удовлетворять реальные объекты, а также владея информацией об их предположительных распределениях, можно также применить генерацию. | ||
+ | |||
+ | Не существует единого способа генерации данных, применимого во всех ситуациях, для каждого конкретного случая необъодимо учитывать его специфику. | ||
+ | |||
+ | Применение синтетических данных в задачах обучения с учителем или частичного обучения возможно только в обучающем множестве. Тестовое множество должно содержать только реальные объекты. | ||
+ | |||
== Как их получать == | == Как их получать == |
Версия 00:19, 5 января 2021
Синтетические данные -- это любые "производные" данные, применимые в конкретной ситуации, которые не были получены путём прямого сбора и измерений [1]. В то же время, "производные данные" (согласно второму словарю) -- это постоянно-хранимая информация, которую используют специалисты в своей повседневной работе.
Методы их генерации обычно специфичны для каждого конкретного случая.
Содержание
Применение
Применение синтетических данных оправдано в тех случаях, когда реальные измерения проводить либо сложно, либо дорого, но известны правила генерации и законы распределения для реальных данных. В задачах обучения с учителем можно расширить обучающее множество сгенерированными объектами, однако в тестовом множестве должны присутствовать лишь реальные объекты. В таком случае задача обучения с учителем сводится к задачам частичного обучения и самообучения. В некоторых случаях, разработчикам недоступны реальные данные, например данные о банковских счетах и другие sensitive data. В таком случае, если известно, каким требованиям должны удовлетворять реальные объекты, а также владея информацией об их предположительных распределениях, можно также применить генерацию.
Не существует единого способа генерации данных, применимого во всех ситуациях, для каждого конкретного случая необъодимо учитывать его специфику.
Применение синтетических данных в задачах обучения с учителем или частичного обучения возможно только в обучающем множестве. Тестовое множество должно содержать только реальные объекты.
Как их получать
Ну вот берём и получаем.
Примеры
Тут какие наборы бывают.
Примечания
- ↑ Ошибка цитирования Неверный тег
<ref>
; для сносокMcGraw-Hill_Dictionary_of_Scientific_and_Technical_Terms._Retrieved_November_29.2C_2009.
не указан текст