Синтетические наборы данных
Синтетические данные -- это любые "производные" данные, применимые в конкретной ситуации, которые не были получены путём прямого сбора и измерений [1]. В то же время, "производные данные" (согласно второму словарю) -- это постоянно-хранимая информация, которую используют специалисты в своей повседневной работе.
Методы их генерации обычно специфичны для каждого конкретного случая.
Применение
Применение синтетических данных оправдано в тех случаях, когда реальные измерения проводить либо сложно, либо дорого, но известны правила генерации и законы распределения для реальных данных. В задачах обучения с учителем можно расширить обучающее множество сгенерированными объектами, однако в тестовом множестве должны присутствовать лишь реальные объекты. В таком случае задача обучения с учителем сводится к задачам частичного обучения и самообучения. В некоторых случаях, разработчикам недоступны реальные данные, например данные о банковских счетах и другие sensitive data. В таком случае, если известно, каким требованиям должны удовлетворять реальные объекты, а также владея информацией об их предположительных распределениях, можно также применить генерацию.
Не существует единого способа генерации данных, применимого во всех ситуациях, для каждого конкретного случая необходимо учитывать его специфику.
Применение синтетических данных в задачах обучения с учителем или частичного обучения возможно только в обучающем множестве. Тестовое множество должно содержать только реальные объекты.
Как их получать
Существует несколько подходов к генерации данных:
- ) Генерация датасета полностью;
- ) Анализ и расширение уже имеющихся данных синтетическими (аугментация?).
Ну вот берём и получаем.
Примеры
Тут какие наборы бывают.
Примечания
- ↑ Ошибка цитирования Неверный тег
<ref>
; для сносокMcGraw-Hill_Dictionary_of_Scientific_and_Technical_Terms._Retrieved_November_29.2C_2009.
не указан текст