Синтетические наборы данных — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
м
Строка 1: Строка 1:
Синтетические данные -- это любые "производные" данные, применимые в конкретной ситуации, которые не были получены путём прямого сбора и измерений <ref name="McGraw-Hill Dictionary of Scientific and Technical Terms. Retrieved November 29, 2009."></ref>. В то же время, "производные данные" (согласно второму словарю) -- это постоянно-хранимая информация, которую используют специалисты в своей повседневной работе.
+
'''Синтетические данные''' — это «производные» данные, применимые в конкретной ситуации, которые не были получены путём прямого сбора и измерений<ref name="mcgrawhilldict">McGraw - Hill dictionary of scientific and technical terms / Под ред. Sybil P. Parker. - 3-е изд. - New York: McGraw - Hill book co., 1984</ref>. В то же время, «производные данные» (согласно второму словарю) -- это постоянно-хранимая информация, которую используют специалисты в своей повседневной работе.
 
 
Методы их генерации обычно специфичны для каждого конкретного случая.
 
  
 
== Применение ==
 
== Применение ==
  
Применение синтетических данных оправдано в тех случаях, когда реальные измерения проводить либо сложно, либо дорого, но известны правила генерации и законы распределения для реальных данных. В задачах обучения с учителем можно расширить обучающее множество сгенерированными объектами, однако в тестовом множестве должны присутствовать лишь реальные объекты. В таком случае задача обучения с учителем сводится к задачам частичного обучения и самообучения.
+
Нередко возникают ситуации, когда получение реальных данных сложно или дорого, но при этом известны требования к таким объектам, правила их генерации и законы распределения. Как правило, это происходит, когда речь идёт о чувствительных персональных данных — например, информации о банковских счетах. В таких случаях необходимые наборы данных можно программно сгенерировать.
В некоторых случаях, разработчикам недоступны реальные данные, например данные о банковских счетах и другие sensitive data.  
 
В таком случае, если известно, каким требованиям должны удовлетворять реальные объекты, а также владея информацией об их предположительных распределениях, можно также применить генерацию.
 
 
 
Не существует единого способа генерации данных, применимого во всех ситуациях, для каждого конкретного случая необходимо учитывать его специфику.
 
  
Применение синтетических данных в задачах обучения с учителем или частичного обучения возможно только в обучающем множестве. Тестовое множество должно содержать только реальные объекты.
+
Сгенерированные объекты можно использовать в задаче обучения с учителем для расширения обучающего множества, сведя её к задачам частичного обучения и самообучения. В тестовых множествах использовать синтетические наборы данных нельзя: в них должны быть только реальные объекты.
  
 +
При генерации синтетических наборов данных необходимо учитывать специфику каждого конкретного случая, общего универсального способа генерации данных не существует.
  
== Как их получать ==
+
== Генерация ==
  
Существует несколько подходов к генерации данных:
+
Существует два основных подхода к генерации синтетических наборов данных.
  
*) Генерация датасета полностью;
+
В случае, когда реальные данные отсутствуют, наборы генерируются полностью случайным образом на основе некой статистической модели, которая учитывает законы распределения реальных данных. Однако, такой подход не всегда оправдывает себя из-за того, что синтетические данные могут не учитывать весь спектр случаев (переформулировать).
  
*) Анализ и расширение уже имеющихся данных синтетическими (аугментация?).
+
Также применяется [[wikipedia:Data_augmentation|аугментация]] — генерация наборов на основе имеющихся реальных данных. К имеющимся данным применяются различные способы искажения: например, для изображений могут использоваться различные геометрические преобразования, искажения цвета, кадрирование, поворот, добавление шума и иные.
  
Ну вот берём и получаем.
+
* Взять что-то из [[wikipedia:Oversampling_and_undersampling_in_data_analysis]].
 +
* Можно картинку из https://habr.com/ru/company/smartengines/blog/264677/
  
 
== Примеры ==
 
== Примеры ==

Версия 15:48, 5 января 2021

Синтетические данные — это «производные» данные, применимые в конкретной ситуации, которые не были получены путём прямого сбора и измерений[1]. В то же время, «производные данные» (согласно второму словарю) -- это постоянно-хранимая информация, которую используют специалисты в своей повседневной работе.

Применение

Нередко возникают ситуации, когда получение реальных данных сложно или дорого, но при этом известны требования к таким объектам, правила их генерации и законы распределения. Как правило, это происходит, когда речь идёт о чувствительных персональных данных — например, информации о банковских счетах. В таких случаях необходимые наборы данных можно программно сгенерировать.

Сгенерированные объекты можно использовать в задаче обучения с учителем для расширения обучающего множества, сведя её к задачам частичного обучения и самообучения. В тестовых множествах использовать синтетические наборы данных нельзя: в них должны быть только реальные объекты.

При генерации синтетических наборов данных необходимо учитывать специфику каждого конкретного случая, общего универсального способа генерации данных не существует.

Генерация

Существует два основных подхода к генерации синтетических наборов данных.

В случае, когда реальные данные отсутствуют, наборы генерируются полностью случайным образом на основе некой статистической модели, которая учитывает законы распределения реальных данных. Однако, такой подход не всегда оправдывает себя из-за того, что синтетические данные могут не учитывать весь спектр случаев (переформулировать).

Также применяется аугментация — генерация наборов на основе имеющихся реальных данных. К имеющимся данным применяются различные способы искажения: например, для изображений могут использоваться различные геометрические преобразования, искажения цвета, кадрирование, поворот, добавление шума и иные.

Примеры

Тут какие наборы бывают.

Примечания

  1. McGraw - Hill dictionary of scientific and technical terms / Под ред. Sybil P. Parker. - 3-е изд. - New York: McGraw - Hill book co., 1984