Синтетические наборы данных — различия между версиями
264264 (обсуждение | вклад) |
Nsychev (обсуждение | вклад) м |
||
Строка 1: | Строка 1: | ||
− | Синтетические данные | + | '''Синтетические данные''' — это «производные» данные, применимые в конкретной ситуации, которые не были получены путём прямого сбора и измерений<ref name="mcgrawhilldict">McGraw - Hill dictionary of scientific and technical terms / Под ред. Sybil P. Parker. - 3-е изд. - New York: McGraw - Hill book co., 1984</ref>. В то же время, «производные данные» (согласно второму словарю) -- это постоянно-хранимая информация, которую используют специалисты в своей повседневной работе. |
− | |||
− | |||
== Применение == | == Применение == | ||
− | + | Нередко возникают ситуации, когда получение реальных данных сложно или дорого, но при этом известны требования к таким объектам, правила их генерации и законы распределения. Как правило, это происходит, когда речь идёт о чувствительных персональных данных — например, информации о банковских счетах. В таких случаях необходимые наборы данных можно программно сгенерировать. | |
− | |||
− | В | ||
− | |||
− | |||
− | + | Сгенерированные объекты можно использовать в задаче обучения с учителем для расширения обучающего множества, сведя её к задачам частичного обучения и самообучения. В тестовых множествах использовать синтетические наборы данных нельзя: в них должны быть только реальные объекты. | |
+ | При генерации синтетических наборов данных необходимо учитывать специфику каждого конкретного случая, общего универсального способа генерации данных не существует. | ||
− | == | + | == Генерация == |
− | Существует | + | Существует два основных подхода к генерации синтетических наборов данных. |
− | + | В случае, когда реальные данные отсутствуют, наборы генерируются полностью случайным образом на основе некой статистической модели, которая учитывает законы распределения реальных данных. Однако, такой подход не всегда оправдывает себя из-за того, что синтетические данные могут не учитывать весь спектр случаев (переформулировать). | |
− | + | Также применяется [[wikipedia:Data_augmentation|аугментация]] — генерация наборов на основе имеющихся реальных данных. К имеющимся данным применяются различные способы искажения: например, для изображений могут использоваться различные геометрические преобразования, искажения цвета, кадрирование, поворот, добавление шума и иные. | |
− | + | * Взять что-то из [[wikipedia:Oversampling_and_undersampling_in_data_analysis]]. | |
+ | * Можно картинку из https://habr.com/ru/company/smartengines/blog/264677/ | ||
== Примеры == | == Примеры == |
Версия 15:48, 5 января 2021
Синтетические данные — это «производные» данные, применимые в конкретной ситуации, которые не были получены путём прямого сбора и измерений[1]. В то же время, «производные данные» (согласно второму словарю) -- это постоянно-хранимая информация, которую используют специалисты в своей повседневной работе.
Содержание
Применение
Нередко возникают ситуации, когда получение реальных данных сложно или дорого, но при этом известны требования к таким объектам, правила их генерации и законы распределения. Как правило, это происходит, когда речь идёт о чувствительных персональных данных — например, информации о банковских счетах. В таких случаях необходимые наборы данных можно программно сгенерировать.
Сгенерированные объекты можно использовать в задаче обучения с учителем для расширения обучающего множества, сведя её к задачам частичного обучения и самообучения. В тестовых множествах использовать синтетические наборы данных нельзя: в них должны быть только реальные объекты.
При генерации синтетических наборов данных необходимо учитывать специфику каждого конкретного случая, общего универсального способа генерации данных не существует.
Генерация
Существует два основных подхода к генерации синтетических наборов данных.
В случае, когда реальные данные отсутствуют, наборы генерируются полностью случайным образом на основе некой статистической модели, которая учитывает законы распределения реальных данных. Однако, такой подход не всегда оправдывает себя из-за того, что синтетические данные могут не учитывать весь спектр случаев (переформулировать).
Также применяется аугментация — генерация наборов на основе имеющихся реальных данных. К имеющимся данным применяются различные способы искажения: например, для изображений могут использоваться различные геометрические преобразования, искажения цвета, кадрирование, поворот, добавление шума и иные.
- Взять что-то из wikipedia:Oversampling_and_undersampling_in_data_analysis.
- Можно картинку из https://habr.com/ru/company/smartengines/blog/264677/
Примеры
Тут какие наборы бывают.
Примечания
- ↑ McGraw - Hill dictionary of scientific and technical terms / Под ред. Sybil P. Parker. - 3-е изд. - New York: McGraw - Hill book co., 1984