Изменения

Перейти к: навигация, поиск

Синтетические наборы данных

612 байт добавлено, 15:48, 5 января 2021
м
Нет описания правки
'''Синтетические данные -- ''' — это любые "производные" «производные» данные, применимые в конкретной ситуации, которые не были получены путём прямого сбора и измерений <ref name="mcgrawhilldict">McGraw-Hill Dictionary dictionary of Scientific scientific and Technical Termstechnical terms / Под ред. Sybil P. Parker. - 3-е изд. - New York: McGraw - Hill book co. Retrieved November 29, 2009.">1984</ref>. В то же время, "производные данные" «производные данные» (согласно второму словарю) -- это постоянно-хранимая информация, которую используют специалисты в своей повседневной работе. Методы их генерации обычно специфичны для каждого конкретного случая.
== Применение ==
Применение синтетических данных оправдано в тех случаяхНередко возникают ситуации, когда реальные измерения проводить либо получение реальных данных сложно, либо или дорого, но при этом известны требования к таким объектам, правила их генерации и законы распределения для реальных данных. В задачах обучения с учителем можно расширить обучающее множество сгенерированными объектамиКак правило, однако в тестовом множестве должны присутствовать лишь реальные объекты. В таком случае задача обучения с учителем сводится к задачам частичного обучения и самообучения.В некоторых случаяхэто происходит, разработчикам недоступны реальные данныекогда речь идёт о чувствительных персональных данных — например, например данные информации о банковских счетах и другие sensitive data. В таком случае, если известно, каким требованиям должны удовлетворять реальные объекты, а также владея информацией об их предположительных распределениях, таких случаях необходимые наборы данных можно также применить генерацию. Не существует единого способа генерации данных, применимого во всех ситуациях, для каждого конкретного случая необходимо учитывать его спецификупрограммно сгенерировать.
Применение синтетических данных Сгенерированные объекты можно использовать в задачах задаче обучения с учителем или для расширения обучающего множества, сведя её к задачам частичного обучения возможно только и самообучения. В тестовых множествах использовать синтетические наборы данных нельзя: в обучающем множестве. Тестовое множество должно содержать них должны быть только реальные объекты.
При генерации синтетических наборов данных необходимо учитывать специфику каждого конкретного случая, общего универсального способа генерации данных не существует.
== Как их получать Генерация ==
Существует несколько подходов два основных подхода к генерации синтетических наборов данных:.
*В случае, когда реальные данные отсутствуют, наборы генерируются полностью случайным образом на основе некой статистической модели, которая учитывает законы распределения реальных данных. Однако, такой подход не всегда оправдывает себя из-за того, что синтетические данные могут не учитывать весь спектр случаев (переформулировать) Генерация датасета полностью;.
*) Анализ и расширение уже Также применяется [[wikipedia:Data_augmentation|аугментация]] — генерация наборов на основе имеющихся реальных данных синтетическими (аугментация?). К имеющимся данным применяются различные способы искажения: например, для изображений могут использоваться различные геометрические преобразования, искажения цвета, кадрирование, поворот, добавление шума и иные.
Ну вот берём и получаем* Взять что-то из [[wikipedia:Oversampling_and_undersampling_in_data_analysis]].* Можно картинку из https://habr.com/ru/company/smartengines/blog/264677/
== Примеры ==

Навигация