Изменения

Синтетические наборы данных

612 байт добавлено, 15:48, 5 января 2021

м

Нет описания правки

'''Синтетические данные -- ''' — это ~~любые "производные"~~ «производные» данные, применимые в конкретной ситуации, которые не были получены путём прямого сбора и измерений <ref name="mcgrawhilldict">McGraw-Hill ~~Dictionary~~ dictionary of ~~Scientific~~ scientific and ~~Technical Terms~~technical terms / Под ред. Sybil P. Parker. - 3-е изд. - New York: McGraw - Hill book co. ~~Retrieved November 29~~, ~~2009.">~~1984</ref>. В то же время, ~~"производные данные"~~ «производные данные» (согласно второму словарю) -- это постоянно-хранимая информация, которую используют специалисты в своей повседневной работе. ~~Методы их генерации обычно специфичны для каждого конкретного случая~~.

== Применение ==

~~Применение синтетических данных оправдано в тех случаях~~Нередко возникают ситуации, когда ~~реальные измерения проводить либо~~ получение реальных данных сложно~~, либо~~ или дорого, но при этом известны требования к таким объектам, правила их генерации и законы распределения ~~для реальных данных~~. ~~В задачах обучения с учителем можно расширить обучающее множество сгенерированными объектами~~Как правило, однако в тестовом множестве должны присутствовать лишь реальные объекты. В таком случае задача обучения с учителем сводится к задачам частичного обучения и самообучения.~~В некоторых случаях~~это происходит, ~~разработчикам недоступны реальные данные~~когда речь идёт о чувствительных персональных данных — например, ~~например данные~~ информации о банковских счетах ~~и другие sensitive data~~. В таком случае, если известно, каким требованиям должны удовлетворять реальные объекты, а также владея информацией об их предположительных распределениях, таких случаях необходимые наборы данных можно ~~также применить генерацию.~~ Не существует единого способа генерации данных, применимого во всех ситуациях, для каждого конкретного случая необходимо учитывать его спецификупрограммно сгенерировать.

~~Применение синтетических данных~~ Сгенерированные объекты можно использовать в ~~задачах~~ задаче обучения с учителем ~~или~~ для расширения обучающего множества, сведя её к задачам частичного обучения ~~возможно только~~ и самообучения. В тестовых множествах использовать синтетические наборы данных нельзя: в ~~обучающем множестве. Тестовое множество должно содержать~~ них должны быть только реальные объекты.

При генерации синтетических наборов данных необходимо учитывать специфику каждого конкретного случая, общего универсального способа генерации данных не существует.

== ~~Как их получать~~ Генерация ==

Существует ~~несколько подходов~~ два основных подхода к генерации синтетических наборов данных:.

*В случае, когда реальные данные отсутствуют, наборы генерируются полностью случайным образом на основе некой статистической модели, которая учитывает законы распределения реальных данных. Однако, такой подход не всегда оправдывает себя из-за того, что синтетические данные могут не учитывать весь спектр случаев (переформулировать) ~~Генерация датасета полностью;~~.

*) Анализ и расширение уже Также применяется [[wikipedia:Data_augmentation|аугментация]] — генерация наборов на основе имеющихся реальных данных ~~синтетическими (аугментация?)~~. К имеющимся данным применяются различные способы искажения: например, для изображений могут использоваться различные геометрические преобразования, искажения цвета, кадрирование, поворот, добавление шума и иные.

~~Ну вот берём и получаем~~* Взять что-то из [[wikipedia:Oversampling_and_undersampling_in_data_analysis]].* Можно картинку из https://habr.com/ru/company/smartengines/blog/264677/

== Примеры ==

Nsychev

Администраторы

91

правка

Изменения

Синтетические наборы данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты