15
правок
Изменения
Нет описания правки
Сгенерированные объекты можно использовать в задаче обучения с учителем для расширения обучающего множества, сведя её к задачам частичного обучения и самообучения. В тестовых множествах использовать синтетические наборы данных нельзя: в них должны быть только реальные объекты.
Синтетические данные используют [[wikipedia:Oversampling_and_undersampling_in_data_analysis|не только]] при недоступности реальных, но и для того, чтобы изменить распределение классов в уже имеющихся данных, дополнив их по определённому алгоритму. При генерации синтетических наборов данных необходимо учитывать специфику каждого конкретного случая, общего универсального способа генерации алгоритма, подходящего для всех случаев не существует. '''Хотя всегда можно добавить среднее как в kNN и получить какой-то набор данных , но не факт, что он будет сколь-либо репрезентативным -- не знаю, как нормально это написать. Так-то универсальный способ существует-- берёшь и копируешь объекты из датасета, либо дополняешь средними: набор? Набор! Имеет смысл? Скорее всего -- нет.'''
== Виды генерации ==
Также применяется [[wikipedia:Data_augmentation|аугментация]] — генерация наборов на основе имеющихся реальных данных. К имеющимся данным применяются различные способы искажения: например, для изображений могут использоваться различные геометрические преобразования, искажения цвета, кадрирование, поворот, добавление шума и иные. Для числовых данных могут использоваться такие искажения, как добавление объектов с усреднёнными значениями, смешивание с объектами из другого распределения, добавление случайных выбросов.
* Взять что-то из [[wikipedia:Oversampling_and_undersampling_in_data_analysis]].* '''Можно картинку из https://habr.com/ru/company/smartengines/blog/264677/--- Ну если это про схему "обучение-поиск ошибок-генерация искажений-генерация датасета", то можно, конечно, но как-то к ней отослать'''
== Достоинства ==