Изменения

Перейти к: навигация, поиск

Синтетические наборы данных

267 байт убрано, 21:59, 11 января 2021
м
Нет описания правки
Сгенерированные объекты можно использовать в задаче обучения с учителем для расширения обучающего множества, сведя её к задачам частичного обучения и самообучения. В тестовых множествах использовать синтетические наборы данных нельзя: в них должны быть только реальные объекты.
Синтетические данные используют [[wikipedia:Oversampling_and_undersampling_in_data_analysis|не только]] при недоступности реальных, но и для того, чтобы изменить распределение классов в уже имеющихся данных, дополнив их по определённому алгоритму<ref name="wiki:oversampling">Oversampling and undersampling in data analysis — https://en.wikipedia.org/wiki/Oversampling_and_undersampling_in_data_analysis — Retrieved January 11, 2020</ref>.
При генерации синтетических наборов данных необходимо учитывать специфику каждого конкретного случая, общего алгоритма, подходящего для всех случаев не существует. '''Хотя всегда можно добавить среднее как в kNN и получить какой-то набор данных Как правило, но не факт, что он будет сколь-либо репрезентативным -- не знаю, как нормально это написать. Так-то универсальный способ существует -- берёшь и копируешь объекты из датасета, либо дополняешь средними: набор? Набор! Имеет смысл? Скорее всего -- нетобщие алгоритмы наподобие добавления средних значений оказываются нерепрезентативными.'''
== Виды генерации ==

Навигация