Изменения

Перейти к: навигация, поиск

Генерация объектов

118 байт добавлено, 23:55, 21 апреля 2020
Используемые методы
'''SMOTE''' (''Synthetic Minority Oversampling Technique'') – генерация искусственных примеров, не совпадающих с имеющимися в выборке. Этот алгоритм во многом основан на [[Метрический классификатор и метод ближайших соседей | методе ближайшего соседа]]. Для создания новой записи находят разность <tex>d=X_b–X_a</tex>, где <tex>X_a,X_b</tex> – векторы признаков «соседних» примеров <tex>a </tex> и <tex>b </tex> из миноритарного класса (их находят так же, как в методе ''kNN''). В данном случае необходимо и достаточно для примера <tex>b </tex> получить набор из <tex>k </tex> соседей, из которого в дальнейшем будет выбрана запись <tex>b</tex>. Далее из <tex>d </tex> путем умножения каждого его элемента на случайное число в интервале <tex>(0, 1)</tex> получают <tex>d</tex>. Вектор признаков нового примера вычисляется путем сложения <tex>XaX_a</tex> и <tex>d</tex>. Алгоритм SMOTE позволяет задавать количество записей, которое необходимо искусственно сгенерировать. Степень сходства примеров <tex>a </tex> и <tex>b </tex> можно регулировать путем изменения значения ''<tex>k'' </tex> (числа ближайших соседей). <br />
[[File:SMOTE_GEN.gif|none|frame|Пример работы алгоритма SMOTE]]
'''ASMO''' (''Adaptive Synthetic Minority Oversampling'') – алгоритм адаптивного искусственного увеличения числа примеров миноритарного класса, модифицирующий SMOTE. В случае, если миноритарные примеры равномерно распределены среди мажоритарных и имеют низкую плотность, алгоритм SMOTE только сильнее перемешает классы. В качестве решения данной проблемы был предложен алгоритм ASMO. Он применяется, если для каждого <tex>i</tex>-ого примера миноритарного класса из <tex>k </tex> ближайших соседей <tex>g (g≤k)</tex> принадлежит к мажоритарному. В этом случае на основании примеров миноритарного класса выделяется несколько кластеров и для примеров каждого кластера применяют SMOTE.
'''ADASYN''' (''Adaptive synthetic sampling'') – семейство методов, являющихся попыткой «адаптации» SMOTE, то есть создания объектов, с которыми на выборке будет показан лучший результат классификации. Такие методы могут: создавать больше данных на миноритарных классах, на которых обучение сложнее; искажать изменять пространство объектов в сторону точек, у которых соседи неоднородны; просто добавлять случайное искажение изменение к генерируемым точкам для создания естественного шума.
== Источники ==
Анонимный участник

Навигация