Изменения
→Оверсэмплинг
'''SMOTE''' (''Synthetic Minority Oversampling Technique'') – генерация искусственных примеров, не совпадающих с имеющимися в выборке. Этот алгоритм во многом основан на [[Метрический классификатор и метод ближайших соседей | методе ближайшего соседа]]. Для создания новой записи находят разность <tex>d=X_b–X_a</tex>, где <tex>X_a,X_b</tex> – векторы признаков «соседних» примеров <tex>a</tex> и <tex>b</tex> из миноритарного класса (их находят так же, как в методе ''kNN''). В данном случае необходимо и достаточно для примера <tex>b</tex> получить набор из <tex>k</tex> соседей, из которого в дальнейшем будет выбрана запись <tex>b</tex>. Далее из <tex>d</tex> путем умножения каждого его элемента на случайное число в интервале <tex>(0, 1)</tex> получают <tex>d</tex>. Вектор признаков нового примера вычисляется путем сложения <tex>X_a</tex> и <tex>d</tex>. Алгоритм SMOTE позволяет задавать количество записей, которое необходимо искусственно сгенерировать. Степень сходства примеров <tex>a</tex> и <tex>b</tex> можно регулировать путем изменения значения <tex>k</tex> (числа ближайших соседей). Пример работы алгоритма продемонстрирован на рис. 1. <br />
[[File:SMOTE_GEN.gif|none|frame|Рис. 1 . Пример работы алгоритма SMOTE]]
Данный подход имеет недостаток в том, что «вслепую» увеличивает плотность примерами в области слабо представленного класса. Пример такого увеличения изображён на рис. 2.<br />
[[File:SMOTE_GEN_DISS.gif|none|frame|Рис. 2 . Пример неудачного срабатывания SMOTE]]