Изменения
→Используемые методы
'''SMOTE''' (''Synthetic Minority Oversampling Technique'') – генерация искусственных примеров, не совпадающих с имеющимися в выборке. Этот алгоритм во многом основан на [[Метрический классификатор и метод ближайших соседей | методе ближайшего соседа]]. Для создания новой записи находят разность <tex>d=Xb–XaX_b–X_a</tex>, где <tex>XaX_a,XbX_b</tex> – векторы признаков «соседних» примеров a и b из миноритарного класса (их находят так же, как в методе ''kNN''). В данном случае необходимо и достаточно для примера b получить набор из k соседей, из которого в дальнейшем будет выбрана запись b. Далее из d путем умножения каждого его элемента на случайное число в интервале <tex>(0, 1)</tex> получают <tex>d</tex>. Вектор признаков нового примера вычисляется путем сложения <tex>Xa</tex> и <tex>d</tex>. Алгоритм SMOTE позволяет задавать количество записей, которое необходимо искусственно сгенерировать. Степень сходства примеров a и b можно регулировать путем изменения значения ''k'' (числа ближайших соседей). <br />[[File:SMOTE_GEN.gif|framelessnone|frame|Пример работы алгоритма SMOTE]]
Данный подход имеет недостаток в том, что «вслепую» увеличивает плотность примерами в области слабо представленного класса:<br />
[[File:SMOTE_GEN_DISS.gif|framelessnone|Недостаток подхода frame|Пример неудачного срабатывания SMOTE]]