Изменения

Перейти к: навигация, поиск

Алгоритмы сэмплирования

53 байта убрано, 08:21, 20 марта 2020
Нет описания правки
Неравномерное распределение может быть следующих типов:
* Недостаточное представление класса в переменной предикторе (независимой переменной);* Недостаточное представление класса в критериальной переменной (зависимой переменной).
Многие модели машинного обучения, например, нейронные сети, дают более надежные прогнозы на основе обучения со сбалансированными данными. Однако некоторые аналитические методы, в частности [[Линейная_регрессия|линейная регрессия]] и [[Логистическая_регрессия|логистическая регрессия]], не получают дополнительного преимущества.
Когда в обучающем наборе данных доля примеров некоторого класса слишком мала, такие классы называются '''миноритарными''' (англ. ''minority''), другие, сильно представленныесо слишком большим количеством представителей, — '''мажоритарными''' (англ. ''majority''). Подобные тенденции хорошо заметны в кредитном скоринге, в медицине, в директ-маркетинге.
Следует отметить то, что значимость ошибочной классификации может быть разной. Неверная классификация примеров миноритарного класса, как правило, обходится в разы дороже, чем ошибочная классификация примеров мажоритарного класса. Например, при классификации людей, обследованных в больнице, на больных раком (миноритарный класс) и здоровых (мажоритарный класс) лучше будет отправить на дополнительное обследование здоровых пациентов, чем пропустить людей с раком.
* '''Cубдискретизация''' (англ. ''under-sampling'') {{---}} удаление некоторого количества примеров мажоритарного класса.
* '''Передискретизации''' (англ. ''over-sampling'') {{---}} увеличение количества примеров миноритарного класса.
* '''КомбинированниеКомбинирование''' (англ. ''сombining over- and under-sampling'') {{---}} последовательное применение субдискретизации и передискретизации.
* '''Ансамбль сбалансированных наборов''' (англ. ''ensemble balanced sets'') {{---}} использование встроенных методов сэмплирования в процессе построения ансамблей классификаторов.
* KMeans-SMOTE<ref> [https://en.wikipedia.org Sampling_(statistics)]</ref>
=== Комбинированние Комбинирование ===
* SMOTE <math>+</math> Tomek links<ref> [https://en.wikipedia.org Sampling_(statistics)]</ref>
* SMOTE <math>+</math> ENN<ref> [https://en.wikipedia.org Sampling_(statistics)]</ref>
302
правки

Навигация