Изменения

Перейти к: навигация, поиск

Алгоритмы сэмплирования

1 байт добавлено, 04:58, 17 марта 2020
Нет описания правки
'''Сэмплирование''' (англ. ''data sampling'') {{---}} метод корректировки обучающей выборки с целью балансировки распределения классов в исходном наборе данных. Нужно отличать этот метод от [[Активное обучение#Методы отбора объектов |сэмплирования в активном обучении]] для отбора кандидатов и от сэмплирования в статистике<ref> [https://en.wikipedia.org/wiki/Sampling_(statistics) Sampling_(statistics)]</ref> для создания подвыборки с сохранением распределения классов.
 
Когда в обучающем наборе данных доля примеров некоторого класса слишком мала, такие классы называются '''миноритарными''' (англ. ''minority''), а другие, сильно представленные, — '''мажоритарными''' (англ. ''majority'')). Подобные тенденции хорошо заметны в кредитном скоринге, в медицине, в директ-маркетинге.
 
Следует отметить то, что значимость ошибочной классификации может быть разной. Неверная классификация примеров миноритарного класса, как правило, обходится в разы дороже, чем ошибочная классификация примеров мажоритарного класса. Например, при классификации людей обследованных в больнице на людей больных раком (миноритарный класс) и здоровых (мажоритарный класс) лучше будет отправить на дополнительное обследование здоровых пациентов, чем пропустить людей с раком.
Неравномерное распределение может быть следующих типов:
* Недостаточное представление класса в переменной предикторе (независимой переменной);
* Недостаточное представление класса в критериальной переменной (зависимойпеременной).
Многие модели машинного обучения, например, нейронные сети, дают более надежные прогнозы на основе обучения со сбалансированными данными. Однако некоторые аналитические методы, в частности [[Линейная_регрессия|линейная регрессия]] и [[Логистическая_регрессия|логистическая регрессия]], не получают дополнительного преимущества.
 
Когда в обучающем наборе данных доля примеров некоторого класса слишком мала, такие классы называются '''миноритарными''' (англ. ''minority''), другие, сильно представленные, — '''мажоритарными''' (англ. ''majority''). Подобные тенденции хорошо заметны в кредитном скоринге, в медицине, в директ-маркетинге.
 
Следует отметить то, что значимость ошибочной классификации может быть разной. Неверная классификация примеров миноритарного класса, как правило, обходится в разы дороже, чем ошибочная классификация примеров мажоритарного класса. Например, при классификации людей, обследованных в больнице, на больных раком (миноритарный класс) и здоровых (мажоритарный класс) лучше будет отправить на дополнительное обследование здоровых пациентов, чем пропустить людей с раком.
== Стратегии сэмплирования ==
* '''Cубдискретизация''' (англ. ''under-sampling'') {{---}} удаление некоторого количество количества примеров мажоритарного класса.* '''Передискретизации''' (англ. ''over-sampling'') {{---}} увеличение количество количества примеров миноритарного класса.
* '''Комбинированние''' (англ. ''сombining over- and under-sampling'') {{---}} последовательное применение субдискретизации и передискретизации.
* '''Ансамбль сбалансированных наборов''' (англ. ''ensemble balanced sets'') {{---}} использование встроенных методов сэмплирования в процессе построения ансамблей классификаторов.
=== Cубдискретизация (удаление примеров мажоритарного класса) ===
==== '''Случайное удаление примеров мажоритарного класса''' (англ. ''Random Undersampling'') ====
Это самая простая стратегиясамый простой алгоритм. Для этого рассчитывается Рассчитывается число <math>K </math> – количество мажоритарных примеров, которое необходимо удалить для достижения требуемого уровня соотношения различных классов. Затем случайным образом выбираются K мажоритарных примеров и удаляются.
На рис. <math>1</math> изображены примеры некоторого набора данных в двумерном пространстве признаков до и после использования алгоритма.
==== '''Поиск связей Томека''' (англ. ''Tomek Links'') ====
302
правки

Навигация