Алгоритмы сэмплирования — различия между версиями
Строка 16: | Строка 16: | ||
* '''Комбинированние''' (англ. ''сombining over- and under-sampling'') {{---}} последовательное применение субдискретизации и передискретизации. | * '''Комбинированние''' (англ. ''сombining over- and under-sampling'') {{---}} последовательное применение субдискретизации и передискретизации. | ||
* '''Ансамбль сбалансированных наборов''' (англ. ''ensemble balanced sets'') {{---}} Создания ансамбля сбалансированных выборок путем итеративного применения субдискретизации к набору данных. | * '''Ансамбль сбалансированных наборов''' (англ. ''ensemble balanced sets'') {{---}} Создания ансамбля сбалансированных выборок путем итеративного применения субдискретизации к набору данных. | ||
+ | |||
+ | Также все методы можно разделить на две группы: случайные (недетерминированные) и специальные (детерминированные). | ||
Передискретизации, как правило, применяется чаще, чем субдискретизация. Подбор проб применяется гораздо реже. Переизбыток собранных данных стал проблемой только в эпоху «больших данных», и причины использования субдискретизация в основном практичны и связаны с затратами на ресурсы. | Передискретизации, как правило, применяется чаще, чем субдискретизация. Подбор проб применяется гораздо реже. Переизбыток собранных данных стал проблемой только в эпоху «больших данных», и причины использования субдискретизация в основном практичны и связаны с затратами на ресурсы. | ||
Строка 21: | Строка 23: | ||
== Примеры алгоритмов == | == Примеры алгоритмов == | ||
+ | === Cубдискретизация === | ||
+ | === Передискретизации=== | ||
+ | === Комбинированние === | ||
+ | === Ансамбль сбалансированных наборов=== | ||
+ | |||
+ | == Реализации == | ||
+ | |||
+ | Большинство рассмотренных алгоритмов реализованы в | ||
+ | |||
+ | == См. также == | ||
+ | |||
+ | *[[%%%%%%%%%%%%%%%%%%%%%%%%5]] | ||
+ | *[[%%%%%%%%%%%%%%%%%%%%%%%%%%%%%]] | ||
+ | == Примечания == | ||
+ | <references/> | ||
− | + | [[Категория: Машинное обучение]] | |
+ | [[Категория: Классификация и регрессия]] |
Версия 05:52, 16 марта 2020
Сэмплирование (англ. data sampling) — метод корректировки обучающей выборки с целью балансировки распределения классов в исходном наборе данных. Нужно отличать этот метод от сэмплирования в активном обучении для отбора кандидатов и от сэмплирования в статистике[1] для создания подвыборки с сохранением распределения классов.
Когда в обучающем наборе данных доля примеров некоторого класса слишком мала, такие классы называются миноритарными (англ. minority), а другие, сильно представленные, — мажоритарными (англ. majority)). Подобные тенденции хорошо заметны в кредитном скоринге, в медицине, в директ-маркетинге.
Следует отметить то, что значимость ошибочной классификации может быть разной. Неверная классификация примеров миноритарного класса, как правило, обходится в разы дороже, чем ошибочная классификация примеров мажоритарного класса. Например, при классификации людей обследованных в больнице на людей больных раком (миноритарный класс) и здоровых (мажоритарный класс) лучше будет отправить на дополнительное обследование здоровых пациентов, чем пропустить людей с раком.
Неравномерное распределение может быть следующих типов:
- Недостаточное представление класса в переменной предикторе (независимой переменной);
- Недостаточное представление класса в критериальной переменной (зависимой).
Многие модели машинного обучения, например, нейронные сети, дают более надежные прогнозы на основе обучения со сбалансированными данными. Однако некоторые аналитические методы, в частности линейная регрессия и логистическая регрессия, не получают дополнительного преимущества.
Содержание
Стратегии сэмплирования
- Cубдискретизация (англ. under-sampling) — удаление некоторого количество примеров мажоритарного класса.
- Передискретизации (англ. over-sampling) — увеличение количество примеров миноритарного класса.
- Комбинированние (англ. сombining over- and under-sampling) — последовательное применение субдискретизации и передискретизации.
- Ансамбль сбалансированных наборов (англ. ensemble balanced sets) — Создания ансамбля сбалансированных выборок путем итеративного применения субдискретизации к набору данных.
Также все методы можно разделить на две группы: случайные (недетерминированные) и специальные (детерминированные).
Передискретизации, как правило, применяется чаще, чем субдискретизация. Подбор проб применяется гораздо реже. Переизбыток собранных данных стал проблемой только в эпоху «больших данных», и причины использования субдискретизация в основном практичны и связаны с затратами на ресурсы. Переизбыток уже собранных данных стал проблемой только в эпоху «больших данных», и причины использования недостаточной выборки в основном практичны и связаны с затр%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%атами на ресурсы. В частности, хотя для получения достоверных статистических выводов требуется достаточно большой размер выборки, данные должны быть очищены перед использованием. Очистка обычно включает в себя значительную человеческую составляющую и, как правило, специфична для набора данных и аналитической проблемы, и поэтому требует времени и денег. Например:
Примеры алгоритмов
Cубдискретизация
Передискретизации
Комбинированние
Ансамбль сбалансированных наборов
Реализации
Большинство рассмотренных алгоритмов реализованы в