Изменения

Перейти к: навигация, поиск

Алгоритмы сэмплирования

1480 байт добавлено, 05:42, 16 марта 2020
Нет описания правки
'''Сэмплирование''' (англ. ''data sampling'') {{---}} метод корректировки обучающей выборки с целью балансировки распределения классов в исходном наборе данных. Нужно отличать этот метод от [[Активное обучение#Методы отбора объектов |сэмплирования в активном обучении]] для отбора кандидатов и от сэмплирования в статистике<ref> [https://en.wikipedia.org/wiki/Sampling_(statistics) Sampling_(statistics)]</ref> для создания подвыборки с сохранением распределения классов.
Когда в обучающем наборе данных доля примеров некоторого класса слишком мала, такие классы называются '''миноритарными''' (англ. ''minority''), а другие, сильно представленные, — '''мажоритарными''' (англ. ''majority'')). Подобные тенденции хорошо заметны в кредитном скоринге, в медицине, в директ-маркетинге. Следует отметить то, что значимость ошибочной классификации может быть разной. Неверная классификация примеров миноритарного класса, как правило, обходится в разы дороже, чем ошибочная классификация примеров мажоритарного класса. Например, при классификации людей обследованных в больнице на людей больных раком (миноритарный класс) и здоровых (мажоритарный класс) лучше будет отправить на дополнительное обследование здоровых пациентов, чем пропустить людей с раком. Неравномерное распределения данных распределение может быть следующих типов:
* Недостаточное представление класса в переменной предикторе (независимой переменной);
* Недостаточное представление класса в критериальной переменной (зависимой).
Нередко возникают ситуацииМногие модели машинного обучения, когда в обучающем наборе данных доля примеров некоторого класса слишком мала, такие классы называются '''миноритарными''' (англ. ''minority''), а другие, сильно представленные, — '''мажоритарными''' (англ. ''majority'')). Такие тенденции хорошо заметны в кредитном скорингенапример, в медициненейронные сети, в директ-маркетинге. Построенный дают более надежные прогнозы на таких наборах данных классификатор может оказаться абсолютно неэффективнымоснове обучения со сбалансированными даннымиСледует отметить тоОднако некоторые аналитические методы, что может различаться значимость ошибочной классификации. Неверная классификация примеров миноритарного класса, как правило, обходится в разы дороже, чем ошибочная классификация примеров мажоритарного класса. Например, при классификации людей обследованных в больнице на людей больных раком (миноритарный класс) частности [[Линейная_регрессия|линейная регрессия]] и здоровых (мажоритарный класс).     Одним из подходов для решения указанной проблемы является применение различных стратегий сэмплинга[[Логистическая_регрессия|логистическая регрессия]], которые можно разделить на две группы: случайные и специальныене получают дополнительного преимущества.
Восстановление баланса классов может проходить двумя путями== Стратегии сэмплирования ==* '''Cубдискретизация''' (англ. В первом случае удаляют некоторое ''under-sampling'') {{---}} удаление некоторого количество примеров мажоритарного класса .* '''Передискретизации''' (undersamplingангл. ''over-sampling''), во втором – увеличивают {{---}} увеличение количество примеров миноритарного класса.* '''Комбинированние''' (oversampling)англ. Простейшие подходы сэмплинга описаны в книге «Бизнес''сombining over- and under-аналитика: от данных к знаниям» (обучение в условиях несбалансированности классовsampling'') {{---}} последовательное применение субдискретизации и в учебном курсе передискретизации.* '''Ансамбль сбалансированных наборов''' (Kангл.01 Корпоративные аналитические системы''ensemble balanced sets''), а данная статья посвящена более сложным методам{{---}} Создания ансамбля сбалансированных выборок путем итеративного применения субдискретизации к набору данных.
Перейдем к кратким теоретическим сведениям о наиболее распространенных стратегиях сэмплингаПередискретизации, а затем некоторые из них сравнимкак правило, применив применяется чаще, чем субдискретизация. Подбор проб применяется гораздо реже. Переизбыток собранных данных стал проблемой только в эпоху «больших данных», и причины использования субдискретизация в основном практичны и связаны с затратами на наборе ресурсы.Переизбыток уже собранных данных стал проблемой только в эпоху «больших данных», и причины использования недостаточной выборки в основном практичны и связаны с несбалансированными классамизатр%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%атами на ресурсы. В частности, хотя для получения достоверных статистических выводов требуется достаточно большой размер выборки, данные должны быть очищены перед использованием. Очистка обычно включает в себя значительную человеческую составляющую и, как правило, специфична для набора данных и аналитической проблемы, и поэтому требует времени и денег.Например:
Two sampling strategiesWe can sample from a bigger class a subsample, or upsample from a smaller class Subsampling this days is used mostly for data exploration and results validation == Примеры алгоритмов ==
== Постановка задачи сэмплирования ==
302
правки

Навигация