Изменения

Перейти к: навигация, поиск

Алгоритмы сэмплирования

1189 байт добавлено, 05:02, 16 марта 2020
Нет описания правки
'''Сэмплирование''' (англ. ''data sampling'') {{---}} метод корректировки обучающей выборки с целью балансировки распределения классов в исходном наборе данных.Нужно отличать этот метод от [[Активное обучение#Методы отбора объектов |сэмплирования в активном обучении]] для отбора кандидатов и от сэмплирования в статистике<ref> [https://en.wikipedia.org/wiki/Sampling_(statistics) Sampling_(statistics)]</ref> для создания подвыборки с сохранением распределения классов.  Неравномерное распределения данных может быть следующих типов:* Недостаточное представление класса в переменной предикторе (независимой переменной);* Недостаточное представление класса в критериальной переменной (зависимой). Нередко возникают ситуации, когда в обучающем наборе данных доля примеров некоторого класса слишком мала, такие классы называются '''миноритарными''' (англ. ''minority''), а другие, сильно представленные, — '''мажоритарными''' (англ. ''majority'')). Такие тенденции хорошо заметны в кредитном скоринге, в медицине, в директ-маркетинге. Построенный на таких наборах данных классификатор может оказаться абсолютно неэффективным. Следует отметить то, что может различаться значимость ошибочной классификации. Неверная классификация примеров миноритарного класса, как правило, обходится в разы дороже, чем ошибочная классификация примеров мажоритарного класса. Например, при классификации людей обследованных в больнице на людей больных раком (миноритарный класс) и здоровых (мажоритарный класс).  
Нередко возникают ситуации, когда в обучающем наборе данных доля примеров некоторого класса слишком мала (такие классы называются '''миноритарным ''' (англ. ''minority''), а другие, сильно представленные, — '''мажоритарным''' (англ. ''majority'')). Такие тенденции хорошо заметны в кредитном скоринге, в медицине, в директ-маркетинге. Обученная на таких наборах данных модель может оказаться абсолютно неэффективной.
Следует отметить то, что могут отличаться и издержки ошибочной классификации. Причем неверная классификация примеров миноритарного класса, как правило, обходится в разы дороже, чем ошибочная классификация примера мажоритарного класса.
Одним из подходов для решения указанной проблемы является применение различных стратегий сэмплинга, которые можно разделить на две группы: случайные и специальные.
302
правки

Навигация