Алгоритмы сэмплирования
Сэмплирование (англ. data sampling) — метод корректировки обучающей выборки с целью балансировки распределения классов в исходном наборе данных.
Нередко возникают ситуации, когда в обучающем наборе данных доля примеров некоторого класса слишком мала (такие классы называются миноритарным (англ. minority), а другие, сильно представленные, — мажоритарным (англ. majority)). Такие тенденции хорошо заметны в кредитном скоринге, в медицине, в директ-маркетинге. Обученная на таких наборах данных модель может оказаться абсолютно неэффективной.
Следует отметить то, что могут отличаться и издержки ошибочной классификации. Причем неверная классификация примеров миноритарного класса, как правило, обходится в разы дороже, чем ошибочная классификация примера мажоритарного класса.
Одним из подходов для решения указанной проблемы является применение различных стратегий сэмплинга, которые можно разделить на две группы: случайные и специальные.
Восстановление баланса классов может проходить двумя путями. В первом случае удаляют некоторое количество примеров мажоритарного класса (undersampling), во втором – увеличивают количество примеров миноритарного (oversampling). Простейшие подходы сэмплинга описаны в книге «Бизнес-аналитика: от данных к знаниям» (обучение в условиях несбалансированности классов) и в учебном курсе (K.01 Корпоративные аналитические системы), а данная статья посвящена более сложным методам.
Перейдем к кратким теоретическим сведениям о наиболее распространенных стратегиях сэмплинга, а затем некоторые из них сравним, применив на наборе данных с несбалансированными классами.
Two sampling strategies We can sample from a bigger class a subsample, or upsample from a smaller class Subsampling this days is used mostly for data exploration and results validation