Изменения

Перейти к: навигация, поиск

Алгоритмы сэмплирования

510 байт добавлено, 08:41, 20 марта 2020
Нет описания правки
'''Сэмплирование''' (англ. ''data sampling'') {{---}} метод корректировки обучающей выборки с целью балансировки распределения классов в исходном наборе данных. Нужно отличать этот метод от [[Активное обучение#Методы отбора объектов |сэмплирования в активном обучении]] для отбора кандидатов и от сэмплирования в статистике<ref> [https://en.wikipedia.org/wiki/Sampling_(statistics) Sampling_Sampling (statistics)]</ref> для создания подвыборки с сохранением распределения классов.
Неравномерное распределение может быть следующих типов:
* являющиеся соседями миноритарных примеров, которые были неверно классифицированы.
==== Дополнительные ====
* Under-sampling with Cluster Centroids<ref> [httpshttp://enwww.wikipediasciencedirect.org Sampling_(statistics)com/science/article/pii/S0957417408003527 Show-Jane Yen, Yue-Shi Lee,Cluster-based under-sampling approaches for imbalanced data distributions, Expert Systems with Applications, Volume 36, Issue 3, Part 1, 2009, Pages 5718-5727, ISSN 0957-4174]</ref>{{---}} уменьшает количество примеров мажоритарного класса, заменяя некоторые кластеры примеров мажоритарного класса их представителем (центроидом кластера).
* NearMiss <math>(1 \And 2 \And 3)</math><ref> [https://en.wikipedia.org Sampling_(statistics)]</ref>
* Edited Nearest Neighbours<ref> [https://en.wikipedia.org Sampling_(statistics)]</ref>
302
правки

Навигация