115
правок
Изменения
Выброс
,Нет описания правки
'''Выброс'''(англ. outliers) - такая часть во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.
===Причины возникновения выбросов===
Причины возникновения выбросов могут быть различными. Например:
* Сбой работы оборудования
* Человеческий фактор
* Случайность
* Уникальные явления
* и др.
==Методы обнаружения и борьбы с выбросами=====Методы обнаружения выбросов===# Экстремальный анализ данных(англ. extreme value analysis). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:#* Визуализировать данные, используя диаграммы, гистограммы и _, для нахождения экстремальных значений. #* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. #* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.# Апроксимирующий метод (англ. proximity method). Чуть более сложный метод, заключающийся в применении кластеризующих методов.#* Использовать метод кластеризации для определения кластеров для данных.#* Идентифицировать и отметить центроиды каждого кластера.#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели. ===Алгоритмы борьбы с выбросами===# Локально взвешенное сглаживание(англ. LOcally WEighted Scatter plot Smoothing, LOWESS)
==См.также==
==Примечания==
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4