Изменения

Выброс

48 байт добавлено, 03:58, 29 ноября 2018

м

Нет описания правки

'''Выброс'''(англ. ''outliers'') - такая часть во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.

===Причины возникновения выбросов===

* Сбой работы оборудования

==Методы обнаружения и борьбы с выбросами==

===Методы обнаружения выбросов===

# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:

#* Визуализировать данные, используя диаграммы, гистограммы и _, для нахождения экстремальных значений.

#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей.

#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.

# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.

#* Использовать метод кластеризации для определения кластеров для данных.

#* Идентифицировать и отметить центроиды каждого кластера.

#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.

#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.

# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. #* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA'') или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM'') или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''), для суммирования обучающих данных в двух измерениях.

#* Визуализировать отображение

#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.

#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.

===Алгоритмы борьбы с выбросами===

# Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')

==См.также==

Fest

115

правок

Изменения

Выброс

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты