Изменения

Перейти к: навигация, поиск

Выброс

332 байта добавлено, 10:54, 25 января 2020
Источники информации
[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]
'''Выброс''' (англ. ''outlier'') {{---}} небольшая доля объектов это экстремальные значения во входных данных, которая сильно выделяется из общей выборкикоторые находятся далеко за пределами других наблюдений. Например, все предметы на кухне имеют температуру около 22-25 грудусов Цельсия, а {{---}} духовка 220.  Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений признаков обрабатываемых объектов. Соответственно, выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.
===Виды выбросов===
Выбросы могут быть двух видов: На основе размерности изучаемого массива данных выбросы подразделяют на одномерные и многомерные. ;Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одномерном пространстве:Точка является выбросом только по одной из своих координат. ;Многомерные выбросы можно найти в <tex>n</tex>-мерном пространстве (из <tex>n</tex> объектов). Рассмотрение распределений в <tex>n</tex>-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это:Точка является выбросом сразу по нескольким координатам.
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы Другой подход классификации выбросов {{---}} по их окружению.;Точечные выбросы единичные :Единичные точки данных, расположенные далеко от остальной части распределениявыбивающиеся из общей картины. Контекстные выбросы могут представлять собой шум Точечные аномалии часто используются в данныхсистемах контроля транзакций для выявления мошенничества, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речикогда с украденной карты совершается крупная покупка.;Контекстуальные выбросы:Для того, чтобы определить, является ли точка выбросом необходим контекст. Например, в Петербурге +15 градусов Цельсия. Зимой такая температура является выбросом, а летом нет. ;Коллективные выбросы :Здесь выбросом является не точка, а группа точек. Примером таких выбросов могут быть подмножествами новшеств в данныхслужить, например, таких как сигналзадержки поставок на фабрике. Одна задержка не является выбросом. Но если их много, который значит это может указывать на открытие новых явленийстать проблемой.
===Причины возникновения выбросов===
Чем больше величина невязки <math>\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |</math>, тем меньше должен быть вес i-го объекта <math>\omega_i(x)</math>.
====Эвристика====
Домножить веса <math>\omega_i(x)</math> на коэффиценты коэффициенты <math>\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )</math>, где <math>\widetilde{K}\left ( \varepsilon \right )</math> — ещё одно ядро, вообще говоря, отличное от <math>K\left ( \rho \right )</math>.
====Псевдокод====
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов.
* [[Дерево решений и случайный лес|Дерево принятия решения]] (англ. ''decision tree''<ref>[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]</ref>). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам;
* [[Вариации регрессии|Робастная регрессия]] (англ. ''robust regression''<ref>[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]</ref>). В отличии отличие от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок <math>\varepsilon</math> распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''<ref>[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]</ref>) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution <ref>[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]</ref>).
==См.также==
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4
# https://www.reg.ru/blog/ishchem-anomalii-s-python-chast-1/
 
[[Категория: Машинное обучение]]
[[Категория: Статистика]]
Анонимный участник

Навигация