Выброс — различия между версиями
Fest (обсуждение | вклад) м (→Примечания) |
Fest (обсуждение | вклад) м |
||
Строка 10: | Строка 10: | ||
===Методы обнаружения выбросов=== | ===Методы обнаружения выбросов=== | ||
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков: | # Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков: | ||
− | #* Визуализировать данные, используя диаграммы и | + | #* Визуализировать данные, используя диаграммы, гистограммы и _, для нахождения экстремальных значений. |
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. | #* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. | ||
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели. | #* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели. | ||
Строка 19: | Строка 19: | ||
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели. | #* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели. | ||
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. | # Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. | ||
− | #* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA'' | + | #* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA'') или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM'') или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''), для суммирования обучающих данных в двух измерениях. |
#* Визуализировать отображение | #* Визуализировать отображение | ||
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов. | #* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов. | ||
Строка 25: | Строка 25: | ||
===Алгоритмы борьбы с выбросами=== | ===Алгоритмы борьбы с выбросами=== | ||
− | * Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'') | + | * Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS''). |
ВХОД: <math>X^\ell</math> (-) обучающая выборка; | ВХОД: <math>X^\ell</math> (-) обучающая выборка; | ||
ВЫХОД: коэффиценты <math>\gamma_i, i = 1,...,\ell</math>; | ВЫХОД: коэффиценты <math>\gamma_i, i = 1,...,\ell</math>; | ||
Строка 37: | Строка 37: | ||
6: <math>\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );</math> | 6: <math>\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );</math> | ||
7: пока коэффиценты <math>\gamma_i</math> не стабилизируются; | 7: пока коэффиценты <math>\gamma_i</math> не стабилизируются; | ||
− | Пример. Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона'' | + | Пример. Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона'' по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов <math>w_i</math> на коэффиценты <math>\gamma_i=\widetilde{K}\left(\varepsilon_i\right)</math>, значения которых тем меньше, чем величина ошибки <math>\varepsilon_i</math>. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) <math>\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)</math>, где <math>Me\left \{\varepsilon_i\right \}</math> — медиана множества значений <math>\varepsilon_i</math>. |
− | Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. Помимо описанного метода к ''робастным'' методам можно также отнести деревья принятия решения (англ. ''decision tree'') | + | Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. Помимо описанного метода к ''робастным'' методам можно также отнести деревья принятия решения (англ. ''decision tree''). |
==См.также== | ==См.также== | ||
Строка 47: | Строка 47: | ||
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/ | # https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/ | ||
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4 | # https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4 | ||
+ | # https://habr.com/post/338868/ | ||
+ | # https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 | ||
+ | # https://en.wikipedia.org/wiki/Sammon_mapping | ||
+ | # http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 | ||
+ | # http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf | ||
+ | # https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 |
Версия 06:32, 29 ноября 2018
Выброс(англ. outliers) — такая часть во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.
Содержание
Причины возникновения выбросов
- Сбой работы оборудования
- Человеческий фактор
- Случайность
- Уникальные явления
- и др.
Методы обнаружения и борьбы с выбросами
Методы обнаружения выбросов
- Экстремальный анализ данных(англ. extreme value analysis). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:
- Визуализировать данные, используя диаграммы, гистограммы и _, для нахождения экстремальных значений.
- Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей.
- Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
- Апроксимирующий метод (англ. proximity method). Чуть более сложный метод, заключающийся в применении кластеризующих методов.
- Использовать метод кластеризации для определения кластеров для данных.
- Идентифицировать и отметить центроиды каждого кластера.
- Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.
- Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
- Проецирующие методы (англ. projections methods). Эти методы довольно быстро и просто определяют выбросы в выборке.
- Использовать один из проецирующих методов, например метод главных компонент (англ. principal component analysis, PCA) или самоорганизующиеся карты Кохонена(англ. self-organizing map, SOM) или проекцию Саммона(англ. Sammon mapping, Sammon projection), для суммирования обучающих данных в двух измерениях.
- Визуализировать отображение
- Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. codebook vector) для идентифицирования выбросов.
- Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
Алгоритмы борьбы с выбросами
- Локально взвешенное сглаживание(англ. LOcally WEighted Scatter plot Smoothing, LOWESS).
ВХОД:(-) обучающая выборка; ВЫХОД: коэффиценты ; ________________________________________________________ 1: инициализация: ; 2: повторять 3: для всех объектов ; 4: вычислить оценки скользящего контроля: 5: для всех объектов ; 6: 7: пока коэффиценты не стабилизируются;
Пример. Допустим мы пытаемся восстановить зависимость, используя формулу Надарая-Ватсона по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов
на коэффиценты , значения которых тем меньше, чем величина ошибки . Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) , где — медиана множества значений . Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются робастными. Метод локально взвешенного сглаживания относится к робастным методам, так как он устойчив к наличию небольшого количества выбросов. Помимо описанного метода к робастным методам можно также отнести деревья принятия решения (англ. decision tree).См.также
Примечания
- https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/
- https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4
- https://habr.com/post/338868/
- https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82
- https://en.wikipedia.org/wiki/Sammon_mapping
- http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0
- http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf
- https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9