Выброс — различия между версиями
Fest (обсуждение | вклад) м (→Алгоритмы борьбы с выбросами) |
Fest (обсуждение | вклад) м (→Алгоритмы борьбы с выбросами) |
||
Строка 26: | Строка 26: | ||
===Алгоритмы борьбы с выбросами=== | ===Алгоритмы борьбы с выбросами=== | ||
# Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'') | # Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'') | ||
− | ВХОД: X^\hbar --- обучающая выборка; | + | ВХОД: <math>X^\hbar</math> --- обучающая выборка; |
− | ВЫХОД: коэффиценты \gamma_i, i = 1,...,\hbar; | + | ВЫХОД: коэффиценты <math>\gamma_i, i = 1,...,\hbar</math>; |
________________________________________________________ | ________________________________________________________ | ||
− | 1: инициализация: \gamma_i := 1, i = 1,...,\hbar; | + | 1: инициализация: <math>\gamma_i := 1, i = 1,...,\hbar</math>; |
2: повторять | 2: повторять | ||
− | 3: для всех объектов i = 1,...,\hbar; | + | 3: для всех объектов <math>i = 1,...,\hbar</math>; |
4: вычислить оценки скользящего контроля: | 4: вычислить оценки скользящего контроля: | ||
− | a_i := a_h(x_i;X^\hbar\setminus{x_i}) = \frac{\sum\limits^{\hbar}_{j=1,j\neqi} {y_i\gamma_jK\left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right} \right )}}{\sum\limits^{\hbar}_{j=1,j\neqi}{\gamma_jK\left ( \tfrac{\rho\left (x_i,x_j \right )}} | + | <math>a_i := a_h(x_i;X^\hbar\setminus{x_i}) = \frac{\sum\limits^{\hbar}_{j=1,j\neqi} {y_i\gamma_jK\left ( \tfrac{\rho\left (x_i,x_j \right )\right )}{h\left (x_i \right} \right )}}{\sum\limits^{\hbar}_{j=1,j\neqi}{\gamma_jK\left ( \tfrac{\rho\left (x_i,x_j \right )}}</math> |
− | 5: для всех объектов i = 1,...,\hbar; | + | 5: для всех объектов i = 1,...,\hbar</math>; |
− | 6: \gamma_i := | + | 6: <math>\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right )</math> |
− | 7: пока коэффиценты \gamma_i не стабилизируются; | + | 7: пока коэффиценты <math>\gamma_i</math> не стабилизируются; |
==См.также== | ==См.также== |
Версия 04:36, 29 ноября 2018
Выброс(англ. outliers) - такая часть во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.
Содержание
Причины возникновения выбросов
- Сбой работы оборудования
- Человеческий фактор
- Случайность
- Уникальные явления
- и др.
Методы обнаружения и борьбы с выбросами
Методы обнаружения выбросов
- Экстремальный анализ данных(англ. extreme value analysis). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:
- Визуализировать данные, используя диаграммы, гистограммы и _, для нахождения экстремальных значений.
- Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей.
- Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
- Апроксимирующий метод (англ. proximity method). Чуть более сложный метод, заключающийся в применении кластеризующих методов.
- Использовать метод кластеризации для определения кластеров для данных.
- Идентифицировать и отметить центроиды каждого кластера.
- Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.
- Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
- Проецирующие методы (англ. projections methods). Эти методы довольно быстро и просто определяют выбросы в выборке.
- Использовать один из проецирующих методов, например метод главных компонент (англ. principal component analysis, PCA) или самоорганизующиеся карты Кохонена(англ. self-organizing map, SOM) или проекцию Саммона(англ. Sammon mapping, Sammon projection), для суммирования обучающих данных в двух измерениях.
- Визуализировать отображение
- Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. codebook vector) для идентифицирования выбросов.
- Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
Алгоритмы борьбы с выбросами
- Локально взвешенное сглаживание(англ. LOcally WEighted Scatter plot Smoothing, LOWESS)
ВХОД:--- обучающая выборка; ВЫХОД: коэффиценты ; ________________________________________________________ 1: инициализация: ; 2: повторять 3: для всех объектов ; 4: вычислить оценки скользящего контроля: 5: для всех объектов i = 1,...,\hbar</math>; 6: 7: пока коэффиценты не стабилизируются;
См.также
Примечания
- https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/
- https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4
- https://habr.com/post/338868/
- https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82
- https://en.wikipedia.org/wiki/Sammon_mapping