Выброс — различия между версиями

Версия 04:36, 29 ноября 2018

Выброс(англ. outliers) - такая часть во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.

Содержание

1 Причины возникновения выбросов
2 Методы обнаружения и борьбы с выбросами
- 2.1 Методы обнаружения выбросов
- 2.2 Алгоритмы борьбы с выбросами
3 См.также
4 Примечания

Причины возникновения выбросов

Сбой работы оборудования
Человеческий фактор
Случайность
Уникальные явления
и др.

Методы обнаружения и борьбы с выбросами

Методы обнаружения выбросов

Экстремальный анализ данных(англ. extreme value analysis). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:
- Визуализировать данные, используя диаграммы, гистограммы и _, для нахождения экстремальных значений.
- Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей.
- Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
Апроксимирующий метод (англ. proximity method). Чуть более сложный метод, заключающийся в применении кластеризующих методов.
- Использовать метод кластеризации для определения кластеров для данных.
- Идентифицировать и отметить центроиды каждого кластера.
- Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.
- Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
Проецирующие методы (англ. projections methods). Эти методы довольно быстро и просто определяют выбросы в выборке.
- Использовать один из проецирующих методов, например метод главных компонент (англ. principal component analysis, PCA) или самоорганизующиеся карты Кохонена(англ. self-organizing map, SOM) или проекцию Саммона(англ. Sammon mapping, Sammon projection), для суммирования обучающих данных в двух измерениях.
- Визуализировать отображение
- Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. codebook vector) для идентифицирования выбросов.
- Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.

Алгоритмы борьбы с выбросами

Локально взвешенное сглаживание(англ. LOcally WEighted Scatter plot Smoothing, LOWESS)

ВХОД: [math]X^\hbar[/math] --- обучающая выборка;
ВЫХОД: коэффиценты [math]\gamma_i, i = 1,...,\hbar[/math];
________________________________________________________
1: инициализация: [math]\gamma_i := 1, i = 1,...,\hbar[/math];
2: повторять
3:   для всех объектов [math]i = 1,...,\hbar[/math];
4:     вычислить оценки скользящего контроля:
       [math]a_i := a_h(x_i;X^\hbar\setminus{x_i}) = \frac{\sum\limits^{\hbar}_{j=1,j\neqi} {y_i\gamma_jK\left ( \tfrac{\rho\left (x_i,x_j \right )\right )}{h\left (x_i \right} \right )}}{\sum\limits^{\hbar}_{j=1,j\neqi}{\gamma_jK\left ( \tfrac{\rho\left (x_i,x_j \right )}}[/math]
5:   для всех объектов i = 1,...,\hbar</math>;
6:     [math]\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right )[/math]
7: пока коэффиценты [math]\gamma_i[/math] не стабилизируются;

@@ Строка 26: / Строка 26: @@
 ===Алгоритмы борьбы с выбросами===
 # Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')
-  ВХОД: X^\hbar --- обучающая выборка;
+  ВХОД: <math>X^\hbar</math> --- обучающая выборка;
-  ВЫХОД: коэффиценты \gamma_i, i = 1,...,\hbar;
+  ВЫХОД: коэффиценты <math>\gamma_i, i = 1,...,\hbar</math>;
   ________________________________________________________
-: инициализация: \gamma_i := 1, i = 1,...,\hbar;
+: инициализация: <math>\gamma_i := 1, i = 1,...,\hbar</math>;
 : повторять
-:   для всех объектов i = 1,...,\hbar;
+:   для всех объектов <math>i = 1,...,\hbar</math>;
 :     вычислить оценки скользящего контроля:
-         a_i := a_h(x_i;X^\hbar\setminus{x_i}) = \frac{\sum\limits^{\hbar}_{j=1,j\neqi} {y_i\gamma_jK\left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right} \right )}}{\sum\limits^{\hbar}_{j=1,j\neqi}{\gamma_jK\left ( \tfrac{\rho\left (x_i,x_j \right )}}
+         <math>a_i := a_h(x_i;X^\hbar\setminus{x_i}) = \frac{\sum\limits^{\hbar}_{j=1,j\neqi} {y_i\gamma_jK\left ( \tfrac{\rho\left (x_i,x_j \right )\right )}{h\left (x_i \right} \right )}}{\sum\limits^{\hbar}_{j=1,j\neqi}{\gamma_jK\left ( \tfrac{\rho\left (x_i,x_j \right )}}</math>
-:   для всех объектов i = 1,...,\hbar;
+:   для всех объектов i = 1,...,\hbar</math>;
-:     \gamma_i :=
+:     <math>\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right )</math>
-: пока коэффиценты \gamma_i не стабилизируются;
+: пока коэффиценты <math>\gamma_i</math> не стабилизируются;
 ==См.также==

Выброс — различия между версиями

Версия 04:36, 29 ноября 2018

Содержание

Причины возникновения выбросов

Методы обнаружения и борьбы с выбросами

Методы обнаружения выбросов

Алгоритмы борьбы с выбросами

См.также

Примечания

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты