Выброс — различия между версиями

Версия 03:48, 29 ноября 2018

Выброс(англ. outliers) - такая часть во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.

Содержание

1 Причины возникновения выбросов
2 Методы обнаружения и борьбы с выбросами
- 2.1 Методы обнаружения выбросов
- 2.2 Алгоритмы борьбы с выбросами
3 См.также
4 Примечания

Причины возникновения выбросов

Сбой работы оборудования
Человеческий фактор
Случайность
Уникальные явления
и др.

Методы обнаружения и борьбы с выбросами

Методы обнаружения выбросов

Экстремальный анализ данных(англ. extreme value analysis). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:
- Визуализировать данные, используя диаграммы, гистограммы и _, для нахождения экстремальных значений.
- Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей.
- Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
Апроксимирующий метод (англ. proximity method). Чуть более сложный метод, заключающийся в применении кластеризующих методов.
- Использовать метод кластеризации для определения кластеров для данных.
- Идентифицировать и отметить центроиды каждого кластера.
- Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.
- Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.

Алгоритмы борьбы с выбросами

Локально взвешенное сглаживание(англ. LOcally WEighted Scatter plot Smoothing, LOWESS)

@@ Строка 29: / Строка 29: @@
 # https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/
 # https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4
+# https://habr.com/post/338868/
+# https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82
+# https://en.wikipedia.org/wiki/Sammon_mapping

Выброс — различия между версиями

Версия 03:48, 29 ноября 2018

Содержание

Причины возникновения выбросов

Методы обнаружения и борьбы с выбросами

Методы обнаружения выбросов

Алгоритмы борьбы с выбросами

См.также

Примечания

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты