Выброс — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
м (Алгоритмы борьбы с выбросами)
м
Строка 1: Строка 1:
'''Выброс'''(англ. outliers) - такая часть во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.
+
'''Выброс'''(англ. ''outliers'') - такая часть во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.
 
===Причины возникновения выбросов===
 
===Причины возникновения выбросов===
 
* Сбой работы оборудования
 
* Сбой работы оборудования
Строка 9: Строка 9:
 
==Методы обнаружения и борьбы с выбросами==  
 
==Методы обнаружения и борьбы с выбросами==  
 
===Методы обнаружения выбросов===
 
===Методы обнаружения выбросов===
# Экстремальный анализ данных(англ. extreme value analysis). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:
+
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:
 
#* Визуализировать данные, используя диаграммы, гистограммы и _, для нахождения экстремальных значений.  
 
#* Визуализировать данные, используя диаграммы, гистограммы и _, для нахождения экстремальных значений.  
 
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей.  
 
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей.  
 
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
 
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
# Апроксимирующий метод (англ. proximity method). Чуть более сложный метод, заключающийся в применении кластеризующих методов.
+
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.
 
#* Использовать метод кластеризации для определения кластеров для данных.
 
#* Использовать метод кластеризации для определения кластеров для данных.
 
#* Идентифицировать и отметить центроиды каждого кластера.
 
#* Идентифицировать и отметить центроиды каждого кластера.
 
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.
 
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.
 
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
 
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
# Проецирующие методы (англ. projections methods). Эти методы довольно быстро и просто определяют выбросы в выборке.  
+
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке.  
#* Использовать один из проецирующих методов, например метод главных компонент (англ. principal component analysis, PCA) или самоорганизующиеся карты Кохонена(англ. self-organizing map, SOM) или проекцию Саммона(англ. Sammon mapping, Sammon projection), для суммирования обучающих данных в двух измерениях.
+
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA'') или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM'') или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''), для суммирования обучающих данных в двух измерениях.
 
#* Визуализировать отображение
 
#* Визуализировать отображение
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. codebook vector) для идентифицирования выбросов.
+
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.
 
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
 
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
  
 
===Алгоритмы борьбы с выбросами===
 
===Алгоритмы борьбы с выбросами===
# Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing, LOWESS'')
+
# Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')
  
 
==См.также==
 
==См.также==

Версия 03:58, 29 ноября 2018

Выброс(англ. outliers) - такая часть во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.

Причины возникновения выбросов

  • Сбой работы оборудования
  • Человеческий фактор
  • Случайность
  • Уникальные явления
  • и др.

Методы обнаружения и борьбы с выбросами

Методы обнаружения выбросов

  1. Экстремальный анализ данных(англ. extreme value analysis). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:
    • Визуализировать данные, используя диаграммы, гистограммы и _, для нахождения экстремальных значений.
    • Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей.
    • Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
  2. Апроксимирующий метод (англ. proximity method). Чуть более сложный метод, заключающийся в применении кластеризующих методов.
    • Использовать метод кластеризации для определения кластеров для данных.
    • Идентифицировать и отметить центроиды каждого кластера.
    • Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.
    • Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
  3. Проецирующие методы (англ. projections methods). Эти методы довольно быстро и просто определяют выбросы в выборке.
    • Использовать один из проецирующих методов, например метод главных компонент (англ. principal component analysis, PCA) или самоорганизующиеся карты Кохонена(англ. self-organizing map, SOM) или проекцию Саммона(англ. Sammon mapping, Sammon projection), для суммирования обучающих данных в двух измерениях.
    • Визуализировать отображение
    • Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. codebook vector) для идентифицирования выбросов.
    • Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.

Алгоритмы борьбы с выбросами

  1. Локально взвешенное сглаживание(англ. LOcally WEighted Scatter plot Smoothing, LOWESS)

См.также

Примечания

  1. https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/
  2. https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4
  3. https://habr.com/post/338868/
  4. https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82
  5. https://en.wikipedia.org/wiki/Sammon_mapping