Выброс — различия между версиями
Fest (обсуждение | вклад) м |
Fest (обсуждение | вклад) м |
||
Строка 1: | Строка 1: | ||
'''Выброс'''(англ. outliers) - такая часть во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных. | '''Выброс'''(англ. outliers) - такая часть во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных. | ||
+ | ===Причины возникновения выбросов=== | ||
+ | Причины возникновения выбросов могут быть различными. Например: | ||
+ | * Сбой работы оборудования | ||
+ | * Человеческий фактор | ||
+ | * Случайность | ||
+ | * Уникальные явления | ||
+ | * и др. | ||
− | ==Методы борьбы с выбросами== | + | ==Методы обнаружения и борьбы с выбросами== |
+ | ===Методы обнаружения выбросов=== | ||
+ | # Экстремальный анализ данных(англ. extreme value analysis). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков: | ||
+ | #* Визуализировать данные, используя диаграммы, гистограммы и _, для нахождения экстремальных значений. | ||
+ | #* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. | ||
+ | #* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели. | ||
+ | # Апроксимирующий метод (англ. proximity method). Чуть более сложный метод, заключающийся в применении кластеризующих методов. | ||
+ | #* Использовать метод кластеризации для определения кластеров для данных. | ||
+ | #* Идентифицировать и отметить центроиды каждого кластера. | ||
+ | #* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера. | ||
+ | #* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели. | ||
+ | |||
+ | ===Алгоритмы борьбы с выбросами=== | ||
+ | # Локально взвешенное сглаживание(англ. LOcally WEighted Scatter plot Smoothing, LOWESS) | ||
==См.также== | ==См.также== | ||
Строка 9: | Строка 29: | ||
==Примечания== | ==Примечания== | ||
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/ | # https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/ | ||
+ | # https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4 |
Версия 03:13, 29 ноября 2018
Выброс(англ. outliers) - такая часть во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.
Содержание
Причины возникновения выбросов
Причины возникновения выбросов могут быть различными. Например:
- Сбой работы оборудования
- Человеческий фактор
- Случайность
- Уникальные явления
- и др.
Методы обнаружения и борьбы с выбросами
Методы обнаружения выбросов
- Экстремальный анализ данных(англ. extreme value analysis). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:
- Визуализировать данные, используя диаграммы, гистограммы и _, для нахождения экстремальных значений.
- Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей.
- Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
- Апроксимирующий метод (англ. proximity method). Чуть более сложный метод, заключающийся в применении кластеризующих методов.
- Использовать метод кластеризации для определения кластеров для данных.
- Идентифицировать и отметить центроиды каждого кластера.
- Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.
- Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.
Алгоритмы борьбы с выбросами
- Локально взвешенное сглаживание(англ. LOcally WEighted Scatter plot Smoothing, LOWESS)