<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
		<id>http://neerc.ifmo.ru/wiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Fest</id>
		<title>Викиконспекты - Вклад участника [ru]</title>
		<link rel="self" type="application/atom+xml" href="http://neerc.ifmo.ru/wiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=Fest"/>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:%D0%92%D0%BA%D0%BB%D0%B0%D0%B4/Fest"/>
		<updated>2026-05-19T18:00:53Z</updated>
		<subtitle>Вклад участника</subtitle>
		<generator>MediaWiki 1.30.0</generator>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69399</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69399"/>
				<updated>2019-01-25T23:09:22Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример на языке R */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс''' (англ. ''outlier'') {{---}} небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы {{---}} это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Рис 4. Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (англ. ''fraction'') данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов $X$ и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве $X$ задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес $i$-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где $h$ — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 INPUT: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - training sample;&lt;br /&gt;
 OUTPUT: coefficents &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: initialization: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//инициализация коэффициентов&amp;lt;/span&amp;gt;&lt;br /&gt;
 2: do&lt;br /&gt;
 3:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     calculate cross-validation estimates: &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//вычислить оценки скользящего контроля&amp;lt;/span&amp;gt;&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: while coefficents &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; not stabilized; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//пока коэффициенты не стабилизируются&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета $ggplot2$ языка $R$. Мы рассматриваем только первые 80 строк для этого анализа, чтобы легче было наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 data(economics, package=&amp;quot;ggplot2&amp;quot;)      &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# загрузка данных&amp;lt;/span&amp;gt;&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)    &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# создание индексной переменной&amp;lt;/span&amp;gt;&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]          &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# усечение до 80 строк для более наглядного демонстрирования&amp;lt;/span&amp;gt;&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 10% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 25% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 50% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# получить сглаженный результат&amp;lt;/span&amp;gt;&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# Нарисовать&amp;lt;/span&amp;gt;&lt;br /&gt;
 plot(economics''$''uempmed, x=economics''$''date, type=&amp;quot;l&amp;quot;, main=&amp;quot;Локально взвешенное сглаживание&amp;quot;, xlab=&amp;quot;Дата&amp;quot;, ylab=&amp;quot;Длительность безработицы&amp;quot;)&lt;br /&gt;
 lines(smoothed10, x=economics''$''date, col=&amp;quot;red&amp;quot;)&lt;br /&gt;
 lines(smoothed25, x=economics''$''date, col=&amp;quot;green&amp;quot;)&lt;br /&gt;
 lines(smoothed50, x=economics''$''date, col=&amp;quot;blue&amp;quot;)&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 5. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Общие понятия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69397</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69397"/>
				<updated>2019-01-25T23:08:00Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Локально взвешенное сглаживание */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс''' (англ. ''outlier'') {{---}} небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы {{---}} это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Рис 4. Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (англ. ''fraction'') данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов $X$ и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве $X$ задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес $i$-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где $h$ — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 INPUT: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - training sample;&lt;br /&gt;
 OUTPUT: coefficents &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: initialization: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//инициализация коэффициентов&amp;lt;/span&amp;gt;&lt;br /&gt;
 2: do&lt;br /&gt;
 3:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     calculate cross-validation estimates: &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//вычислить оценки скользящего контроля&amp;lt;/span&amp;gt;&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: while coefficents &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; not stabilized; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//пока коэффициенты не стабилизируются&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета $ggplot2$ языка $R$. Мы рассматриваем только первые 80 строк для этого анализа, чтобы легче было наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 data(economics, package=&amp;quot;ggplot2&amp;quot;)      &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# загрузка данных&amp;lt;/span&amp;gt;&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)    &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# создание индексной переменной&amp;lt;/span&amp;gt;&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 10% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 25% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 50% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# получить сглаженный результат&amp;lt;/span&amp;gt;&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# Нарисовать&amp;lt;/span&amp;gt;&lt;br /&gt;
 plot(economics''$''uempmed, x=economics''$''date, type=&amp;quot;l&amp;quot;, main=&amp;quot;Локально взвешенное сглаживание&amp;quot;, xlab=&amp;quot;Дата&amp;quot;, ylab=&amp;quot;Длительность безработицы&amp;quot;)&lt;br /&gt;
 lines(smoothed10, x=economics''$''date, col=&amp;quot;red&amp;quot;)&lt;br /&gt;
 lines(smoothed25, x=economics''$''date, col=&amp;quot;green&amp;quot;)&lt;br /&gt;
 lines(smoothed50, x=economics''$''date, col=&amp;quot;blue&amp;quot;)&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 5. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Общие понятия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69396</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69396"/>
				<updated>2019-01-25T23:06:57Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример на языке R */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс''' (англ. ''outlier'') {{---}} небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы {{---}} это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Рис 4. Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов $X$ и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве $X$ задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес $i$-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где $h$ — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 INPUT: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - training sample;&lt;br /&gt;
 OUTPUT: coefficents &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: initialization: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//инициализация коэффициентов&amp;lt;/span&amp;gt;&lt;br /&gt;
 2: do&lt;br /&gt;
 3:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     calculate cross-validation estimates: &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//вычислить оценки скользящего контроля&amp;lt;/span&amp;gt;&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: while coefficents &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; not stabilized; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//пока коэффициенты не стабилизируются&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета $ggplot2$ языка $R$. Мы рассматриваем только первые 80 строк для этого анализа, чтобы легче было наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 data(economics, package=&amp;quot;ggplot2&amp;quot;)      &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# загрузка данных&amp;lt;/span&amp;gt;&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)    &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# создание индексной переменной&amp;lt;/span&amp;gt;&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 10% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 25% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 50% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# получить сглаженный результат&amp;lt;/span&amp;gt;&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# Нарисовать&amp;lt;/span&amp;gt;&lt;br /&gt;
 plot(economics''$''uempmed, x=economics''$''date, type=&amp;quot;l&amp;quot;, main=&amp;quot;Локально взвешенное сглаживание&amp;quot;, xlab=&amp;quot;Дата&amp;quot;, ylab=&amp;quot;Длительность безработицы&amp;quot;)&lt;br /&gt;
 lines(smoothed10, x=economics''$''date, col=&amp;quot;red&amp;quot;)&lt;br /&gt;
 lines(smoothed25, x=economics''$''date, col=&amp;quot;green&amp;quot;)&lt;br /&gt;
 lines(smoothed50, x=economics''$''date, col=&amp;quot;blue&amp;quot;)&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 5. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Общие понятия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69395</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69395"/>
				<updated>2019-01-25T23:06:42Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Псевдокод */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс''' (англ. ''outlier'') {{---}} небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы {{---}} это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Рис 4. Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов $X$ и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве $X$ задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес $i$-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где $h$ — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 INPUT: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - training sample;&lt;br /&gt;
 OUTPUT: coefficents &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: initialization: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//инициализация коэффициентов&amp;lt;/span&amp;gt;&lt;br /&gt;
 2: do&lt;br /&gt;
 3:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     calculate cross-validation estimates: &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//вычислить оценки скользящего контроля&amp;lt;/span&amp;gt;&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: while coefficents &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; not stabilized; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//пока коэффициенты не стабилизируются&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета $ggplot2$ языка $R$. Мы рассматриваем только первые 80 строк для этого анализа, чтобы легче было наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 data(economics, package=&amp;quot;ggplot2&amp;quot;)    &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# загрузка данных&amp;lt;/span&amp;gt;&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)    &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# создание индексной переменной&amp;lt;/span&amp;gt;&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 10% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 25% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 50% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# получить сглаженный результат&amp;lt;/span&amp;gt;&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# Нарисовать&amp;lt;/span&amp;gt;&lt;br /&gt;
 plot(economics''$''uempmed, x=economics''$''date, type=&amp;quot;l&amp;quot;, main=&amp;quot;Локально взвешенное сглаживание&amp;quot;, xlab=&amp;quot;Дата&amp;quot;, ylab=&amp;quot;Длительность безработицы&amp;quot;)&lt;br /&gt;
 lines(smoothed10, x=economics''$''date, col=&amp;quot;red&amp;quot;)&lt;br /&gt;
 lines(smoothed25, x=economics''$''date, col=&amp;quot;green&amp;quot;)&lt;br /&gt;
 lines(smoothed50, x=economics''$''date, col=&amp;quot;blue&amp;quot;)&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 5. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Общие понятия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69394</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69394"/>
				<updated>2019-01-25T23:06:06Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Псевдокод */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс''' (англ. ''outlier'') {{---}} небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы {{---}} это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Рис 4. Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов $X$ и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве $X$ задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес $i$-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где $h$ — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 INPUT: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - training sample;&lt;br /&gt;
 OUTPUT: coefficents &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: initialization: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//инициализация коэффициентов&amp;lt;/span&amp;gt;&lt;br /&gt;
 2: do&lt;br /&gt;
 3:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     calculate cross-validation estimates:                   &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//вычислить оценки скользящего контроля&amp;lt;/span&amp;gt;&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: while coefficents &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; not stabilized;     &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//пока коэффициенты не стабилизируются&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета $ggplot2$ языка $R$. Мы рассматриваем только первые 80 строк для этого анализа, чтобы легче было наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 data(economics, package=&amp;quot;ggplot2&amp;quot;)    &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# загрузка данных&amp;lt;/span&amp;gt;&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)    &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# создание индексной переменной&amp;lt;/span&amp;gt;&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 10% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 25% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 50% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# получить сглаженный результат&amp;lt;/span&amp;gt;&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# Нарисовать&amp;lt;/span&amp;gt;&lt;br /&gt;
 plot(economics''$''uempmed, x=economics''$''date, type=&amp;quot;l&amp;quot;, main=&amp;quot;Локально взвешенное сглаживание&amp;quot;, xlab=&amp;quot;Дата&amp;quot;, ylab=&amp;quot;Длительность безработицы&amp;quot;)&lt;br /&gt;
 lines(smoothed10, x=economics''$''date, col=&amp;quot;red&amp;quot;)&lt;br /&gt;
 lines(smoothed25, x=economics''$''date, col=&amp;quot;green&amp;quot;)&lt;br /&gt;
 lines(smoothed50, x=economics''$''date, col=&amp;quot;blue&amp;quot;)&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 5. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Общие понятия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69392</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69392"/>
				<updated>2019-01-25T23:05:17Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Псевдокод */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс''' (англ. ''outlier'') {{---}} небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы {{---}} это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Рис 4. Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов $X$ и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве $X$ задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес $i$-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где $h$ — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 INPUT: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - training sample;&lt;br /&gt;
 OUTPUT: coefficents &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: initialization: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;    &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//инициализация коэффициентов&amp;lt;/span&amp;gt;&lt;br /&gt;
 2: do&lt;br /&gt;
 3:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     calculate cross-validation estimates:    &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//вычислить оценки скользящего контроля&amp;lt;/span&amp;gt;&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: while coefficents &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; not stabilized;    &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//пока коэффициенты не стабилизируются&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета $ggplot2$ языка $R$. Мы рассматриваем только первые 80 строк для этого анализа, чтобы легче было наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 data(economics, package=&amp;quot;ggplot2&amp;quot;)    &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# загрузка данных&amp;lt;/span&amp;gt;&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)    &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# создание индексной переменной&amp;lt;/span&amp;gt;&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 10% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 25% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 50% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# получить сглаженный результат&amp;lt;/span&amp;gt;&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# Нарисовать&amp;lt;/span&amp;gt;&lt;br /&gt;
 plot(economics''$''uempmed, x=economics''$''date, type=&amp;quot;l&amp;quot;, main=&amp;quot;Локально взвешенное сглаживание&amp;quot;, xlab=&amp;quot;Дата&amp;quot;, ylab=&amp;quot;Длительность безработицы&amp;quot;)&lt;br /&gt;
 lines(smoothed10, x=economics''$''date, col=&amp;quot;red&amp;quot;)&lt;br /&gt;
 lines(smoothed25, x=economics''$''date, col=&amp;quot;green&amp;quot;)&lt;br /&gt;
 lines(smoothed50, x=economics''$''date, col=&amp;quot;blue&amp;quot;)&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 5. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Общие понятия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69390</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69390"/>
				<updated>2019-01-25T23:04:12Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример на языке R */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс''' (англ. ''outlier'') {{---}} небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы {{---}} это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Рис 4. Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов $X$ и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве $X$ задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес $i$-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где $h$ — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 INPUT: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - training sample;&lt;br /&gt;
 OUTPUT: coefficents &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: initialization: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//инициализация коэффициентов&amp;lt;/span&amp;gt;&lt;br /&gt;
 2: do&lt;br /&gt;
 3:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     calculate cross-validation estimates: &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//вычислить оценки скользящего контроля&amp;lt;/span&amp;gt;&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: while coefficents &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; not stabilized; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//пока коэффициенты не стабилизируются&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета $ggplot2$ языка $R$. Мы рассматриваем только первые 80 строк для этого анализа, чтобы легче было наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 data(economics, package=&amp;quot;ggplot2&amp;quot;)    &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# загрузка данных&amp;lt;/span&amp;gt;&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)    &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# создание индексной переменной&amp;lt;/span&amp;gt;&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 10% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 25% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 50% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# получить сглаженный результат&amp;lt;/span&amp;gt;&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# Нарисовать&amp;lt;/span&amp;gt;&lt;br /&gt;
 plot(economics''$''uempmed, x=economics''$''date, type=&amp;quot;l&amp;quot;, main=&amp;quot;Локально взвешенное сглаживание&amp;quot;, xlab=&amp;quot;Дата&amp;quot;, ylab=&amp;quot;Длительность безработицы&amp;quot;)&lt;br /&gt;
 lines(smoothed10, x=economics''$''date, col=&amp;quot;red&amp;quot;)&lt;br /&gt;
 lines(smoothed25, x=economics''$''date, col=&amp;quot;green&amp;quot;)&lt;br /&gt;
 lines(smoothed50, x=economics''$''date, col=&amp;quot;blue&amp;quot;)&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 5. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Общие понятия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69388</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69388"/>
				<updated>2019-01-25T22:59:39Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример на языке R */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс''' (англ. ''outlier'') {{---}} небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы {{---}} это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Рис 4. Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов $X$ и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве $X$ задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес $i$-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где $h$ — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 INPUT: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - training sample;&lt;br /&gt;
 OUTPUT: coefficents &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: initialization: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//инициализация коэффициентов&amp;lt;/span&amp;gt;&lt;br /&gt;
 2: do&lt;br /&gt;
 3:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     calculate cross-validation estimates: &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//вычислить оценки скользящего контроля&amp;lt;/span&amp;gt;&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: while coefficents &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; not stabilized; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//пока коэффициенты не стабилизируются&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета $ggplot2$ языка $R$. Мы рассматриваем только первые 80 строк для этого анализа, чтобы легче было наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# загрузка данных&amp;lt;/span&amp;gt;&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)    &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# создание индексной переменной&amp;lt;/span&amp;gt;&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 10% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 25% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# 50% параметр сглаживания span&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# получить сглаженный результат&amp;lt;/span&amp;gt;&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
 &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;# Нарисовать&amp;lt;/span&amp;gt;&lt;br /&gt;
 plot(economics''$''uempmed, x=economics''$''date, type=&amp;quot;l&amp;quot;, main=&amp;quot;Локально взвешенное сглаживание&amp;quot;, xlab=&amp;quot;Дата&amp;quot;, ylab=&amp;quot;Длительность безработицы&amp;quot;)&lt;br /&gt;
 lines(smoothed10, x=economics''$''date, col=&amp;quot;red&amp;quot;)&lt;br /&gt;
 lines(smoothed25, x=economics''$''date, col=&amp;quot;green&amp;quot;)&lt;br /&gt;
 lines(smoothed50, x=economics''$''date, col=&amp;quot;blue&amp;quot;)&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 5. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Общие понятия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69387</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69387"/>
				<updated>2019-01-25T22:57:41Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример на языке R */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс''' (англ. ''outlier'') {{---}} небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы {{---}} это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Рис 4. Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов $X$ и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве $X$ задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес $i$-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где $h$ — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 INPUT: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - training sample;&lt;br /&gt;
 OUTPUT: coefficents &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: initialization: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//инициализация коэффициентов&amp;lt;/span&amp;gt;&lt;br /&gt;
 2: do&lt;br /&gt;
 3:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     calculate cross-validation estimates: &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//вычислить оценки скользящего контроля&amp;lt;/span&amp;gt;&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: while coefficents &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; not stabilized; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//пока коэффициенты не стабилизируются&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета $ggplot2$ языка $R$. Мы рассматриваем только первые 80 строк для этого анализа, чтобы легче было наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
 # получить сглаженный результат&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
 # Нарисовать&lt;br /&gt;
 plot(economics''$''uempmed, x=economics''$''date, type=&amp;quot;l&amp;quot;, main=&amp;quot;Локально взвешенное сглаживание&amp;quot;, xlab=&amp;quot;Дата&amp;quot;, ylab=&amp;quot;Длительность безработицы&amp;quot;)&lt;br /&gt;
 lines(smoothed10, x=economics''$''date, col=&amp;quot;red&amp;quot;)&lt;br /&gt;
 lines(smoothed25, x=economics''$''date, col=&amp;quot;green&amp;quot;)&lt;br /&gt;
 lines(smoothed50, x=economics''$''date, col=&amp;quot;blue&amp;quot;)&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 5. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Общие понятия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69386</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69386"/>
				<updated>2019-01-25T22:56:40Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Псевдокод */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс''' (англ. ''outlier'') {{---}} небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы {{---}} это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Рис 4. Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов $X$ и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве $X$ задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес $i$-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где $h$ — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 INPUT: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - training sample;&lt;br /&gt;
 OUTPUT: coefficents &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: initialization: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//инициализация коэффициентов&amp;lt;/span&amp;gt;&lt;br /&gt;
 2: do&lt;br /&gt;
 3:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     calculate cross-validation estimates: &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//вычислить оценки скользящего контроля&amp;lt;/span&amp;gt;&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: while coefficents &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; not stabilized; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//пока коэффициенты не стабилизируются&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета $ggplot2$ языка $R$. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
 # получить сглаженный результат&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
 # Нарисовать&lt;br /&gt;
 plot(economics''$''uempmed, x=economics''$''date, type=&amp;quot;l&amp;quot;, main=&amp;quot;Локально взвешенное сглаживание&amp;quot;, xlab=&amp;quot;Дата&amp;quot;, ylab=&amp;quot;Длительность безработицы&amp;quot;)&lt;br /&gt;
 lines(smoothed10, x=economics''$''date, col=&amp;quot;red&amp;quot;)&lt;br /&gt;
 lines(smoothed25, x=economics''$''date, col=&amp;quot;green&amp;quot;)&lt;br /&gt;
 lines(smoothed50, x=economics''$''date, col=&amp;quot;blue&amp;quot;)&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 5. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Общие понятия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69385</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69385"/>
				<updated>2019-01-25T22:56:12Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Псевдокод */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс''' (англ. ''outlier'') {{---}} небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы {{---}} это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Рис 4. Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов $X$ и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве $X$ задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес $i$-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где $h$ — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 INPUT: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - training sample;&lt;br /&gt;
 OUTPUT: coefficents &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: initialization: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//инициализация коэффициентов&amp;lt;/span&amp;gt;&lt;br /&gt;
 2: do&lt;br /&gt;
 3:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     calculate cross-validation estimates: &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;вычислить оценки скользящего контроля&amp;lt;/span&amp;gt;&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: while coefficents &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; not stabilized; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;пока коэффициенты не стабилизируются&amp;lt;/span&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета $ggplot2$ языка $R$. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
 # получить сглаженный результат&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
 # Нарисовать&lt;br /&gt;
 plot(economics''$''uempmed, x=economics''$''date, type=&amp;quot;l&amp;quot;, main=&amp;quot;Локально взвешенное сглаживание&amp;quot;, xlab=&amp;quot;Дата&amp;quot;, ylab=&amp;quot;Длительность безработицы&amp;quot;)&lt;br /&gt;
 lines(smoothed10, x=economics''$''date, col=&amp;quot;red&amp;quot;)&lt;br /&gt;
 lines(smoothed25, x=economics''$''date, col=&amp;quot;green&amp;quot;)&lt;br /&gt;
 lines(smoothed50, x=economics''$''date, col=&amp;quot;blue&amp;quot;)&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 5. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Общие понятия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69384</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69384"/>
				<updated>2019-01-25T22:55:14Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Псевдокод */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс''' (англ. ''outlier'') {{---}} небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы {{---}} это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Рис 4. Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов $X$ и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве $X$ задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес $i$-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где $h$ — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 INPUT: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - training sample;&lt;br /&gt;
 OUTPUT: coefficents &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: initialization: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;; &amp;lt;span style=&amp;quot;color:green&amp;quot;&amp;gt;//инициализация коэффициентов&amp;lt;/span&amp;gt;&lt;br /&gt;
 2: do&lt;br /&gt;
 3:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     calculate cross-validation estimates: { \color{green}//вычислить оценки скользящего контроля}&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: while coefficents &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; not stabilized; { \color{green} //пока коэффициенты не стабилизируются}&lt;br /&gt;
&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета $ggplot2$ языка $R$. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
 # получить сглаженный результат&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
 # Нарисовать&lt;br /&gt;
 plot(economics''$''uempmed, x=economics''$''date, type=&amp;quot;l&amp;quot;, main=&amp;quot;Локально взвешенное сглаживание&amp;quot;, xlab=&amp;quot;Дата&amp;quot;, ylab=&amp;quot;Длительность безработицы&amp;quot;)&lt;br /&gt;
 lines(smoothed10, x=economics''$''date, col=&amp;quot;red&amp;quot;)&lt;br /&gt;
 lines(smoothed25, x=economics''$''date, col=&amp;quot;green&amp;quot;)&lt;br /&gt;
 lines(smoothed50, x=economics''$''date, col=&amp;quot;blue&amp;quot;)&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 5. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Общие понятия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69382</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69382"/>
				<updated>2019-01-25T22:51:05Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Псевдокод */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс''' (англ. ''outlier'') {{---}} небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы {{---}} это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Рис 4. Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов $X$ и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве $X$ задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес $i$-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где $h$ — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 INPUT: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - training sample;&lt;br /&gt;
 OUTPUT: coefficents &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: initialization: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;; { \color{green} //инициализация коэффициентов }&lt;br /&gt;
 2: do&lt;br /&gt;
 3:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     calculate cross-validation estimates: { \color{green}//вычислить оценки скользящего контроля}&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   for each object &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: while coefficents &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; not stabilized; { \color{green} //пока коэффициенты не стабилизируются}&lt;br /&gt;
&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета $ggplot2$ языка $R$. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
 # получить сглаженный результат&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
 # Нарисовать&lt;br /&gt;
 plot(economics''$''uempmed, x=economics''$''date, type=&amp;quot;l&amp;quot;, main=&amp;quot;Локально взвешенное сглаживание&amp;quot;, xlab=&amp;quot;Дата&amp;quot;, ylab=&amp;quot;Длительность безработицы&amp;quot;)&lt;br /&gt;
 lines(smoothed10, x=economics''$''date, col=&amp;quot;red&amp;quot;)&lt;br /&gt;
 lines(smoothed25, x=economics''$''date, col=&amp;quot;green&amp;quot;)&lt;br /&gt;
 lines(smoothed50, x=economics''$''date, col=&amp;quot;blue&amp;quot;)&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 5. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Общие понятия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69352</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69352"/>
				<updated>2019-01-25T10:54:58Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример на языке R */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Рис 4. Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета ggplot2 языка R. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
 # получить сглаженный результат&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
 # Нарисовать&lt;br /&gt;
 plot(economics''$''uempmed, x=economics''$''date, type=&amp;quot;l&amp;quot;, main=&amp;quot;Локально взвешенное сглаживание&amp;quot;, xlab=&amp;quot;Дата&amp;quot;, ylab=&amp;quot;Длительность безработицы&amp;quot;)&lt;br /&gt;
 lines(smoothed10, x=economics''$''date, col=&amp;quot;red&amp;quot;)&lt;br /&gt;
 lines(smoothed25, x=economics''$''date, col=&amp;quot;green&amp;quot;)&lt;br /&gt;
 lines(smoothed50, x=economics''$''date, col=&amp;quot;blue&amp;quot;)&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 5. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69351</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69351"/>
				<updated>2019-01-25T09:45:45Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример на языке R */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Рис 4. Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета ggplot2 языка R. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
 # получить сглаженный результат&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
 # Нарисовать&lt;br /&gt;
 plot(economics$uempmed, x=economics$date, type=&amp;quot;l&amp;quot;, main=&amp;quot;Локально взвешенное сглаживание&amp;quot;, xlab=&amp;quot;Дата&amp;quot;, ylab=&amp;quot;Безработица&amp;quot;)&lt;br /&gt;
 lines(smoothed10, x=economics$date, col=&amp;quot;red&amp;quot;)&lt;br /&gt;
 lines(smoothed25, x=economics$date, col=&amp;quot;green&amp;quot;)&lt;br /&gt;
 lines(smoothed50, x=economics$date, col=&amp;quot;blue&amp;quot;)&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 5. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69341</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69341"/>
				<updated>2019-01-25T03:38:56Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример на языке R */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Рис 4. Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета ggplot2 языка R. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
 # получить сглаженный результат&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 5. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69340</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69340"/>
				<updated>2019-01-25T03:38:42Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Методы обнаружения выбросов */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Рис 4. Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета ggplot2 языка R. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
 # получить сглаженный результат&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 2. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69339</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69339"/>
				<updated>2019-01-25T03:33:09Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример на языке R */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета ggplot2 языка R. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
 # получить сглаженный результат&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 2. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69338</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69338"/>
				<updated>2019-01-25T03:32:41Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример на языке R */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета ggplot2 языка R. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
 # получить сглаженный результат&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
{|align=&amp;quot;left&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 2. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69337</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69337"/>
				<updated>2019-01-25T03:30:58Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример на языке R */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета ggplot2 языка R. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
 # получить сглаженный результат&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
{|align=&amp;quot;left&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 2. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит]] восстановленная регрессия |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69336</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69336"/>
				<updated>2019-01-25T03:30:20Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример на языке R==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета ggplot2 языка R. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
 # получить сглаженный результат&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
{|align=&amp;quot;left&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 2. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит]]восстановленная регрессия |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69335</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69335"/>
				<updated>2019-01-25T03:28:07Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета ggplot2 языка R. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
 # получить сглаженный результат&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
{|align=&amp;quot;left&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 2. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит]]восстановленная регрессия |}&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69334</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69334"/>
				<updated>2019-01-25T03:26:56Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета ggplot2 языка R. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
 # получить сглаженный результат&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
[[{|align=&amp;quot;left&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:LOWESS.png|400px|thumb|Рис 2. На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия|}]]&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69333</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69333"/>
				<updated>2019-01-25T03:24:43Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета ggplot2 языка R. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
 # получить сглаженный результат&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
[[Файл:LOWESS.png|thumb| На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69332</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69332"/>
				<updated>2019-01-25T03:23:58Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить среднюю продолжительность безработицы на основе набора экономических данных из пакета ggplot2 языка R. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
 # получить сглаженный результат&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
[[Файл:LOWESS.png|upright=1.0|thumb| На приведенном графике показано, что чем больше параметр сглаживания span, тем более сглаженной выглядит восстановленная регрессия]]&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A4%D0%B0%D0%B9%D0%BB:LOWESS.png&amp;diff=69331</id>
		<title>Файл:LOWESS.png</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A4%D0%B0%D0%B9%D0%BB:LOWESS.png&amp;diff=69331"/>
				<updated>2019-01-25T03:21:15Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69330</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69330"/>
				<updated>2019-01-25T03:13:21Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить медианную продолжительность безработицы на основе набора экономических данных из пакета ggplot2 языка R. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
 # data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
 economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
 economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
 loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
 loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
 loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
 # получить сглаженный результат&lt;br /&gt;
 smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
 smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
 smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69329</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69329"/>
				<updated>2019-01-25T03:11:52Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить медианную продолжительность безработицы на основе набора экономических данных из пакета ggplot2 языка R. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
# data(economics, package=&amp;quot;ggplot2&amp;quot;)    # загрузка данных&lt;br /&gt;
  economics$index &amp;lt;- 1:nrow(economics)  # создание индексной переменной&lt;br /&gt;
  economics &amp;lt;- economics[1:80, ]  # усечение до 80 строк для более наглядного демонстрирования&lt;br /&gt;
  loessMod10 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.10) # 10% параметр сглаживания span&lt;br /&gt;
  loessMod25 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.25) # 25% параметр сглаживания span&lt;br /&gt;
  loessMod50 &amp;lt;- loess(uempmed ~ index, data=economics, span=0.50) # 50% параметр сглаживания span&lt;br /&gt;
&lt;br /&gt;
# получить сглаженный результат&lt;br /&gt;
  smoothed10 &amp;lt;- predict(loessMod10) &lt;br /&gt;
  smoothed25 &amp;lt;- predict(loessMod25) &lt;br /&gt;
  smoothed50 &amp;lt;- predict(loessMod50)&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69328</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69328"/>
				<updated>2019-01-25T03:05:31Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
В этом примере мы попытаемся локально регрессировать и сгладить медианную продолжительность безработицы на основе набора экономических данных из пакета ggplot2 языка R. Мы рассматриваем только первые 80 строк для этого анализа, поэтому легче наблюдать степень сглаживания на приведенных ниже графиках.&amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69326</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69326"/>
				<updated>2019-01-25T02:19:46Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Постановка задачи */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
Допустим мы пытаемся восстановить зависимость, используя формулу Надарая-Ватсона по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69325</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69325"/>
				<updated>2019-01-25T02:19:14Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Постановка задачи */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем &amp;quot;формулу Надарая-Ватсона&amp;quot;&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
Допустим мы пытаемся восстановить зависимость, используя формулу Надарая-Ватсона по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69324</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69324"/>
				<updated>2019-01-25T02:18:16Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем формулу Надарая-Ватсона :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
Допустим мы пытаемся восстановить зависимость, используя формулу Надарая-Ватсона по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69323</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69323"/>
				<updated>2019-01-25T02:16:22Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Идея */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем формулу Надарая-Ватсона :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
====Эвристика====&lt;br /&gt;
Домножить веса &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i = \widetilde{K}\left ( \varepsilon_i \right )&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\widetilde{K}\left ( \varepsilon \right )&amp;lt;/math&amp;gt; — ещё одно ядро, вообще говоря, отличное от &amp;lt;math&amp;gt;K\left ( \rho \right )&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69322</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69322"/>
				<updated>2019-01-25T02:08:19Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Идея */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем формулу Надарая-Ватсона :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
Чем больше величина невязки &amp;lt;math&amp;gt;\varepsilon_i = \left | a_h\left (x_i;X^\ell\backslash\left \{x_i\right \} \right )-y_i\right |&amp;lt;/math&amp;gt;, тем меньше должен быть вес i-го объекта &amp;lt;math&amp;gt;\omega_i(x)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69321</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69321"/>
				<updated>2019-01-25T02:00:29Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Проблема выбросов в этой задаче */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем формулу Надарая-Ватсона :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
Большие случайные ошибки в значениях &amp;lt;math&amp;gt;y_i&amp;lt;/math&amp;gt; сильно искажают оценку Надарая-Ватсона&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69320</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69320"/>
				<updated>2019-01-25T01:53:15Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Другие алгоритмы борьбы с выбросами */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем формулу Надарая-Ватсона :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
===Другие алгоритмы борьбы с выбросами===&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69319</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69319"/>
				<updated>2019-01-25T01:52:23Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Проблема выбросов */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем формулу Надарая-Ватсона :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
====Проблема выбросов в этой задаче====&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
====Другие алгоритмы борьбы с выбросами====&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69318</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69318"/>
				<updated>2019-01-25T01:51:01Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Алгоритмы борьбы с выбросами */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Локально взвешенное сглаживание===&lt;br /&gt;
Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем формулу Надарая-Ватсона :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
====Проблема выбросов====&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
====Другие алгоритмы борьбы с выбросами====&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69317</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69317"/>
				<updated>2019-01-25T01:35:36Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Алгоритмы борьбы с выбросами */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Алгоритмы борьбы с выбросами===&lt;br /&gt;
* Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем формулу Надарая-Ватсона :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
====Проблема выбросов====&lt;br /&gt;
&lt;br /&gt;
====Идея====&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69316</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69316"/>
				<updated>2019-01-25T01:32:28Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Постановка задачи */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Алгоритмы борьбы с выбросами===&lt;br /&gt;
* Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем формулу Надарая-Ватсона :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69315</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69315"/>
				<updated>2019-01-25T01:32:10Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Постановка задачи */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Алгоритмы борьбы с выбросами===&lt;br /&gt;
* Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*\colon X \to Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a:\colon X\to Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем формулу Надарая-Ватсона :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69314</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69314"/>
				<updated>2019-01-25T01:28:44Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Постановка задачи */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Алгоритмы борьбы с выбросами===&lt;br /&gt;
* Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*:X \rightarrow Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a:\ X\rightarrow Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем формулу Надарая-Ватсона :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69313</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69313"/>
				<updated>2019-01-25T01:25:55Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Алгоритмы борьбы с выбросами */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Алгоритмы борьбы с выбросами===&lt;br /&gt;
* Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
====Постановка задачи====&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*:X \rightarrow Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a:\ X\rightarrow Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;. &amp;lt;br&amp;gt;&lt;br /&gt;
Также стоит определить следующее. Для вычисления &amp;lt;math&amp;gt;a(x) = \alpha&amp;lt;/math&amp;gt; при &amp;lt;math&amp;gt;\forall x \in X&amp;lt;/math&amp;gt;, воспользуемся методом наименьших квадратов:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; - это вес i-ого объекта. Веса \omega_i разумно задать так, чтобы они убывали по мере увеличения расстояния &amp;lt;math&amp;gt;\rho(x,x_i)&amp;lt;/math&amp;gt;. Для этого можно ввести невозрастающую, гладкую, ограниченную функцию &amp;lt;math&amp;gt;K:[0, \infty) \rightarrow [0, \infty)&amp;lt;/math&amp;gt;, называемую ядром, и представить &amp;lt;math&amp;gt;\omega_i&amp;lt;/math&amp;gt; в следующем виде :&lt;br /&gt;
&amp;lt;math&amp;gt;\omega_i(x) = K\left(\frac{\rho(x,x_i)}{h} \right )&amp;lt;/math&amp;gt;, где h — ширина окна.&lt;br /&gt;
Приравняв нулю производную &amp;lt;math&amp;gt;\frac{\partial Q}{\partial \alpha} = 0&amp;lt;/math&amp;gt;, и, выразив &amp;lt;math&amp;gt;\alpha&amp;lt;/math&amp;gt;,получаем формулу Надарая-Ватсона :&lt;br /&gt;
&amp;lt;math&amp;gt;a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x,x_i)}{h} \right )}&amp;lt;/math&amp;gt;&lt;br /&gt;
====Псевдокод====&lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69312</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69312"/>
				<updated>2019-01-25T00:53:23Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Пример */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Алгоритмы борьбы с выбросами===&lt;br /&gt;
* Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*:X \rightarrow Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a:\ X\rightarrow Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;&lt;br /&gt;
 &lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится к ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69311</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69311"/>
				<updated>2019-01-25T00:49:19Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Алгоритмы борьбы с выбросами */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Алгоритмы борьбы с выбросами===&lt;br /&gt;
* Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*:X \rightarrow Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a:\ X\rightarrow Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;&lt;br /&gt;
 &lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
====Пример==== &lt;br /&gt;
Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69310</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69310"/>
				<updated>2019-01-25T00:47:51Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Алгоритмы борьбы с выбросами */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Алгоритмы борьбы с выбросами===&lt;br /&gt;
* Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt;, который выбирает пользователь. Параметр &amp;lt;math&amp;gt;f&amp;lt;/math&amp;gt; указывает, какая доля (fraction) данных используется в процедуре. Если &amp;lt;math&amp;gt;f = 0.5&amp;lt;/math&amp;gt;, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если &amp;lt;math&amp;gt;f = 0.8&amp;lt;/math&amp;gt;, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*:X \rightarrow Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a:\ X\rightarrow Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;&lt;br /&gt;
 &lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
Пример. Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69309</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69309"/>
				<updated>2019-01-25T00:45:53Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Алгоритмы борьбы с выбросами */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Алгоритмы борьбы с выбросами===&lt;br /&gt;
* Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных &amp;lt;math&amp;gt;X^m={(x_i, y_i)}_{i=1}^m&amp;lt;/math&amp;gt;. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: &amp;lt;math&amp;gt;y_t=\alpha_t+\beta_t x_t + \varepsilon_t&amp;lt;/math&amp;gt;. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры &amp;lt;math&amp;gt;\alpha_t&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;\beta_t&amp;lt;/math&amp;gt; локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания f, который выбирает пользователь. Параметр f указывает, какая доля (fraction) данных используется в процедуре. Если f = 0.5, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если f = 0.8, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту t.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*:X \rightarrow Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a:\ X\rightarrow Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;&lt;br /&gt;
 &lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
Пример. Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69308</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69308"/>
				<updated>2019-01-25T00:32:40Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Алгоритмы борьбы с выбросами */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Алгоритмы борьбы с выбросами===&lt;br /&gt;
* Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
Пусть задано пространство объектов X и множество возможных ответов &amp;lt;math&amp;gt;Y = \mathbb{R}&amp;lt;/math&amp;gt;. Существует неизвестная зависимость &amp;lt;math&amp;gt;y^*:X \rightarrow Y&amp;lt;/math&amp;gt;, значения которой известны только на объектах обучающией выборки &amp;lt;math&amp;gt;X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)&amp;lt;/math&amp;gt;. Требуется построить алгоритм &amp;lt;math&amp;gt;a:\ X\rightarrow Y&amp;lt;/math&amp;gt;, аппроксимирующий неизвестную зависимость &amp;lt;math&amp;gt;y^*&amp;lt;/math&amp;gt;. Предполагается, что на множестве X задана метрика &amp;lt;math&amp;gt;\rho(x,x')&amp;lt;/math&amp;gt;&lt;br /&gt;
 &lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
Пример. Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69307</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69307"/>
				<updated>2019-01-25T00:09:30Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Алгоритмы борьбы с выбросами */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Алгоритмы борьбы с выбросами===&lt;br /&gt;
* Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
Пример. Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. &amp;lt;br&amp;gt;&lt;br /&gt;
В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69306</id>
		<title>Выброс</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%92%D1%8B%D0%B1%D1%80%D0%BE%D1%81&amp;diff=69306"/>
				<updated>2019-01-25T00:07:15Z</updated>
		
		<summary type="html">&lt;p&gt;Fest: /* Алгоритмы борьбы с выбросами */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;[[Файл:Outlier_boxplot.png|upright=1.0|thumb|Рис 1.График boxplot населения регионов России в 1990 году, где можно заметить 5 выбросов]]&lt;br /&gt;
'''Выброс'''(англ. ''outlier'') — небольшая доля объектов во входных данных, которая сильно выделяется из общей выборки. Многие алгоритмы машинного обучения чувствительны к разбросу и распределению значений атрибутов во входных данных. Соответственно выбросы во входных данных могут исказить и ввести в заблуждение процесс обучения алгоритмов машинного обучения, что приводит к увеличению времени обучения, снижению точности моделей и, в конечном итоге, к снижению результатов. Даже до подготовки предсказательных моделей на основе обучающих данных выбросы могут приводить к ошибочным представлениям и в дальнейшем к ошибочной интерпретации собранных данных.&lt;br /&gt;
===Виды выбросов===&lt;br /&gt;
Выбросы могут быть двух видов: одномерные и многомерные. Одномерные выбросы можно найти при рассмотрении распределения значений объектов в одном пространстве. Многомерные выбросы можно найти в n-мерном пространстве (из n-объектов). Рассмотрение распределений в n-мерных пространствах может быть очень сложным для человеческого мозга, поэтому необходимо обучить модель, чтобы сделать это.&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
Выбросы также могут отличаться в зависимости от окружающей среды: точечные выбросы, контекстуальные выбросы или коллективные выбросы. Точечные выбросы - это единичные точки данных, расположенные далеко от остальной части распределения. Контекстные выбросы могут представлять собой шум в данных, например, знаки препинания при выполнении анализа текста или сигнал фонового шума при распознавании речи. Коллективные выбросы могут быть подмножествами новшеств в данных, таких как сигнал, который может указывать на открытие новых явлений.&lt;br /&gt;
&lt;br /&gt;
===Причины возникновения выбросов===&lt;br /&gt;
* Сбой работы оборудования&lt;br /&gt;
* Человеческий фактор&lt;br /&gt;
* Случайность&lt;br /&gt;
* Уникальные явления&lt;br /&gt;
* и др.&lt;br /&gt;
==Примеры==&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Outlier_norm.png|200px|thumb|Рис 2. Хорошо обученная модель с выбросами]]&lt;br /&gt;
 |[[Файл:Outlier_bad.png|200px|thumb|Рис 3. Переобученная модель на выбросах]]&lt;br /&gt;
 |}&lt;br /&gt;
Рис 2 показывает хорошо обученную модель, в которой присутствуют два выброса. Как видно из рисунка данная модель показала себя устойчивой к выбросам, либо же вовремя прекратила своё обучение. Обратная ситуация обстоит с Рис 3, где модель сильно переобучилась из-за присутствующих в ней выбросов. &lt;br /&gt;
==Методы обнаружения и борьбы с выбросами== &lt;br /&gt;
===Методы обнаружения выбросов===&lt;br /&gt;
[[Файл:Outlier_normal_distribution.png|upright=1.0|thumb|[http://work.thaslwanter.at/Stats/html/statsDistributions.html Так как t-распределение имеет более длинный хвост, нежели у нормального распределения, поэтому t-распределение менее чувствительно к выбросам.]]]&lt;br /&gt;
# Экстремальный анализ данных(англ. ''extreme value analysis''). При таком анализе не применяются какие-либо специальные статистические методы. Обычно этот метод применим для одномерного случая. Алгоритм использования таков:&lt;br /&gt;
#* Визуализировать данные, используя диаграммы и гистограммы для нахождения экстремальных значений. &lt;br /&gt;
#* Задействовать распределение, например Гауссовское, и найти значения, чье стандартное отклонение отличается в 2-3 раза от математического ожидания или в полтора раза от первой либо третьей квартилей. &lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Апроксимирующий метод (англ. ''proximity method''). Чуть более сложный метод, заключающийся в применении кластеризующих методов.&lt;br /&gt;
#* Использовать метод кластеризации для определения кластеров для данных.&lt;br /&gt;
#* Идентифицировать и отметить центроиды каждого кластера.&lt;br /&gt;
#* Соотнести кластеры с экземплярами данных, находящимися на фиксированном расстоянии или на процентном удалении от центроиды соответствующего кластера.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
# Проецирующие методы (англ. ''projections methods''). Эти методы довольно быстро и просто определяют выбросы в выборке. &lt;br /&gt;
#* Использовать один из проецирующих методов, например метод главных компонент (англ. ''principal component analysis'', ''PCA''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82 Метод главных компонент]&amp;lt;/ref&amp;gt;) или самоорганизующиеся карты Кохонена(англ. ''self-organizing map'', ''SOM''&amp;lt;ref&amp;gt;[https://habr.com/post/338868/ Самоорганизующиеся карты Кохонена]&amp;lt;/ref&amp;gt;) или проекцию Саммона(англ. ''Sammon mapping'', ''Sammon projection''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Sammon_mapping Проекция Саммона]&amp;lt;/ref&amp;gt;), для суммирования обучающих данных в двух измерениях.&lt;br /&gt;
#* Визуализировать отображение&lt;br /&gt;
#* Использовать критерий близости от проецируемых значений или от вектора таблицы кодирования (англ. ''codebook vector'') для идентифицирования выбросов.&lt;br /&gt;
#* Отфильтровать предполагаемые выбросы из обучающей выборки и оценить работу модели.&lt;br /&gt;
&lt;br /&gt;
===Алгоритмы борьбы с выбросами===&lt;br /&gt;
* Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')&amp;lt;ref&amp;gt;[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
 ВХОД: &amp;lt;math&amp;gt;X^\ell&amp;lt;/math&amp;gt; - обучающая выборка;&lt;br /&gt;
 ВЫХОД: коэффиценты &amp;lt;math&amp;gt;\gamma_i, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 ________________________________________________________&lt;br /&gt;
 1: инициализация: &amp;lt;math&amp;gt;\gamma_i := 1, i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 2: повторять&lt;br /&gt;
 3:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 4:     вычислить оценки скользящего контроля:&lt;br /&gt;
        &amp;lt;math&amp;gt;a_i := a_h(x_i;X^\ell\setminus{x_i}) = \frac{\sum\limits^{\ell}_{j=1,j\ne i} {y_j\gamma_j K \left ( \tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i \right)} \right )}}{\sum\limits^{\ell}_{j=1,j\ne i}{\gamma_j K\left(\tfrac{\rho\left (x_i,x_j \right )}{h\left (x_i\right )}\right )} }&amp;lt;/math&amp;gt;&lt;br /&gt;
 5:   для всех объектов &amp;lt;math&amp;gt;i = 1,...,\ell&amp;lt;/math&amp;gt;;&lt;br /&gt;
 6:     &amp;lt;math&amp;gt;\gamma_i := \widetilde{K}\left (\left | a_i-y_i \right | \right );&amp;lt;/math&amp;gt;&lt;br /&gt;
 7: пока коэффиценты &amp;lt;math&amp;gt;\gamma_i&amp;lt;/math&amp;gt; не стабилизируются;&lt;br /&gt;
Пример. Допустим мы пытаемся восстановить зависимость, используя ''формулу Надарая-Ватсона''&amp;lt;ref&amp;gt;[http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%9D%D0%B0%D0%B4%D0%B0%D1%80%D0%B0%D1%8F-%D0%92%D0%B0%D1%82%D1%81%D0%BE%D0%BD%D0%B0 Формула Надарая-Ватсона]&amp;lt;/ref&amp;gt; по некоторым данным из n наблюдений, 2 из которых имеют излишне высокое и излишне низкое значения соответственно. Большие ошибки, вызванные этими выбросами, довольно заметно исказят полученный результат по формуле. В методе локально взвешенного сглаживания мы домножаем веса объектов &amp;lt;math&amp;gt;w_i&amp;lt;/math&amp;gt; на коэффиценты &amp;lt;math&amp;gt;\gamma_i=\widetilde{K}\left(\varepsilon_i\right)&amp;lt;/math&amp;gt;, значения которых тем меньше, чем величина ошибки &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. Для этого мы возьмём квартическое ядро (не обязательно совпадающее с основным ядром) &amp;lt;math&amp;gt;\widetilde{K}\left(\varepsilon\right)=K_Q\left(\frac{\varepsilon}{6Me\left\{\varepsilon_i\right\}}\right)&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;Me\left \{\varepsilon_i\right \}&amp;lt;/math&amp;gt; — медиана множества значений &amp;lt;math&amp;gt;\varepsilon_i&amp;lt;/math&amp;gt;. &lt;br /&gt;
Таким образом выбросы будут нивелироваться автоматически при использовании данного подхода. В статистике методы, устойчивые к нарушениям модельных предположений о данных, называются ''робастными''. Метод локально взвешенного сглаживания относится к ''робастным'' методам, так как он устойчив к наличию небольшого количества выбросов. &lt;br /&gt;
* Дерево принятия решения (англ. ''decision tree''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%94%D0%B5%D1%80%D0%B5%D0%B2%D0%BE_%D1%80%D0%B5%D1%88%D0%B5%D0%BD%D0%B8%D0%B9 Дерево принятия решения]&amp;lt;/ref&amp;gt;). Это дерево, как и уже описанный алгоритм локально взвешенного сглаживания, относится ''робастным'' методам.&lt;br /&gt;
* Робастная регрессия (англ. ''robust regression''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Robust_regression Робастная регрессия]&amp;lt;/ref&amp;gt;). В отличии от регрессии, использующей, например, метод наименьших квадратов, в этом алгоритме не строится идеализированное предположение, что вектор ошибок &amp;lt;math&amp;gt;\varepsilon&amp;lt;/math&amp;gt; распределен согласно нормальному закону. Однако на практике зачастую имеют место отклонения от этого предположения. Тогда можно применить метод наименьших модулей (англ. ''Least Absolute Deviation, LAD ''&amp;lt;ref&amp;gt;[https://en.wikipedia.org/wiki/Least_absolute_deviations Метод наименьших модулей]&amp;lt;/ref&amp;gt;) в случае, если распределение ошибок измерений подчиняется распределению Лапласа (англ. Laplace distribution &amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D1%81%D0%BF%D1%80%D0%B5%D0%B4%D0%B5%D0%BB%D0%B5%D0%BD%D0%B8%D0%B5_%D0%9B%D0%B0%D0%BF%D0%BB%D0%B0%D1%81%D0%B0 Распределение Лапласа]&amp;lt;/ref&amp;gt;).&lt;br /&gt;
&lt;br /&gt;
==См.также==&lt;br /&gt;
* [[Аномалия]]&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
# https://machinelearningmastery.com/how-to-identify-outliers-in-your-data/&lt;br /&gt;
# https://ru.coursera.org/lecture/vvedenie-mashinnoe-obuchenie/obnaruzhieniie-vybrosov-t9PG4&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Статистика]]&lt;/div&gt;</summary>
		<author><name>Fest</name></author>	</entry>

	</feed>