<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
		<id>http://neerc.ifmo.ru/wiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=AnnaRodionova</id>
		<title>Викиконспекты - Вклад участника [ru]</title>
		<link rel="self" type="application/atom+xml" href="http://neerc.ifmo.ru/wiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=AnnaRodionova"/>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:%D0%92%D0%BA%D0%BB%D0%B0%D0%B4/AnnaRodionova"/>
		<updated>2026-06-11T16:46:36Z</updated>
		<subtitle>Вклад участника</subtitle>
		<generator>MediaWiki 1.30.0</generator>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72357</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72357"/>
				<updated>2020-01-22T10:53:16Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Регуляризация в линейной регрессии */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис. 1 представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритма]], а &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; {{---}} неотрицательный гиперпараметр, являющийся коэффициентом регуляризации.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через [[Метрический классификатор и метод ближайших соседей#Использование различных метрик расстояния | манхэттенское расстояние]]: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} \geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln \left(\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp \left(- \dfrac{\| \beta \| ^ 2}{2 \sigma} \right) \right) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln \left(\dfrac{1}{(2C)^n} \exp \left(- \dfrac{\| \beta \|_{1}}{C} \right) \right) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 4. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 4. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Каждому объекту $x \in X^l$ соответствует признаковое описание $(f_{1}(x),\dots,f_{n}(x))$, где $f_{j}:X \rightarrow \mathbb{R}$ {{---}} числовые признаки. Модель алгоритмов для линейной регрессии состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} \,f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_{j}(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
В [[Вариации регрессии#Гребневая регрессия (ридж-регрессия) | гребневой регрессии]] к функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag \left(\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \right)V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag \left(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}\right) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
В [[Вариации регрессии#Лассо-регрессия | лассо регрессии]] к функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 5 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис. 5. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin \left(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2\right)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 6 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис. 6. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l\left(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}}\right)$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Регрессия]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72356</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72356"/>
				<updated>2020-01-22T10:52:42Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Регуляризация в линейной регрессии */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис. 1 представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритма]], а &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; {{---}} неотрицательный гиперпараметр, являющийся коэффициентом регуляризации.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через [[Метрический классификатор и метод ближайших соседей#Использование различных метрик расстояния | манхэттенское расстояние]]: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} \geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln \left(\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp \left(- \dfrac{\| \beta \| ^ 2}{2 \sigma} \right) \right) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln \left(\dfrac{1}{(2C)^n} \exp \left(- \dfrac{\| \beta \|_{1}}{C} \right) \right) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 4. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 4. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Каждому объекту $x \in X^l$ соответствует признаковое описание $(f_{1}(x),\dots,f_{n}(x))$, где $f_{j}:X \rightarrow \mathbb{R}$ {{---}} числовые признаки. Модель алгоритмов для линейной регрессии состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_{j}(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
В [[Вариации регрессии#Гребневая регрессия (ридж-регрессия) | гребневой регрессии]] к функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag \left(\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \right)V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag \left(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}\right) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
В [[Вариации регрессии#Лассо-регрессия | лассо регрессии]] к функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 5 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис. 5. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin \left(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2\right)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 6 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис. 6. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l\left(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}}\right)$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Регрессия]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72355</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72355"/>
				<updated>2020-01-22T10:51:03Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Регуляризация в линейной регрессии */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис. 1 представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритма]], а &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; {{---}} неотрицательный гиперпараметр, являющийся коэффициентом регуляризации.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через [[Метрический классификатор и метод ближайших соседей#Использование различных метрик расстояния | манхэттенское расстояние]]: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} \geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln \left(\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp \left(- \dfrac{\| \beta \| ^ 2}{2 \sigma} \right) \right) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln \left(\dfrac{1}{(2C)^n} \exp \left(- \dfrac{\| \beta \|_{1}}{C} \right) \right) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 4. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 4. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Каждому объекту $x \in X^l$ соответствует признаковое описание $(f_{1}(x),\dots,f_{n}(x))$, где $f_{j}:X \rightarrow R$ {{---}} числовые признаки. Модель алгоритмов для линейной регрессии состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_{j}(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
В [[Вариации регрессии#Гребневая регрессия (ридж-регрессия) | гребневой регрессии]] к функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag \left(\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \right)V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag \left(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}\right) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
В [[Вариации регрессии#Лассо-регрессия | лассо регрессии]] к функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 5 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис. 5. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin \left(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2\right)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 6 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис. 6. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l\left(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}}\right)$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Регрессия]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72354</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72354"/>
				<updated>2020-01-22T10:50:43Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Регуляризация в линейной регрессии */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис. 1 представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритма]], а &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; {{---}} неотрицательный гиперпараметр, являющийся коэффициентом регуляризации.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через [[Метрический классификатор и метод ближайших соседей#Использование различных метрик расстояния | манхэттенское расстояние]]: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} \geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln \left(\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp \left(- \dfrac{\| \beta \| ^ 2}{2 \sigma} \right) \right) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln \left(\dfrac{1}{(2C)^n} \exp \left(- \dfrac{\| \beta \|_{1}}{C} \right) \right) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 4. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 4. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Каждому объекту $x \in R^l$ соответствует признаковое описание $(f_{1}(x),\dots,f_{n}(x))$, где $f_{j}:X \rightarrow R$ {{---}} числовые признаки. Модель алгоритмов для линейной регрессии состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_{j}(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
В [[Вариации регрессии#Гребневая регрессия (ридж-регрессия) | гребневой регрессии]] к функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag \left(\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \right)V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag \left(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}\right) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
В [[Вариации регрессии#Лассо-регрессия | лассо регрессии]] к функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 5 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис. 5. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin \left(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2\right)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 6 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис. 6. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l\left(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}}\right)$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Регрессия]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72353</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72353"/>
				<updated>2020-01-22T10:44:11Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Регуляризация в линейной регрессии */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис. 1 представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритма]], а &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; {{---}} неотрицательный гиперпараметр, являющийся коэффициентом регуляризации.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через [[Метрический классификатор и метод ближайших соседей#Использование различных метрик расстояния | манхэттенское расстояние]]: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} \geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln \left(\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp \left(- \dfrac{\| \beta \| ^ 2}{2 \sigma} \right) \right) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln \left(\dfrac{1}{(2C)^n} \exp \left(- \dfrac{\| \beta \|_{1}}{C} \right) \right) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 4. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 4. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_{j}(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
В [[Вариации регрессии#Гребневая регрессия (ридж-регрессия) | гребневой регрессии]] к функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag \left(\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \right)V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag \left(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}\right) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
В [[Вариации регрессии#Лассо-регрессия | лассо регрессии]] к функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 5 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис. 5. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin \left(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2\right)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 6 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис. 6. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l\left(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}}\right)$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Регрессия]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72352</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72352"/>
				<updated>2020-01-22T10:42:38Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Метод опорных векторов */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис. 1 представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритма]], а &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; {{---}} неотрицательный гиперпараметр, являющийся коэффициентом регуляризации.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через [[Метрический классификатор и метод ближайших соседей#Использование различных метрик расстояния | манхэттенское расстояние]]: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} \geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln \left(\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp \left(- \dfrac{\| \beta \| ^ 2}{2 \sigma} \right) \right) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln \left(\dfrac{1}{(2C)^n} \exp \left(- \dfrac{\| \beta \|_{1}}{C} \right) \right) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 4. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 4. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
В [[Вариации регрессии#Гребневая регрессия (ридж-регрессия) | гребневой регрессии]] к функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag \left(\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \right)V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag \left(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}\right) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
В [[Вариации регрессии#Лассо-регрессия | лассо регрессии]] к функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 5 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис. 5. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin \left(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2\right)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 6 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис. 6. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l\left(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}}\right)$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Регрессия]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72351</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72351"/>
				<updated>2020-01-22T10:42:08Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Сравнение гребневой и лассо регрессий */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис. 1 представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритма]], а &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; {{---}} неотрицательный гиперпараметр, являющийся коэффициентом регуляризации.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через [[Метрический классификатор и метод ближайших соседей#Использование различных метрик расстояния | манхэттенское расстояние]]: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} \geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln \left(\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp \left(- \dfrac{\| \beta \| ^ 2}{2 \sigma} \right) \right) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln \left(\dfrac{1}{(2C)^n} \exp \left(- \dfrac{\| \beta \|_{1}}{C} \right) \right) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 4. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 4. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
В [[Вариации регрессии#Гребневая регрессия (ридж-регрессия) | гребневой регрессии]] к функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag \left(\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \right)V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag \left(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}\right) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
В [[Вариации регрессии#Лассо-регрессия | лассо регрессии]] к функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 5 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис. 5. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin \left(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2\right)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 6 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис. 6. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Регрессия]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72350</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72350"/>
				<updated>2020-01-22T10:41:16Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Гребневая регрессия */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис. 1 представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритма]], а &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; {{---}} неотрицательный гиперпараметр, являющийся коэффициентом регуляризации.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через [[Метрический классификатор и метод ближайших соседей#Использование различных метрик расстояния | манхэттенское расстояние]]: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} \geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln \left(\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp \left(- \dfrac{\| \beta \| ^ 2}{2 \sigma} \right) \right) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln \left(\dfrac{1}{(2C)^n} \exp \left(- \dfrac{\| \beta \|_{1}}{C} \right) \right) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 4. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 4. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
В [[Вариации регрессии#Гребневая регрессия (ридж-регрессия) | гребневой регрессии]] к функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag \left(\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \right)V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag \left(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}\right) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
В [[Вариации регрессии#Лассо-регрессия | лассо регрессии]] к функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 5 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис. 5. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 6 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис. 6. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Регрессия]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72349</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72349"/>
				<updated>2020-01-22T10:39:14Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Лапласовский регуляризатор */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис. 1 представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритма]], а &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; {{---}} неотрицательный гиперпараметр, являющийся коэффициентом регуляризации.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через [[Метрический классификатор и метод ближайших соседей#Использование различных метрик расстояния | манхэттенское расстояние]]: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} \geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln \left(\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp \left(- \dfrac{\| \beta \| ^ 2}{2 \sigma} \right) \right) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln \left(\dfrac{1}{(2C)^n} \exp \left(- \dfrac{\| \beta \|_{1}}{C} \right) \right) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 4. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 4. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
В [[Вариации регрессии#Гребневая регрессия (ридж-регрессия) | гребневой регрессии]] к функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
В [[Вариации регрессии#Лассо-регрессия | лассо регрессии]] к функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 5 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис. 5. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 6 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис. 6. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Регрессия]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72348</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72348"/>
				<updated>2020-01-22T10:38:36Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Нормальный регуляризатор */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис. 1 представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритма]], а &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; {{---}} неотрицательный гиперпараметр, являющийся коэффициентом регуляризации.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через [[Метрический классификатор и метод ближайших соседей#Использование различных метрик расстояния | манхэттенское расстояние]]: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} \geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln \left(\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp \left(- \dfrac{\| \beta \| ^ 2}{2 \sigma} \right) \right) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 4. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 4. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
В [[Вариации регрессии#Гребневая регрессия (ридж-регрессия) | гребневой регрессии]] к функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
В [[Вариации регрессии#Лассо-регрессия | лассо регрессии]] к функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 5 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис. 5. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 6 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис. 6. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Регрессия]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72347</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72347"/>
				<updated>2020-01-22T10:33:14Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Регуляризация в линейной регрессии */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис. 1 представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритма]], а &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; {{---}} неотрицательный гиперпараметр, являющийся коэффициентом регуляризации.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через [[Метрический классификатор и метод ближайших соседей#Использование различных метрик расстояния | манхэттенское расстояние]]: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} \geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 4. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 4. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
В [[Вариации регрессии#Гребневая регрессия (ридж-регрессия) | гребневой регрессии]] к функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
В [[Вариации регрессии#Лассо-регрессия | лассо регрессии]] к функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 5 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис. 5. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 6 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис. 6. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Регрессия]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72346</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72346"/>
				<updated>2020-01-22T10:19:18Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Эластичная сеть */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис. 1 представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритма]], а &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; {{---}} неотрицательный гиперпараметр, являющийся коэффициентом регуляризации.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через [[Метрический классификатор и метод ближайших соседей#Использование различных метрик расстояния | манхэттенское расстояние]]: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} \geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 4. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 4. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
В [[Вариации регрессии#Гребневая регрессия (ридж-регрессия) | гребневой регрессии]] к функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
В [[Вариации регрессии#Лассо-регрессия | лассо регрессии]] к функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 5 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис. 5. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 6 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис. 6. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Регрессия]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72345</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72345"/>
				<updated>2020-01-22T10:17:37Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Основные виды регуляризации */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис. 1 представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритма]], а &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; {{---}} неотрицательный гиперпараметр, являющийся коэффициентом регуляризации.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через [[Метрический классификатор и метод ближайших соседей#Использование различных метрик расстояния | манхэттенское расстояние]]: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} \geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 4. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 4. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
В [[Вариации регрессии#Гребневая регрессия (ридж-регрессия) | гребневой регрессии]] к функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
В [[Вариации регрессии#Лассо-регрессия | лассо регрессии]] к функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 5 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис. 5. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 6 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис. 6. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Регрессия]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72338</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72338"/>
				<updated>2020-01-22T03:37:00Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис. 1 представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 4. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 4. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 5 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис. 5. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 6 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис. 6. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72337</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72337"/>
				<updated>2020-01-22T03:35:11Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Регуляризация в линейной регрессии */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис. 1 представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 4. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 4. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 5 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.5. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 6 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.6. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72336</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72336"/>
				<updated>2020-01-22T03:34:11Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис. 1 представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 4. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 4. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 5 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.5. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72335</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72335"/>
				<updated>2020-01-22T03:33:24Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Лапласовский регуляризатор */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 4. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 4. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 5 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.5. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72334</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72334"/>
				<updated>2020-01-22T03:32:53Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Регуляризация в линейной регрессии */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 3. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 3. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 5 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.5. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72333</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72333"/>
				<updated>2020-01-22T03:31:47Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Лапласовский регуляризатор */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением, как можно видеть на Рис. 3. Дисперсия Лапласовского распределения равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:laplace_and_normal.png|400px|thumb|Рис. 3. Сравнение нормального и Лапласовского распределений при одинаковых математических ожиданиях и дисперсиях.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A4%D0%B0%D0%B9%D0%BB:Laplace_and_normal.png&amp;diff=72332</id>
		<title>Файл:Laplace and normal.png</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A4%D0%B0%D0%B9%D0%BB:Laplace_and_normal.png&amp;diff=72332"/>
				<updated>2020-01-22T03:25:06Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72331</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72331"/>
				<updated>2020-01-22T02:51:37Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Вариации регрессии | вариациях регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72324</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72324"/>
				<updated>2020-01-21T15:50:21Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72323</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72323"/>
				<updated>2020-01-21T15:49:59Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = \argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72322</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72322"/>
				<updated>2020-01-21T15:48:39Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Нейронные сети */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72321</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72321"/>
				<updated>2020-01-21T15:48:04Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Нейронные сети */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72320</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72320"/>
				<updated>2020-01-21T15:45:01Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Основные виды регуляризации */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; из [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72319</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72319"/>
				<updated>2020-01-21T15:44:10Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* На примере  логистической регрессии */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавления регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72318</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72318"/>
				<updated>2020-01-21T15:43:28Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* На примере  линейной регрессии */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы, и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72317</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72317"/>
				<updated>2020-01-21T11:12:34Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\dfrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\dfrac{1}{(2C)^n} \exp(- \dfrac{\| \beta \|_{1}}{C})) = - \dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \dfrac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\dfrac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72316</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72316"/>
				<updated>2020-01-21T11:10:57Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\dfrac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\fdrac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72315</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72315"/>
				<updated>2020-01-21T11:10:26Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72314</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72314"/>
				<updated>2020-01-21T11:08:24Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,...,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in \mathbb{R}^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72313</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72313"/>
				<updated>2020-01-21T10:52:02Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Градиентный спуск */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,...,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in R^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}'(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72312</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72312"/>
				<updated>2020-01-21T10:51:42Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Градиентный спуск */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,...,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in R^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q′_{\tau}(w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72311</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72311"/>
				<updated>2020-01-21T10:49:32Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Сравнение гребневой и лассо регрессий */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,...,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in R^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q′τ (w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72310</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72310"/>
				<updated>2020-01-21T10:48:57Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Сравнение гребневой и лассо регрессий */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,...,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример для простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in R^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q′τ (w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72309</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72309"/>
				<updated>2020-01-21T10:48:22Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Сравнение гребневой и лассо регрессий */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,...,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение гребневой и лассо регрессий, пример для простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in R^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q′τ (w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A4%D0%B0%D0%B9%D0%BB:Ridge_and_Lasso.png&amp;diff=72308</id>
		<title>Файл:Ridge and Lasso.png</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A4%D0%B0%D0%B9%D0%BB:Ridge_and_Lasso.png&amp;diff=72308"/>
				<updated>2020-01-21T10:47:52Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72307</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72307"/>
				<updated>2020-01-21T10:37:09Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Сравнение гребневой и лассо регрессий */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,...,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso_Regression.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение гребневой и лассо регрессий, пример для простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in R^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q′τ (w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72306</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72306"/>
				<updated>2020-01-21T10:36:15Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,...,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow \max\limits_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso_Regression.png|400px|thumb|Рис.3. Сравнение гребневой и лассо регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение гребневой и лассо регрессий, пример для простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in R^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q′τ (w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72305</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72305"/>
				<updated>2020-01-21T10:35:08Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* L_{1}-регуляризация */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация (англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,...,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso_Regression.png|400px|thumb|Рис.3. Сравнение гребневой и лассо регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение гребневой и лассо регрессий, пример для простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in R^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q′τ (w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow max_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72304</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72304"/>
				<updated>2020-01-21T10:34:24Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация(англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,...,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow \min\limits_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso_Regression.png|400px|thumb|Рис.3. Сравнение гребневой и лассо регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение гребневой и лассо регрессий, пример для простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in R^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow \min\limits_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q′τ (w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow max_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72303</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72303"/>
				<updated>2020-01-21T10:33:29Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация(англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow \min\limits_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,...,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow min_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow min_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso_Regression.png|400px|thumb|Рис.3. Сравнение гребневой и лассо регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение гребневой и лассо регрессий, пример для простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in R^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow min_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q′τ (w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow max_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72302</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72302"/>
				<updated>2020-01-21T10:31:18Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Нейронные сети */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация(англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow min_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,...,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow min_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow min_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso_Regression.png|400px|thumb|Рис.3. Сравнение гребневой и лассо регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение гребневой и лассо регрессий, пример для простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in R^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow min_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q′τ (w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow max_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72301</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72301"/>
				<updated>2020-01-21T10:30:48Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Нейронные сети */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация(англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow min_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,...,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow min_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow min_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso_Regression.png|400px|thumb|Рис.3. Сравнение гребневой и лассо регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение гребневой и лассо регрессий, пример для простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in R^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow min_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q′τ (w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow max_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} прореживание сети (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72300</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72300"/>
				<updated>2020-01-21T10:29:37Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Другие использования регуляризации */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация(англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow min_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,...,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow min_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow min_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso_Regression.png|400px|thumb|Рис.3. Сравнение гребневой и лассо регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение гребневой и лассо регрессий, пример для простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in R^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow min_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q′τ (w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow max_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления &amp;quot;штрафного&amp;quot; слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} прореживание сети (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72299</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72299"/>
				<updated>2020-01-21T10:28:27Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Метод опорных векторов */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация(англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow min_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,...,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow min_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow min_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso_Regression.png|400px|thumb|Рис.3. Сравнение гребневой и лассо регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение гребневой и лассо регрессий, пример для простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in R^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow min_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q′τ (w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному методу разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow max_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления &amp;quot;штрафного&amp;quot; слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} прореживание сети (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72298</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72298"/>
				<updated>2020-01-21T10:27:54Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Градиентный спуск */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация(англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow min_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,...,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow min_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow min_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso_Regression.png|400px|thumb|Рис.3. Сравнение гребневой и лассо регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение гребневой и лассо регрессий, пример для простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in R^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow min_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методе выбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор $w$ изменяется в направлении наиболее быстрого убывания функционала $Q$ {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q′τ (w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному алгоритму разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow max_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления &amp;quot;штрафного&amp;quot; слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} прореживание сети (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72297</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72297"/>
				<updated>2020-01-21T10:24:53Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Сравнение гребневой и лассо регрессий */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация(англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow min_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,...,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow min_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow min_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso_Regression.png|400px|thumb|Рис.3. Сравнение гребневой и лассо регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребневой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение гребневой и лассо регрессий, пример для простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in R^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow min_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методевыбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор w изменяется в направлении наиболее быстрого убывания функционала Q {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q′τ (w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному алгоритму разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow max_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления &amp;quot;штрафного&amp;quot; слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} прореживание сети (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72296</id>
		<title>Регуляризация</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F&amp;diff=72296"/>
				<updated>2020-01-21T10:19:53Z</updated>
		
		<summary type="html">&lt;p&gt;AnnaRodionova: /* Сравнение гребниевой и лассо регрессий */&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
==Мотивация==&lt;br /&gt;
Как говорилось ранее, регуляризация полезна для борьбы с [[Переобучение | переобучением]]. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую. &lt;br /&gt;
&lt;br /&gt;
===На примере [[Линейная регрессия | линейной регрессии]]===&lt;br /&gt;
&lt;br /&gt;
В качестве наглядного примера рассмотрим линейные регрессионные модели.  &lt;br /&gt;
Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Normal_bias_reg.png|200px|thumb|Рис. 1. Норма. M = 2]]&lt;br /&gt;
 |[[Файл:High_variance_reg.png|200px|thumb|Рис. 2. Переобучение. M = 4]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{---}} модель, слишком сильно заточенная под обучающую выборку.&lt;br /&gt;
&lt;br /&gt;
Однин из способов бороться с негативным эффектом излишнего подстраивания под данные {{---}} использование регуляризации, т. е. добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым запрещаются слишком &amp;quot;резкие&amp;quot; изгибы и предотвращается переобучение.&lt;br /&gt;
&lt;br /&gt;
===На примере [[Логистическая регрессия | логистической регрессии]]===&lt;br /&gt;
&lt;br /&gt;
Необходимость регуляризации можно увидеть и на другом примере {{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность, и вместо сигмойды получится &amp;quot;ступенька&amp;quot;, представленная на Рис. 3. &lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{---}} &amp;quot;ступенька&amp;quot;]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Это плохо, ибо произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризатора, не дающего весам принимать слишком большие значения.&lt;br /&gt;
&lt;br /&gt;
==Основные виды регуляризации==&lt;br /&gt;
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{---}} &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex &amp;gt;L_{2}&amp;lt;/tex&amp;gt;, а также их линейная комбинация {{---}} эластичная сеть. &lt;br /&gt;
&lt;br /&gt;
В представленных ниже формулах для эмпирического риска &amp;lt;tex&amp;gt;Q&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;\mathcal{L}&amp;lt;/tex&amp;gt; является функцией потерь, а &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; {{---}} вектором параметров элемента &amp;lt;tex&amp;gt;g(x, \beta)&amp;lt;/tex&amp;gt; [[Модель алгоритма и ее выбор | модели алгоритмов]].&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''): &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Минимизация регуляризованного cоответствующим образом эмпирического риска приводит к выбору такого вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.&lt;br /&gt;
&lt;br /&gt;
===&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
&amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризация(англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Данный вид регуляризации также позволяет ограничить значения вектора &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Однако, к тому же он обладает интересным и полезным на практике свойством {{---}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.&lt;br /&gt;
&lt;br /&gt;
Запишем задачу настройки вектора параметров &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta) = \sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum\limits_{j=1}^n{|\beta_{j}|}&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt; {{---}} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной &amp;lt;tex&amp;gt;\beta_{j}&amp;lt;/tex&amp;gt; поставим в соответствие две новые неотрицательные переменные:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} u_{j}=\frac{1}{2}(|\beta_{j}| + \beta_{j}) \\ v_{j}=\frac{1}{2}(|\beta_{j}| - \beta_{j}) \end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases}  \beta_{j} = u_{j} - v_{j} \\ |\beta_{j}| = u_{j} + v_{j} \end{cases}&amp;lt;/tex&amp;gt;&lt;br /&gt;
В новых переменных функционал становится гладким, но добавляются ограничения-неравенства:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\begin{cases} Q(u, v) = \sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow min_{u,v} \\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,...,n\end{cases} &amp;lt;/tex&amp;gt;&lt;br /&gt;
Для любого &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt; хотя бы одно из ограничений &amp;lt;tex&amp;gt;u_{j} \geq 􏰧0&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v_{j} 􏰧\geq 0&amp;lt;/tex&amp;gt; обращается в равенство, иначе второе слагаемое в &amp;lt;tex&amp;gt;Q(u, v)&amp;lt;/tex&amp;gt; можно было бы уменьшить, не изменив первое. Если гиперпараметр &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; устремить к &amp;lt;tex&amp;gt;\infty&amp;lt;/tex&amp;gt;, в какой-то момент все &amp;lt;tex&amp;gt;2n&amp;lt;/tex&amp;gt; ограничений обратятся в равенство. Постепенное увеличение гиперпараметра &amp;lt;tex&amp;gt;\lambda&amp;lt;/tex&amp;gt; приводит к увеличению числа таких &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;, для которых &amp;lt;tex&amp;gt;u_{j} = v_{j} = 0&amp;lt;/tex&amp;gt;, откуда следует, что &amp;lt;tex&amp;gt;\beta_{j} = 0&amp;lt;/tex&amp;gt;. Как говорилось ранее, в линейных моделях это означает, что значения &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;-го признака игнорируются, и его можно исключить из модели.&lt;br /&gt;
&lt;br /&gt;
===Эластичная сеть===&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
Эластичная сеть (англ. ''elastic net regularization''):&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits_{I=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum\limits_{j}{\beta_{j}}^{2}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
}}&lt;br /&gt;
Приведенная регуляризация использует как &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;, так и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt;-регуляризацией.&lt;br /&gt;
&lt;br /&gt;
==Вероятностная интерпретация регуляризации==&lt;br /&gt;
===Эквивалентная вероятностная задача===&lt;br /&gt;
Перед нами стоит задача {{---}} минимизировать эмпирический риск: &lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(\beta, X^l)=\sum\limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow min_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть &amp;lt;tex&amp;gt;X \times Y&amp;lt;/tex&amp;gt; {{---}} является вероятностным пространством. Тогда вместо &amp;lt;tex&amp;gt;g(x_{i}, \beta)&amp;lt;/tex&amp;gt; задана совместная плотность распределение объектов и классов &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Для настройки вектора параметров $\beta$ воспользуемся ''принципом максимума правдоподобия'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l|\beta)=\prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;  &lt;br /&gt;
Удобнее рассматривать логарифм правдоподобия:&lt;br /&gt;
:&amp;lt;tex&amp;gt;L(\beta, X^l)=\ln p(X^l|\beta)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt;&lt;br /&gt;
Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:&lt;br /&gt;
:&amp;lt;tex&amp;gt;-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
===Принцип максимума совместного правдоподобия данных и модели===&lt;br /&gt;
Допустим, что наряду с параметрической моделью плотности распределения &amp;lt;tex&amp;gt;p(x, y|\beta)&amp;lt;/tex&amp;gt; имеется еще и ''априорное распределение в пространстве параметров модели'' &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt;. Чтобы ослабить априорные ограничения, вместо фиксированной функции &amp;lt;tex&amp;gt;p(\beta)&amp;lt;/tex&amp;gt; вводится ''параметрическое семейство априорных распределений'' &amp;lt;tex&amp;gt;p(\beta; \gamma)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\gamma&amp;lt;/tex&amp;gt; {{---}} гиперпараметр.&lt;br /&gt;
&lt;br /&gt;
Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки &amp;lt;tex&amp;gt;X^l&amp;lt;/tex&amp;gt;, но и появление модели &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:&lt;br /&gt;
:&amp;lt;tex&amp;gt;p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow max_{\beta}&amp;lt;/tex&amp;gt; &lt;br /&gt;
&lt;br /&gt;
Функционал &amp;lt;tex&amp;gt;L_{\gamma}&amp;lt;/tex&amp;gt; распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно. &lt;br /&gt;
&lt;br /&gt;
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.&lt;br /&gt;
При этом можно определить распределения, которые соответствуют представленным ранее &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt; регуляризаторам.&lt;br /&gt;
&lt;br /&gt;
===Нормальный регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''нормальное распределение''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim N(0, \sigma^2)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Логарифмируя, получаем ''квадратичный регуляризатор'':&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),&amp;lt;/tex&amp;gt;&lt;br /&gt;
где &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; {{---}} слагаемое, не зависящее от &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем &amp;lt;tex&amp;gt;L_{2}&amp;lt;/tex&amp;gt;-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
===Лапласовский регуляризатор===&lt;br /&gt;
Пусть вектор &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; имеет ''распределение Лапласа''&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]&amp;lt;/ref&amp;gt;, все его компоненты независимы и имеют равные дисперсии: &lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta \sim Laplace(0, C)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Тогда:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum\limits_{j}|\beta_{j}|&amp;lt;/tex&amp;gt;&lt;br /&gt;
Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна &amp;lt;tex&amp;gt;2C^2&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Аналогично случаю с нормальным регуляризатором, &amp;lt;tex&amp;gt;const(\beta)&amp;lt;/tex&amp;gt; можно опустить и, таким образом, получаем &amp;lt;tex&amp;gt;L_{1}&amp;lt;/tex&amp;gt; -регуляризатор.&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в линейной регрессии==&lt;br /&gt;
В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:&lt;br /&gt;
:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$&lt;br /&gt;
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:&lt;br /&gt;
:$Q(a) = \|F\beta - y\|^2$,&lt;br /&gt;
где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.&lt;br /&gt;
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:&lt;br /&gt;
:$\beta^* = (F^TF)^{-1}F^Ty$&lt;br /&gt;
В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:&lt;br /&gt;
:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2$&lt;br /&gt;
&lt;br /&gt;
К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.&lt;br /&gt;
&lt;br /&gt;
В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.&lt;br /&gt;
&lt;br /&gt;
===Гребневая регрессия===&lt;br /&gt;
К функционалу $Q$ добавляется $L_{2}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Итоговое выражение для параметра $\beta$:&lt;br /&gt;
:&amp;lt;tex&amp;gt;\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Таким образом, перед обращением матрицы к ней добавляется &amp;quot;гребень&amp;quot; {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.&lt;br /&gt;
&lt;br /&gt;
Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:&lt;br /&gt;
:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \frac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$&lt;br /&gt;
Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:&lt;br /&gt;
:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\frac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \frac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$&lt;br /&gt;
Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\frac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.&lt;br /&gt;
&lt;br /&gt;
В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:&lt;br /&gt;
:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \frac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 &amp;lt; \sum\limits_{j=1}^n \frac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$&lt;br /&gt;
&lt;br /&gt;
Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.&lt;br /&gt;
&lt;br /&gt;
Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.&lt;br /&gt;
&lt;br /&gt;
В нерегуляризованном случае:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$&lt;br /&gt;
&lt;br /&gt;
В случае с гребнем:&lt;br /&gt;
:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\frac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \frac{1}{\lambda_{j}} &amp;lt; n$&lt;br /&gt;
&lt;br /&gt;
===Лассо регрессия===&lt;br /&gt;
&lt;br /&gt;
К функционалу $Q$ добавляется $L_{1}$-регуляризатор.&lt;br /&gt;
&lt;br /&gt;
Итоговый минимизируемый функционал с поправкой:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении:&lt;br /&gt;
:$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow min_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$&lt;br /&gt;
&lt;br /&gt;
Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ &amp;quot;зажимает&amp;quot; вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator'').&lt;br /&gt;
&lt;br /&gt;
===Сравнение гребневой и лассо регрессий===&lt;br /&gt;
Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).&lt;br /&gt;
&lt;br /&gt;
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (&amp;lt;tex&amp;gt;|\beta_1| + |\beta_2| \leq t&amp;lt;/tex&amp;gt;), в случае гребневой регрессии {{---}} круг (&amp;lt;tex&amp;gt;\beta_1^2 + \beta_2^2 \leq t^2&amp;lt;/tex&amp;gt;). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: Ridge_and_Lasso_Regression.png|400px|thumb|Рис.3. Сравнение гребневой и лассо регрессий, пример для двумерного пространства независимых переменных.&amp;lt;br/&amp;gt;Бирюзовые области изображают ограничения на коэффициенты &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt;, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$:&lt;br /&gt;
:$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$&lt;br /&gt;
:$\beta_{j}^* = y_{j}$&lt;br /&gt;
В случае с гребниевой регрессией:&lt;br /&gt;
:$\beta_{j}^* = \frac{y_{j}}{1 + \lambda}$&lt;br /&gt;
В случае с лассо регрессией:&lt;br /&gt;
:$\beta_{j}^* = \begin{cases} y_{j} - \lambda / 2, y_{j} &amp;gt; \lambda / 2 \\ y_{j} + \lambda / 2,  y_{j} &amp;lt; -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2  \end{cases}$&lt;br /&gt;
В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий.&lt;br /&gt;
&lt;br /&gt;
{|align=&amp;quot;center&amp;quot;&lt;br /&gt;
 |-valign=&amp;quot;top&amp;quot;&lt;br /&gt;
 |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение гребневой и лассо регрессий, пример для простой модельной задачи.]]&lt;br /&gt;
 |}&lt;br /&gt;
&lt;br /&gt;
==Регуляризация в алгоритмах==&lt;br /&gt;
===Градиентный спуск===&lt;br /&gt;
Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов &amp;lt;tex&amp;gt;w \in R^n&amp;lt;/tex&amp;gt;, при котором достигается минимум эмпирического риска:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q(w, X^l)=\sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow min_{w}&amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В этом методевыбирается некоторое начальное приближение для вектора весов &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;, затем запускается итерационный процесс, на каждом шаге которого вектор w изменяется в направлении наиболее быстрого убывания функционала Q {{---}} противоположно вектору градиента&lt;br /&gt;
&amp;lt;tex&amp;gt;Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n&amp;lt;/tex&amp;gt;:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w - \eta Q'(w)&amp;lt;/tex&amp;gt;,&lt;br /&gt;
где &amp;lt;tex&amp;gt;\eta &amp;gt; 0&amp;lt;/tex&amp;gt;  {{---}} величина шага в направлении антиградиента.&lt;br /&gt;
&lt;br /&gt;
Регуляризация  {{---}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу &amp;lt;tex&amp;gt;Q(w)&amp;lt;/tex&amp;gt; добавляется штрафное слагаемое:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2&amp;lt;/tex&amp;gt;&lt;br /&gt;
Это приводит к появлению аддитивной поправки в градиенте:&lt;br /&gt;
:&amp;lt;tex&amp;gt;Q′τ (w) = Q′(w) + \tau&amp;lt;/tex&amp;gt; &lt;br /&gt;
В результате правило обновления весов принимает вид:&lt;br /&gt;
:&amp;lt;tex&amp;gt;w := w(1 - \eta \tau) - \eta Q'(w)&amp;lt;/tex&amp;gt;&lt;br /&gt;
Таким образом, вся модификация сводится к появлению неотрицательного множителя &amp;lt;tex&amp;gt;(1 − \eta \tau)&amp;lt;/tex&amp;gt;, приводящего к постоянному уменьшению весов. &lt;br /&gt;
&lt;br /&gt;
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{---}} параметр &amp;lt;tex&amp;gt;\tau&amp;lt;/tex&amp;gt; необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.&lt;br /&gt;
&lt;br /&gt;
===Метод опорных векторов===&lt;br /&gt;
[[Метод опорных векторов (SVM) | Метод опорных векторов (SVM)]] используется для задач классификации и регрессии. В нем строится гиперплоскость, разделяющая объекты выборки оптимальным образом.&lt;br /&gt;
&lt;br /&gt;
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится &amp;quot;ослаблять ограничения&amp;quot;, позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:&lt;br /&gt;
$\begin{cases}&lt;br /&gt;
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^l \xi_i \to \min\limits_{w, b, \xi} \\&lt;br /&gt;
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, l \\&lt;br /&gt;
\xi_i \geq 0, \quad i = 1, \ldots, l \\&lt;br /&gt;
\end{cases}$&lt;br /&gt;
&lt;br /&gt;
Как показано в соответствующем данному алгоритму разделе, эквивалентной задачей безусловной минимизации является:&lt;br /&gt;
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$&lt;br /&gt;
&lt;br /&gt;
В силу неравенства $[M_{i} &amp;lt; 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен регуляризатор $\frac{1}{2C} \|w\|^2$.&lt;br /&gt;
&lt;br /&gt;
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.&lt;br /&gt;
&lt;br /&gt;
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.&lt;br /&gt;
&lt;br /&gt;
Также существуют разновидности SVM с другими регуляризаторами.&lt;br /&gt;
* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):&lt;br /&gt;
:$\frac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \frac{\lambda_{i}^2}{w_{i}})$&lt;br /&gt;
* Метод опорных векторов с лассо (англ. ''LASSO SVM''): &lt;br /&gt;
:$\mu \sum\limits_{i=1}^n|w_{i}|$&lt;br /&gt;
* Метод опорных признаков (англ. ''Support feature machine''):&lt;br /&gt;
:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|&amp;lt;\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$&lt;br /&gt;
&lt;br /&gt;
==Другие использования регуляризации==&lt;br /&gt;
===Логистическая регрессия===&lt;br /&gt;
Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] полезно использовать регуляризацию. &lt;br /&gt;
&lt;br /&gt;
Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:&lt;br /&gt;
:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow max_{\beta}$&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{2}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
$L_{1}$-регуляризация:&lt;br /&gt;
:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i})  - \lambda \|\beta \|_{1} + const(\beta) \rightarrow max_{\beta}$&lt;br /&gt;
&lt;br /&gt;
Аналогично можно использовать и другие регуляризаторы.&lt;br /&gt;
&lt;br /&gt;
===Нейронные сети===&lt;br /&gt;
Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл &amp;quot;отбора признаков&amp;quot;, как в случае с линейными моделями. Регуляризация не снижает число параметров и не упрощает структуру сети.&lt;br /&gt;
&lt;br /&gt;
Для нейронной сети помимо добавления &amp;quot;штрафного&amp;quot; слагаемого к эмпирическому риску используют и другой метод регуляризации  {{---}} прореживание сети (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Переобучение]]&lt;br /&gt;
* [[Модель алгоритма и её выбор]]&lt;br /&gt;
* [[Байесовская классификация]]&lt;br /&gt;
* [[Вариации регрессии]]&lt;br /&gt;
* [[Линейная регрессия]]&lt;br /&gt;
* [[Логистическая регрессия]]&lt;br /&gt;
* [[Стохастический градиентный спуск]]&lt;br /&gt;
* [[Метод опорных векторов (SVM)]]&lt;br /&gt;
* [[Нейронные сети, перцептрон]]&lt;br /&gt;
* [[Практики реализации нейронных сетей]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники информации==&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]&lt;br /&gt;
* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]&lt;br /&gt;
* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]&lt;br /&gt;
* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]&lt;br /&gt;
* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]&lt;br /&gt;
* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]&lt;/div&gt;</summary>
		<author><name>AnnaRodionova</name></author>	</entry>

	</feed>