Изменения

Регуляризация

16 366 байт добавлено, 18:50, 21 января 2020

Нет описания правки

===На примере [[Линейная регрессия | линейной регрессии]]===

В качестве наглядного примера ~~можно рассмотреть~~ рассмотрим линейные регрессионные модели. Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени $M$.

{|align="center"

|-valign="top"

|}

~~Как можно видеть на~~ На Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 {{--- }} модель , слишком сильно ~~заточилась~~ заточенная под обучающую выборку.

~~Одним~~ Однин из способов бороться с ~~этим~~ негативным эффектом излишнего подстраивания под данные {{--- ~~использовать регуляризацию~~}} использование регуляризации, т. е. ~~добавлять некоторый штраф~~ добавление некоторого штрафа за большие значения коэффициентов у линейной модели. Тем самым ~~мы запретим~~ запрещаются слишком "резкие" изгибы , и ~~ограничим возможность подстраивания модели под данные~~предотвращается переобучение.

===На примере [[Логистическая регрессия | логистической регрессии]]===

Необходимость регуляризации можно увидеть и на другом примере{{---}} при использовании логистической регресии. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов модели уйдут в бесконечность , и вместо сигмойды получится "ступенька", ~~как представлено~~ представленная на Рис. 3.

{|align="center"

|-valign="top"

|[[Файл:Sigmoid_infinity_weights.png|300px|thumb|Рис 3. Сигмойда {{- --}} "ступенька"]]

|}

Это плохо, ибо ~~мы переобучились на нашу~~ произошло затачивание под обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем ~~добавлением регуляризации~~добавления регуляризатора, не ~~дающей~~ дающего весам принимать слишком большие значения.

==Основные виды регуляризации==

Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации {{--- }} <tex>L_{1}</tex> и <tex >L_{2}</tex>, а также их линейная комбинация {{--- }} эластичная сеть.

В представленных ниже формулах для эмпирического риска <tex>Q</tex>: <tex>\mathcal{L}</tex> является функцией потерь, а <tex>\beta</tex> {{- --}} вектором параметров ~~элемента~~ <tex>g(x, \beta)</tex> из [[Модель алгоритма и ее выбор | модели алгоритмов]].

===<tex>L_{2}</tex>-регуляризация===

|definition=

<tex>L_{2}</tex>-регуляризация, или регуляризация Тихонова (англ. ''ridge regularization'' или ''Tikhonov regularization''):

:<tex>Q(\beta, X^l)=\sum _\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum _\limits_{j=1}^n{\beta_{j}}^{2}</tex>.

}}

Минимизация регуляризованного cоответствующим образом эмпирического риска приводит ~~в данном случае~~ к выбору такого вектора параметров <tex>\beta</tex>, которое не слишком сильно отклоняется от нуля. В линейных классификаторах это позволяет избежать проблем мультиколлинеарности и переобучения.

===<tex>L_{1}</tex>-регуляризация===

{{Определение

|definition=

<tex>L_{1}</tex>-регуляризация(англ. ''lasso regularization''), или регуляризация через манхэттенское расстояние: :<tex>Q(\beta, X^l)=\sum _\limits_{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda \sum _\limits_{j=1}^n{|\beta_{j}|}</tex>.

}}

Данный вид регуляризации также позволяет ограничить значения вектора <tex>\beta</tex>. Однако, к тому же он ~~также~~ обладает интересным и полезным на практике свойством {{- --}} обнуляет значения некоторых параметров, что в случае с линейными моделями приводит к отбору признаков.

Запишем задачу настройки вектора параметров <tex>\beta</tex>:

:<tex>Q(\beta) = \~~sum_~~sum\limits_{i=1}^l\mathcal{L}_{i}(\beta) + \lambda \sum _\limits_{j=1}^n{|\beta_{j}|}</tex>,где <tex>\mathcal{L}_{i}(\beta) = \mathcal{L}(y_{i}, g(x_{i}, \beta))</tex> {{--- }} некоторая ограниченная гладкая функция потерь. Сделаем замену переменных, чтобы функционал стал гладким. Каждой переменной <tex>\beta_{j}</tex> поставим в соответствие две новые неотрицательные переменные::<tex>\begin{cases} u_{j}=\~~frac~~dfrac{1}{2}(|\beta_{j}| + \beta_{j})~~</tex>:<tex>~~\\ v_{j}=\~~frac~~dfrac{1}{2}(|\beta_{j}| - \beta_{j})\end{cases} </tex>

Тогда:

:<tex>\begin{cases} \beta_{j} = u_{j} + - v_{j}~~</tex>:<tex>~~\\ |\beta_{j}| = u_{j} + v_{j} \end{cases}</tex>В новых переменных функционал становится гладким, но ~~добавляется~~ добавляются ограничения-неравенства::<tex>\begin{cases} Q(u, v) = \~~sum_~~sum\limits_{i=1}^l\mathcal{L}_{i}(u - v) + \lambda \~~sum_~~sum\limits_{j=1}^n(u_{j} + v_{j}) \rightarrow ~~min_~~\min\limits_{u,v}~~</tex>:<tex>~~\\ u_{j} \geq 0, v_{j} \geq 0, \: j=1,\ldots,n\end{cases} </tex>Для любого <tex>j</tex> хотя бы одно из ограничений <tex>u_{j} \geq 􏰧0</tex> и <tex>v_{j} 􏰧\geq 0</tex> обращается в равенство, иначе второе слагаемое в <tex>Q(u, v)</tex> можно было бы уменьшить, не изменив первое. Если гиперпараметр <tex>\lambda</tex> устремить к <tex>\infty</tex>, в какой-то момент все <tex>2n</tex> ограничений обратятся в равенство. Постепенное увеличение гиперпараметра <tex>\lambda</tex> приводит к увеличению числа таких <tex>j</tex>, для которых <tex>u_{j} = v_{j} = 0</tex>, откуда следует, что <tex>w_\beta_{j} = 0</tex>. Как говорилось ранее, в линейных моделях это означает, что значения <tex>j</tex>-го признака игнорируются, и его можно исключить из модели.

===Эластичная сеть===

|definition=

Эластичная сеть (англ. ''elastic net regularization''):

:<tex>Q(\beta, X^l)=\sum _\limits_{iI=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum _\limits_{j=1}^n{|\beta_{j}|}+\lambda_{2} \sum _\limits_{j}{\beta_{j}}^{2}</tex>.

}}

Приведенная регуляризация использует как <tex>L_{1}</tex>, так и <tex>L_{2}</tex> регуляризации, учитывая эффективность обоих методов. Ее полезной особенностью является то, что она создает условия для группового эффекта при высокой корреляции переменных, а не обнуляет некоторые из них, как в случае с <tex>L_{1}</tex>-регуляризацией.

==Вероятностная интерпретация регуляризации==

===Эквивалентная вероятностная задача===

Перед нами стоит задача {{--- }} минимизировать эмпирический риск: :<tex>Q(\beta, X^l)=\sum \limits _{i=1}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow ~~min_~~\min\limits_{\beta}</tex>[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть <tex>X \times Y</tex> {{--- }} является вероятностным пространством. Тогда вместо <tex>g(x_{i}, \beta)</tex> задана совместная плотность распределение объектов и классов <tex>p(x, y|\beta)</tex>.

Для настройки вектора параметров $\beta $ воспользуемся ''принципом максимума правдоподобия''::<tex>p(X^l|\beta)=\~~prod_~~prod\limits_{i=1}^lp(x_{i},y_{i}|\beta) \rightarrow ~~max_~~\max\limits_{\beta}</tex>

Удобнее рассматривать логарифм правдоподобия:

:<tex>L(\beta, X^l)=\ln p(X^l|\beta)=\~~sum_~~sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow ~~max_~~\max\limits_{\beta}</tex>

Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:

:<tex>-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))</tex>

===Принцип максимума совместного правдоподобия данных и модели===

Допустим, что наряду с параметрической моделью плотности распределения <tex>p(x, y|\beta)</tex> имеется еще и ''априорное распределение в пространстве параметров модели'' <tex>p(\beta)</tex>. Чтобы ослабить априорные ограничения, вместо фиксированной функции <tex>p(w\beta)</tex> вводится ''параметрическое семейство априорных распределений'' <tex>p(\beta; \gamma)</tex>, где <tex>\gamma</tex> {{--- }} гиперпараметр.

Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки <tex>X^l</tex>, но и появление модели <tex>\beta</tex> также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:

Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':

:<tex>L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\~~sum_~~sum\limits_{i=1}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow ~~max_~~\max\limits_{\beta}</tex>

Функционал <tex>L_{\gamma}</tex> распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно.

===Нормальный регуляризатор===

Пусть вектор <tex>\beta</tex> имеет ''нормальное распределение''<ref>[https://ru.wikipedia.org/wiki/Нормальное_распределение Нормальное распределение]</ref>, все его компоненты независимы и имеют равные дисперсии:

:<tex>\beta \sim N(0, \sigma^2)</tex>

Логарифмируя, получаем ''квадратичный регуляризатор'':

:<tex>\ln p(\beta; \sigma) = \ln (\~~frac~~dfrac{1}{(2 \pi \sigma)^{n/2}} \exp(- \~~frac~~dfrac{\| \beta \| ^ 2}{2 \sigma})) = - \~~frac~~dfrac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),</tex>где <tex>const(\beta)</tex> {{--- }} слагаемое, не зависящее от <tex>\beta</tex>, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем <tex>L_{2}</tex> - регуляризатор.

===Лапласовский регуляризатор===

Пусть вектор <tex>\beta</tex> имеет ''распределение Лапласа''<ref>[https://ru.wikipedia.org/wiki/Распределение_Лапласа Распределение Лапласа]</ref>, все его компоненты независимы и имеют равные дисперсии:

:<tex>\beta \sim Laplace(0, C)</tex>

Тогда:

:<tex>\ln p(\beta; C) = \ln (\~~frac~~dfrac{1}{(2C)^n} \exp(- \~~frac~~dfrac{\| \beta \|_{1}}{C})) = - \~~frac~~dfrac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \~~sum_~~sum\limits_{j}|\beta_{j}|</tex>

Распределение Лапласа имеет более острый пик и более тяжёлые «хвосты», по сравнению с нормальным распределением. Его дисперсия равна <tex>2C^2</tex>.

Аналогично случаю с нормальным регуляризатором, <tex>const(\beta)</tex> можно опустить и, таким образом, получаем <tex>L_{1}</tex> - регуляризатор.

==Регуляризация в линейной регрессии==

В [[Линейная регрессия | линейной регрессии]] моделируется линейная зависимость между зависимой и независимой переменной. Таким образом, модель алгоритмов для нее состоит из функций вида:

:$g(x, \beta) = \sum\limits_{j}^n \beta_{j} f_{j}(x)$

В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:

:$Q(a) = \|F\beta - y\|^2$,

где $F = (f_(x_{i}))_{l \times n}$ {{---}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{---}} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{---}} вектор параметров.

Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:

:$\beta^* = (F^TF)^{-1}F^Ty$

В итоге, используя [[Сингулярное разложение | сингулярное разложение]] для представления $F$ и проведя МНК-аппроксимизацию целевого вектора $y$, имеем выражение для нормы вектора $\beta$:

:$\|\beta^*\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2$

К сожалению, могут возникнуть проблемы мультиколлинеарности и переобучения в случае, если ковариационная матрица $\sum = F^T F$ плохо обусловлена. Одним из способов борьбы с этими проблемами, как говорилось ранее, является регуляризация.

В статье о [[Виды регрессии | видах регрессии]] представлены модификации линейной регресиии с различными регуляризаторами ($L_{1}$ и $L_{2}$) и их отличие. Описание в данном разделе будет похожим, однако здесь будет рассмотрен эффект от добавления регуляризаторов немного подробнее.

===Гребневая регрессия===

К функционалу $Q$ добавляется $L_{2}$-регуляризатор.

Итоговый минимизируемый функционал с поправкой:

:<tex>Q_{\lambda}(\beta) = ||F \beta - y||^2 + \tau ||\beta||^2</tex>

Итоговое выражение для параметра $\beta$:

:<tex>\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty</tex>

Таким образом, перед обращением матрицы к ней добавляется "гребень" {{---}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.

Оценим эффект, который оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:

:$\beta_{t}^* = (UD^2U^T + \tau I_{n})^{-1}UDV^{T}y=U(D^2+\tau I_{n})^{-1}DV^Ty=\sum\limits_{j=1}^n \dfrac{\sqrt{\lambda_{j}}}{\lambda_{j} + \tau}u_{j}(v_{j}^Ty)$

Теперь найдём регуляризованную МНК-аппроксимацию целевого вектора y:

:$F \beta_{\tau}^* = VDU^T \beta_{\tau}^* = V diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau})V^Ty = \sum\limits_{j=1}^n \dfrac{\lambda_{j}}{\lambda_{j} + \tau}v_{j}(v_{j}^Ty)$

Как можно видеть, проекции на собственные векторы сокращаются, умножаясь $\dfrac{\lambda_{j}}{\lambda_{j} + \tau} \in (0, 1)$.

В сравнении с нерегуляризованным случаем, уменьшается и норма вектора $\beta$:

:$\|\beta_{\tau}^*\|^2 = \| D^2(D^2 + \tau I_{n})^{-1}D^{-1}V^{T}y)\|^2 = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j} + \tau}(v_{j}^Ty)^2 < \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}}(v_{j}^Ty)^2 = \|\beta^*\|^2$

Поэтому данный метод называют также ''сжатие'' или ''сокращение весов''.

Из формул видно, что по мере увеличения параметра $\tau$ вектор коэффициентов $\beta_{\tau}^*$ становится всё более устойчивым и жёстко определённым. Фактически, происходит понижение ''эффективной размерности решения'' — это второй смысл термина ''сжатие''. Роль размерности играет след проекционной матрицы.

В нерегуляризованном случае:

:$n_{effective} = tr\:F(F^TF)^{-1}F^T = tr\:(F^TF)^{-1}F^TF = tr\:I_{n} = n$

В случае с гребнем:

:$n_{effective} = tr\:F(F^TF + \tau I_{n})^{-1}F^T = tr\:diag(\dfrac{\lambda_{j}}{\lambda_{j} + \tau}) = \sum\limits_{j=1}^n \dfrac{1}{\lambda_{j}} < n$

===Лассо регрессия===

К функционалу $Q$ добавляется $L_{1}$-регуляризатор. Итоговый минимизируемый функционал с поправкой::<tex>Q_{\tau}(\beta) = ||F \beta - y||^2 + \tau ||\beta||</tex> Запишем систему для этой регрессии в виде минимизации неизменного функционала $Q$ при неравенстве-ограничении::$\begin{cases} Q(\beta) = \| F\beta - y \|^2 \rightarrow \min\limits_{\beta} \\ \sum\limits_{j=1}^n|\beta_{j}| \leq \chi \\ \end{cases}$ Так как используется $L_{1}$-регуляризатор, коэффициенты $\beta_{j}$ постепенно обнуляются с уменьшением $\chi$. Происходит отбор признаков, поэтому параметр $\chi$ называют еще ''селективностью''. Параметр $\chi$ "зажимает" вектор коэффициентов $\beta$, отсюда и название метода {{---}} лассо (англ. ''LASSO, least absolute shrinkage and selection operator''). ===Сравнение ~~гребниевой~~ гребневой и лассо регрессий===Основное различие лассо и гребневой регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор). Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо регрессии органичение на коэффициенты представляет собой ромб (<tex>|\beta_1| + |\beta_2| \leq t</tex>), в случае гребневой регрессии {{---}} круг (<tex>\beta_1^2 + \beta_2^2 \leq t^2</tex>). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на <tex>\beta</tex>. Из Рис. 3 интуитивно понятно, что в случае лассо регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться. {|align="center" |-valign="top" |[[Файл: Ridge_and_Lasso.png|400px|thumb|Рис.3. Сравнение лассо (слева) и гребневой (справа) регрессий, пример для двумерного пространства независимых переменных.<br/>Бирюзовые области изображают ограничения на коэффициенты <tex>\beta</tex>, эллипсы {{---}} некоторые значения функции наименьшей квадратичной ошибки.]] |} Также полезно будет рассмотреть простую модельную задачу. Пусть $l = n$ и матрица объекты-признаки является единичной $F = I$. Тогда МНК-решение дает вектор коэффициентов $\beta$::$\beta^* = argmin(\sum\limits_{i=1}^l(\beta_{i} - y_{i})^2)$:$\beta_{j}^* = y_{j}$В случае с гребневой регрессией::$\beta_{j}^* = \dfrac{y_{j}}{1 + \lambda}$В случае с лассо регрессией::$\beta_{j}^* =\begin{cases} y_{j} - \lambda / 2, y_{j} > \lambda / 2 \\ y_{j} + \lambda / 2, y_{j} < -\lambda / 2 \\ 0, |y_{j}| \leq \lambda / 2 \end{cases}$В итоге на Рис. 4 на графиках с зависимостями $\beta_{j}^*$ от $y_{j}$ можно увидеть описанные ранее особенности данных регуляризованных линейных регрессий. {|align="center" |-valign="top" |[[Файл: regularization_comparing.png|400px|thumb|Рис.4. Сравнение лассо и гребневой регрессий, пример с простой модельной задачи.]] |}

==Регуляризация в алгоритмах==

===Градиентный спуск===

Алгоритм [[Стохастический градиентный спуск | градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов <tex>w \in \mathbb{R}^n</tex>, при котором достигается минимум эмпирического риска::<tex>Q(w, X^l)=\~~sum_~~sum\limits_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow ~~min_~~\min\limits_{w}</tex>

В этом ~~методевыбирается~~ методе выбирается некоторое начальное приближение для вектора весов <tex>w</tex>, затем запускается итерационный процесс, на каждом шаге которого вектор $w $ изменяется в направлении наиболее быстрого убывания функционала $Q $ {{- --}} противоположно вектору градиента<tex>Q'(w)=(\~~frac~~dfrac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n</tex>:

:<tex>w := w - \eta Q'(w)</tex>,

где <tex>\eta > 0</tex> {{- --}} величина шага в направлении антиградиента.

~~'''~~Регуляризация~~'''~~ {{--- }} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу <tex>Q(w)</tex> добавляется штрафное слагаемое::<tex>Q_{\tau}(w) = Q(w) + \~~frac~~dfrac{\tau}{2}\|w\|^2</tex>

Это приводит к появлению аддитивной поправки в градиенте:

:<tex>~~Q′τ~~ Q_{\tau}'(w) = Q′(w) + \tau</tex>

В результате правило обновления весов принимает вид:

:<tex>w := w(1 - \eta \tau) - \eta Q'(w)</tex>

Таким образом, вся модификация сводится к появлению неотрицательного множителя <tex>(1 − \eta \tau)</tex>, приводящего к постоянному уменьшению весов.

Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{- --}} параметр <tex>\tau</tex> необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.

===Метод опорных векторов===

[[Метод опорных векторов(SVM) | Метод опорных векторов (SVM)]] используется для ~~задачи бинарной~~ задач классификациии регрессии. В нем строится гиперплоскость, разделяющая ~~множества разных классов~~объекты выборки оптимальным образом.

К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится "ослаблять ограничения", позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:

$\begin{cases}

\~~frac~~dfrac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^~~\ell~~ l \xi_i \to \min\limits_{w, b, \xi} \\M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, ~~\ell~~ l \\\xi_i \geq 0, \quad i = 1, \ldots, ~~\ell~~ l \\

\end{cases}$

Как показано в соответствующем данному ~~алгоритму~~ методу разделе, эквивалентной задачей безусловной минимизации является:$Q(w, b) = \~~frac~~dfrac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^~~\ell~~ l \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$

В силу неравенства $[M_{i} < 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен ~~'''~~регуляризатор~~'''~~ $\~~frac~~dfrac{1}{2C} \|w\|^2$.

С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.

В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.

Также существуют разновидности SVM с другими регуляризаторами.

* Метод релевантных векторов (англ. ''RVM, Relevance vector Machine''):

:$\dfrac{1}{2}\sum\limits_{i=1}^l(\ln w_{i} + \dfrac{\lambda_{i}^2}{w_{i}})$

* Метод опорных векторов с лассо (англ. ''LASSO SVM''):

:$\mu \sum\limits_{i=1}^n|w_{i}|$

* Метод опорных признаков (англ. ''Support feature machine''):

:$\sum\limits_{i=1}^nR_{\mu}(w_{i}), \begin{cases} 2 \mu |w_{i}|, |w_{i}|<\mu \\ \mu^2 + w_{i}^2, |w_{i}| \geq \mu \end{cases}$

==Другие использования регуляризации==

~~===Линейные классификаторы===~~

===Логистическая регрессия===

Как было показано в мотивационном примере, для [[Логистическая регрессия | логистической регрессии]] может быть полезно использовать регуляризацию.

Для настройки вектора коэффициентов $\beta$ по обучающей выборке $X^l$ максимизируют логарифм правдоподобия:

:$L(\beta, X^l) = log_{2}\prod\limits_{i=1}^lp(x_{i}, y_{i}) \rightarrow \max\limits_{\beta}$

:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) + const(\beta) \rightarrow \max\limits_{\beta}$

$L_{2}$-регуляризация:

:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \| \beta \|^2 + const(\beta) \rightarrow \max\limits_{\beta}$

$L_{1}$-регуляризация:

:$L(\beta, X^l) = \sum\limits_{i=1}^{l}log_{2}\sigma(\langle \beta, x_{i} \rangle y_{i}) - \lambda \|\beta \|_{1} + const(\beta) \rightarrow \max\limits_{\beta}$

Аналогично можно использовать и другие регуляризаторы.

===Нейронные сети===

Регуляризация также используется и в [[Нейронные сети, перцептрон | нейронных сетях]] для борьбы со слишком большими весами сети и переобучением. Однако, в этом случае зануление коэффициентов при использовании $L_{1}$-регуляризатора не несет в себе смысл "отбора признаков", как в случае с линейными моделями. К сожалению, регуляризация не снижает число параметров и не упрощает структуру сети.

Для нейронной сети помимо добавления штрафного слагаемого к эмпирическому риску активно используют и другой метод борьбы с переобучением {{---}} ''прореживание сети'' (англ. ''dropout''), в ходе которого упрощают сеть, руководствуясь правилом {{---}} если функция ошибки не изменяется, то сеть можно упрощать и дальше. Подробнее об этом можно почитать в статье, рассказывающей о [[Практики реализации нейронных сетей | практике реализации нейронных сетей]].

==См. также==

* [[Переобучение]]

* [[Модель алгоритма и её выбор]]

* [[Байесовская классификация]]

* [[Вариации регрессии]]

* [[Линейная регрессия]]

* [[Логистическая регрессия]]

* [[Стохастический градиентный спуск]]

* [[Метод опорных векторов (SVM)]]

* [[Нейронные сети, перцептрон]]

* [[Практики реализации нейронных сетей]]

==Примечания==<references/>

==Источники информации==

* [http://www.machinelearning.ru/wiki/images/6/6d/Voron-ML-1.pdf Воронцов К.В. {{---}} Математические методы обучения по прецедентам]

* [https://ru.wikipedia.org/wiki/Регуляризация_(математика) Википедия {{---}} Регуляризация (математика)]

* [https://www.coursera.org/lecture/supervised-learning/rieghuliarizatsiia-sR94Q coursea.org {{---}} Регуляризация]

* [http://www.machinelearning.ru/wiki/images/7/7e/VetrovSem11_LARS.pdf machinelearning.ru {{---}} L1-регуляризация линейной регрессии]

* [https://medium.com/nuances-of-programming/5-видов-регрессии-и-их-свойства-f1bb867aebcb medium.com {{---}} 5 видов регрессии и их свойства]

* [https://en.wikipedia.org/wiki/Elastic_net_regularization Wikipedia {{---}} Elastic net regularization]

* [http://bjlkeng.github.io/posts/probabilistic-interpretation-of-regularization/ Keng B. {{---}} A Probabilistic Interpretation of Regularization]

AnnaRodionova

193

правки

Изменения

Регуляризация

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты