Изменения

Регуляризация

44 байта добавлено, 11:35, 21 января 2020

→‎Регуляризация в линейной регрессии

В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:

:$Q(a) = \|F\beta - y\|^2$,

где $F = (f_{x_{i}})_{l \times n}$ {{- --}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{--- }} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{- --}} вектор параметров.

Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:

:$\beta^* = (F^TF)^{-1}F^Ty$

:<tex>\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty</tex>

Таким образом, перед обращением матрицы к ней добавляется "гребень" {{- --}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.

Рассмотрим, какой эффект оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:

Основное различие гребниевой и лассо регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).

Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо-регрессии органичение на коэффициенты представляет собой ромб (<tex>|\beta_1| + |\beta_2| \leq t</tex>), в случае ~~ридж-~~гребневой регрессии {{---}} круг (<tex>\beta_1^2 + \beta_2^2 \leq t^2</tex>). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на <tex>\beta</tex>. Из Рис. 3 интуитивно понятно, что в случае лассо-регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае ~~ридж-~~гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.

{|align="center"

AnnaRodionova

193

правки

Изменения

Регуляризация

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты