193
правки
Изменения
→Регуляризация в линейной регрессии
В итоге оптимизируемый функционал эмпирического риска выглядит следующим образом:
:$Q(a) = \|F\beta - y\|^2$,
где $F = (f_{x_{i}})_{l \times n}$ {{- --}} матрица объекты-признаки, $y = (y_{i})_{l \times 1}$ {{--- }} целевой вектор, $\beta = (\beta_{j})_{n \times 1}$ {{- --}} вектор параметров.
Приравняв нулю производную $Q(\beta)$ по параметру $\beta$, получаем:
:$\beta^* = (F^TF)^{-1}F^Ty$
:<tex>\beta_{\tau}^* = (F^TF + \tau I_{n})^{-1}F^Ty</tex>
Таким образом, перед обращением матрицы к ней добавляется "гребень" {{- --}} диагональная матрица $\tau I_{n}$. При этом все её собственные значения увеличиваются на $\tau$, а собственные векторы не изменяются. В результате матрица становится хорошо обусловленной, оставаясь в то же время «похожей» на исходную.
Рассмотрим, какой эффект оказывает добавление гребня. Выразим регуляризованное МНК-решение через сингулярное разложение:
Основное различие гребниевой и лассо регрессий заключается в том, что первая может приводить к обращению некоторых независимых переменных в ноль (используется $L_{1}$-регуляризатор), тогда как вторая уменьшает их до значений, близких к нулю (используется $L_{2}$-регуляризатор).
Продублируем наглядный пример из статьи о [[Вариации регрессии | вариациях регрессии]]. Рассмотрим для простоты двумерное пространство независимых переменных. В случае лассо-регрессии органичение на коэффициенты представляет собой ромб (<tex>|\beta_1| + |\beta_2| \leq t</tex>), в случае ридж-гребневой регрессии {{---}} круг (<tex>\beta_1^2 + \beta_2^2 \leq t^2</tex>). Необходимо минимизировать функцию ошибки, но при этом соблюсти ограничения на коэффициенты. С геометрической точки зрения задача состоит в том, чтобы найти точку касания линии, отражающей функцию ошибки с фигурой, отражающей ограничения на <tex>\beta</tex>. Из Рис. 3 интуитивно понятно, что в случае лассо-регрессии эта точка с большой вероятностью будет находиться на углах ромба, то есть лежать на оси, тогда как в случае ридж-гребневой регрессии такое происходит очень редко. Если точка пересечения лежит на оси, один из коэффициентов будет равен нулю, а значит, значение соответствующей независимой переменной не будет учитываться.
{|align="center"