193
правки
Изменения
Все вероятностное
:<tex>L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum_{i}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow max_{\beta}</tex>
Функционал <tex>L_{\gamma} </tex> распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно.
В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.
===Нормальный регуляризатор===
Пусть вектор <tex>\beta</tex>имеет ''нормальное распределение'', все его компоненты независимы и имеют равные дисперсии::<tex>\beta \sim N(0, \sigma^2)</tex>Логарифмируя, получаем ''квадратичный регуляризатор''::<tex>\ln p(\beta; \sigma) = \ln (\frac{1}{(2 \pi \sigma)^{n/2}} \exp(- \frac{\| \beta \| ^ 2}{2 \sigma})) = - \frac{1}{2 \sigma}\| \beta \| ^ 2 + const(\beta),</tex>где <tex>const(\beta)</tex> - слагаемое, не зависящее от <tex>\beta</tex>, которым можно пренебречь, поскольку оно не влияет на решение оптимизационной задачи. В итоге имеем <tex>L_{2}</tex> - регуляризатор.
===Лапласовский регуляризатор===
Пусть вектор <tex>\beta</tex> имеет ''распределение Лапласа'', все его компоненты независимы и имеют равные дисперсии:
:<tex>\beta \sim Laplace(0, C)</tex>
Тогда:
:<tex>\ln p(\beta; C) = \ln (\frac{1}{(2C)^n} \exp(- \frac{\| \beta \|_{1}}{C})) = - \frac{1}{C}\| \beta \|_{1} + const(\beta), \| \beta \|_{1} = \sum_{j}|\beta_{j}|</tex>
Аналогично случаю с нормальным регуляризатором, <tex>const(\beta)</tex> можно опустить и, таким образом, получаем <tex>L_{1}</tex> - регуляризатор.
==Регуляризация в линейной регрессии==