193
правки
Изменения
→Основные виды регуляризации
==Основные виды регуляризации==
Переобучение в большинстве случаев проявляется в том, что итоговые модели имеют слишком большие значения параметров. Соответственно, необходимо добавить в целевую функцию штраф за это. Наиболее часто используемые виды регуляризации - <tex >L_{1}</tex> и <tex >L_{2}</tex>, а также их линейная комбинация - эластичная сеть. В представленных ниже формулах для эмпирического риска <tex>Q</tex>: <tex>\mathcal{L}</tex> является функцией потерь, а <tex>\beta</tex> - вектором параметров элемента [[Модель алгоритма и ее выбор | модели алгоритмов]].
===<tex>L_{1}</tex>-регуляризация===
<tex>L_{1}</tex>-регуляризация (англ. ''lasso regression''), или регуляризация через манхэттенское расстояние:
<tex>Q(\beta, X^l)=\sum _{i}\mathcal{(y_{iL}-y(t_\beta, x_{i}))}^{2}+\lambda \sum _{ij}{|a_\beta_{ij}|}</tex>.
===<tex>L_{2}</tex>-регуляризация===
<tex>L_{2}</tex>-регуляризация, или регуляризация Тихонова (англ. ''ridge regression'' или ''Tikhonov regularization''):
<tex>Q(\beta, X^l)=\sum _{i}\mathcal{(y_{iL}-y(t_\beta, x_{i}))}^{2}+\lambda \sum _{ij}{a_\beta_{ij}}^{2}</tex>.
===Эластичная сеть===
Эластичная сеть (англ. ''elastic net regularization''):
<tex>Q(\beta, X^l)=\sum _{i}\mathcal{(y_{iL}-y(t_\beta, x_{i}))}^{2}+\lambda \sum _{ij}{|a_\beta_{ij}|}+\lambda \sum _{ij}{a_\beta_{ij}}^{2}</tex>.
==Вероятностная интерпретация регуляризации==