Изменения

Регуляризация

4185 байт добавлено, 05:40, 20 января 2020

Вероятная постановка

===<tex>L_{1}</tex>-регуляризация===

<tex>L_{1}</tex>-регуляризация (англ. ''lasso regression''), или регуляризация через манхэттенское расстояние:

:<tex>Q(\beta, xX^l)=\sum _{iI}^l\mathcal{L}(~~\beta~~y_{i}, g(x_{i}, \beta))+\lambda \sum _{j}{|\beta_{j}|}</tex>.

===<tex>L_{2}</tex>-регуляризация===

<tex>L_{2}</tex>-регуляризация, или регуляризация Тихонова (англ. ''ridge regression'' или ''Tikhonov regularization''):

:<tex>Q(\beta, xX^l)=\sum _{iI}^l\mathcal{L}(~~\beta~~y_{i}, g(x_{i}, \beta))+\lambda \sum _{j}{\beta_{j}}^{2}</tex>.

===Эластичная сеть===

Эластичная сеть (англ. ''elastic net regularization''):

:<tex>Q(\beta, xX^l)=\sum _{iI}^l\mathcal{L}(~~\beta~~y_{i}, g(x_{i}, \beta))+\lambda_{1} \sum _{j}{|\beta_{j}|}+\lambda_{2} \sum _{j}{\beta_{j}}^{2}</tex>. ==Свойства регуляризаторов==

==Вероятностная интерпретация регуляризации==

===Эквивалентная вероятностная задача===

Перед нами стоит задача - минимизировать эмпирический риск:

:<tex>Q(\beta, X^l)=\sum _{i}^l\mathcal{L}(y_{i}, g(x_{i}, \beta)) \rightarrow min_{\beta}</tex>

[[Байесовская классификация | Вероятностная модель данных]] дает возможность по-другому взглянуть на задачу. Пусть <tex>X \times Y</tex> - является вероятностным пространством. Тогда вместо <tex>g(x_{i}, \beta)</tex> задана совместная плотность распределение объектов и классов <tex>p(x, y|\beta)</tex>.

Для настройки вектора параметров \beta воспользуемся ''принципом максимума правдоподобия'':

:<tex>p(X^l|\beta)=\prod_{i}^lp(x_{i},y_{i}|\beta) \rightarrow max_{\beta}</tex>

Удобнее рассматривать логарифм правдоподобия:

:<tex>L(\beta, X^l)=\ln p(X^l|\beta)=\sum_{i}^l \ln p(x_{i}, y_{i}|\beta) \rightarrow max_{\beta}</tex>

Можно заключить, что задачи в исходном и вероятностном представлении эквивалентны, если положить:

:<tex>-\ln p(x_{i}, y_{i}|\beta)=\mathcal{L}(y_{i}, g(x_{i}, \beta))</tex>

===Принцип максимума совместного правдоподобия данных и модели===

Допустим, что наряду с параметрической моделью плотности распределения <tex>p(x, y|\beta)</tex> имеется еще и ''априорное распределение в пространстве параметров модели'' <tex>p(\beta)</tex>. Чтобы ослабить априорные ограничения, вместо фиксированной функции <tex>p(w)</tex> вводится ''параметрическое семейство априорных распределений'' <tex>p(\beta; \gamma)</tex>, где <tex>\gamma</tex> - гиперпараметр.

Принцип максимума правдоподобия теперь будет записываться по-другому, так как не только появление выборки <tex>X^l</tex>, но и появление модели <tex>\beta</tex> также является случайным. Их совместное появление описывается, согласно формуле условной вероятности, плотностью распределения:

:<tex>p(X^l, \beta; \gamma)=p(X^l|\beta)p(\beta;\gamma)</tex>

Таким образом, приходим к ''принципу максимума совместного правдоподобия данных и модели'':

:<tex>L_{\gamma}(\beta, X^l)=\ln p(X^l, \beta;\gamma)=\sum_{i}^l \ln p(x_{i}, y_{i}|\beta) + \ln p(\beta; \gamma) \rightarrow max_{\beta}</tex>

Функционал L_{\gamma} распадается на два слагаемых: логарифм правдоподобия и ''регуляризатор'', не зависящий от данных. Второе слагаемое ограничивает вектор параметров модели, не позволяя ему быть каким угодно.

В итоге мы получили, что с байесовской точки зрения многие методы регуляризации соответствуют добавлению некоторых априорных распределений на параметры модели.

При этом можно определить распределения, которые соответствуют представленным ранее <tex>L_{1}</tex> и <tex>L_{2}</tex> регуляризаторам.

===Нормальный регуляризатор===

Пусть вектор <tex>\beta</tex>

===Лапласовский регуляризатор===

AnnaRodionova

193

правки

Изменения

Регуляризация

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты