Регуляризация — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
(Основные виды регуляризации)
(Основные виды регуляризации)
Строка 34: Строка 34:
  
 
==Основные виды регуляризации==
 
==Основные виды регуляризации==
Переобучение в большинстве случаев проявляется в том, что в получающихся многочленах слишком большие коэффициенты. Соответственно, необходимо добавить в целевую функцию штраф за слишком большие коэффициенты.
+
Переобучение в большинстве случаев проявляется в том, что в получающихся многочленах слишком большие коэффициенты. Соответственно, необходимо добавить в целевую функцию штраф за слишком большие коэффициенты. Наиболее часто используемые виды регуляризации - <tex >L_{1}</tex> и <tex >L_{2}</tex>, а также их линейная комбинация - эластичная сеть.
===L1-регуляризация===
+
===<tex>L_{1}</tex>-регуляризация===
 +
<tex>L_{1}</tex>-регуляризация (англ. ''lasso regression''), или регуляризация через манхэттенское расстояние:
 +
<tex>Q=\sum _{i}{(y_{i}-y(t_{i}))}^{2}+\lambda \sum _{i}{|a_{i}|}</tex>.
 +
 
 +
===<tex>L_{2}</tex>-регуляризация===
 +
<tex>L_{2}</tex>-регуляризация, или регуляризация Тихонова (англ. ''ridge regression'' или ''Tikhonov regularization''):
 +
<tex>Q=\sum _{i}{(y_{i}-y(t_{i}))}^{2}+\lambda \sum _{i}{a_{i}}^{2}</tex>.
  
===L2-регуляризация===
 
 
===Эластичная сеть===
 
===Эластичная сеть===
 +
Эластичная сеть (англ. ''elastic net regularization''):
 +
<tex>Q=\sum _{i}{(y_{i}-y(t_{i}))}^{2}+\lambda \sum _{i}{|a_{i}|}+\lambda \sum _{i}{a_{i}}^{2}</tex>.
  
 
==Вероятностная интерпретация регуляризации==
 
==Вероятностная интерпретация регуляризации==

Версия 04:35, 19 января 2020

Определение:
Регуляризация (англ. regularization) в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить неккоректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.


Мотивация

Как говорилось ранее, регуляризация полезна для борьбы с переобучением. Если вы выбрали сложную модель, и при этом у вас недостаточно данных, то легко можно получить итоговую модель, которая хорошо описывает обучающую выборку, но не обобщается на тестовую.

На примере линейной регрессии

В качестве наглядного примера можно рассмотреть линейные регрессионные модели. Восстановить зависимость для нескольких точек можно пытаться полиномами разной степени M.

Рис 1. Норма. M=2
Рис 2. Переобучение. M=4

Как можно видеть на Рис 1. представлена зависимость, которая хорошо подходит для описания данных, а на Рис. 2 - модель слишком сильно заточилась под обучающую выборку.

Одним из способов бороться с этим эффектом - использовать регуляризацию, т. е. добавлять некоторый штраф за большие значения коэффициентов у модели. Тем самым мы запретим слишком "резкие" изгибы и ограничим возможность подстраивания модели под данные.

На примере логистической регрессии

Необходимость регуляризации можно увидеть и на другом примере. Представьте, что ваша обучающая выборка была линейно разделима. В таком случае в процессе оптимизации значения весов уйдут в бесконечность и вместо сигмойды получится "ступенька", как представлено на Рис. 3.

Рис 3. Сигмойда - "ступенька"

Это плохо, ибо мы переобучились на нашу обучающую выборку. Как и в предыдущем примере, побороться с этим можно путем добавлением регуляризации, не дающей весам принимать слишком большие значения.

Основные виды регуляризации

Переобучение в большинстве случаев проявляется в том, что в получающихся многочленах слишком большие коэффициенты. Соответственно, необходимо добавить в целевую функцию штраф за слишком большие коэффициенты. Наиболее часто используемые виды регуляризации - [math]L_{1}[/math] и [math]L_{2}[/math], а также их линейная комбинация - эластичная сеть.

[math]L_{1}[/math]-регуляризация

[math]L_{1}[/math]-регуляризация (англ. lasso regression), или регуляризация через манхэттенское расстояние: [math]Q=\sum _{i}{(y_{i}-y(t_{i}))}^{2}+\lambda \sum _{i}{|a_{i}|}[/math].

[math]L_{2}[/math]-регуляризация

[math]L_{2}[/math]-регуляризация, или регуляризация Тихонова (англ. ridge regression или Tikhonov regularization): [math]Q=\sum _{i}{(y_{i}-y(t_{i}))}^{2}+\lambda \sum _{i}{a_{i}}^{2}[/math].

Эластичная сеть

Эластичная сеть (англ. elastic net regularization): [math]Q=\sum _{i}{(y_{i}-y(t_{i}))}^{2}+\lambda \sum _{i}{|a_{i}|}+\lambda \sum _{i}{a_{i}}^{2}[/math].

Вероятностная интерпретация регуляризации

Регуляризация в линейной регрессии

Другие использования регуляризации

Логистическая регрессия

Нейронные сети

Метод опорных вектоов

Стохастический градиентный спуск