Изменения

Перейти к: навигация, поиск

Регуляризация

5523 байта добавлено, 10:19, 20 января 2020
Регуляризация в алгоритмах
===Лассо регрессия===
===Сравнение гребниевой и лассо регрессий===
===Байесовская регрессия===
==Регуляризация в алгоритмах==
===Градиентный спуск===Алгоритм [[Стохастический градиентный спуск| градиентного спуска]] используют для нахождения аппроксимирующей зависимости, определяя вектор весов <tex>w \in R^n</tex>, при котором достигается минимум эмпирического риска::<tex>Q(w, X^l)=\sum_{i=1}^l\mathcal{L}(y_{i}, \langle w, x_{i} \rangle) \rightarrow min_{w}</tex> В этом методевыбирается некоторое начальное приближение для вектора весов <tex>w</tex>, затем запускается итерационный процесс, на каждом шаге которого вектор w изменяется в направлении наиболее быстрого убывания функционала Q - противоположно вектору градиента<tex>Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n</tex>::<tex>w := w - \eta Q'(w)</tex>,где <tex>\eta > 0</tex> - величина шага в направлении антиградиента. '''Регуляризация''' - одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу <tex>Q(w)</tex> добавляется штрафное слагаемое::<tex>Q_{\tau}(w) =Q(w) + \frac{\tau}{2}\|w\|^2</tex>Это приводит к появлению аддитивной поправки в градиенте::<tex>Q′τ (w) =Q′(w) + \tau</tex> В результате правило обновления весов принимает вид::<tex>w :=w(1 - \eta \tau) - \eta Q'(w)</tex>Таким образом, вся модификация сводится к появлению неотрицательного множителя <tex>(1 − \eta \tau)</tex>, приводящего к постоянному уменьшению весов.  Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки - параметр <tex>\tau</tex> необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами. 
===Метод опорных векторов===
[[Метод опорных векторов]] используется для задачи бинарной классификации. В нем строится гиперплоскость, разделяющая множества разных классов.
 
К сожалению, зачастую выборка является линейно неразделимой. В таком случае приходится "ослаблять ограничения", позволяя некоторым объектам попадать на территорию другого класса. Для каждого объекта от отступа отнимается некоторая положительная величина $\xi_i$, но требуется, чтобы введенные поправки были минимальны. В итоге постановка задачи ''SVM с мягким отступом'' (англ. ''soft-margin SVM'') выглядит следующим образом:
$\begin{cases}
\frac{1}{2} \lVert w \rVert^2 + C \sum\limits_{i=1}^\ell \xi_i \to \min\limits_{w, b, \xi} \\
M_i(w, b) \geq 1 - \xi_i, \quad i = 1, \ldots, \ell \\
\xi_i \geq 0, \quad i = 1, \ldots, \ell \\
\end{cases}$
 
Как показано в соответствующем данному алгоритму разделе, эквивалентной задачей безусловной минимизации является:
$Q(w, b) = \frac{1}{2C} \lVert w \rVert^2 + \sum\limits_{i=1}^\ell \left(1 - M_i(w, b)\right)_+ \to \min\limits_{w, b}$
 
В силу неравенства $[M_{i} < 0] \leq (1 - M_{i})_{+}$, функционал $Q(w, b)$ можно рассматривать как верхнюю оценку эмпирического риска, к которому добавлен '''регуляризатор''' $\frac{1}{2C} \|w\|^2$.
 
С введением регуляризатора устраняется проблема мультиколлинеарности, повышается устойчивость алгоритма, улучшается его обобщающая способность.
 
В результате получаем, что принцип оптимальной разделяющей гиперплоскости или максимизации ширины разделяющей полосы в случае неразделимой выборки тесно связан с $L_{2}$-регуляризацией, которая возникает естественным образом из постановки задачи.
==Другие использования регуляризации==
193
правки

Навигация