193
правки
Изменения
→Градиентный спуск
<tex>Q'(w)=(\frac{\partial Q^(w)}{\partial w_{j}})_{j=1}^n</tex>:
:<tex>w := w - \eta Q'(w)</tex>,
где <tex>\eta > 0</tex> {{- --}} величина шага в направлении антиградиента.
Регуляризация {{- --}} одна из эвристик улучшения градиентных методов обучения. Основным способом уменьшить переобучение является квадратичная регуляризация, называемая также ''сокращением весов''. Чтобы ограничить рост абсолютных значений весов, к минимизируемому функционалу <tex>Q(w)</tex> добавляется штрафное слагаемое:
:<tex>Q_{\tau}(w) = Q(w) + \frac{\tau}{2}\|w\|^2</tex>
Это приводит к появлению аддитивной поправки в градиенте:
Таким образом, вся модификация сводится к появлению неотрицательного множителя <tex>(1 − \eta \tau)</tex>, приводящего к постоянному уменьшению весов.
Регуляризация предовтращает паралич, повышает устойчивость весов в случае мультиколлинеарности, повышает обобщающую способность алгоритма и снижает риск переобучения. Однако есть и недостатки {{- --}} параметр <tex>\tau</tex> необходимо выбирать с помощью [[Кросс-валидация | кросс-валидации]], что связано с большими вычислительными затратами.
===Метод опорных векторов===