Изменения

Перейти к: навигация, поиск

Настройка глубокой сети

124 байта добавлено, 18:02, 28 января 2019
Нет описания правки
Ниже представлены различные вариации градиентного спуска (более подробное сравнение, применительно к данной задаче <ref>[https://habr.com/post/318970/ Методы оптимизации нейронных сетей, Habr]</ref>). Градиентный спуск — итеративный алгоритм поиска минимума или максимума функции, метриками качества алгоритма этого семейства методов являются скорость сходимости и сходимость в глобальный оптимум. Методы имеют различные преимущества на различных функциях. Так например на рисунке 3 из локального минимума метод adam и метод Нестерова не могут достигнуть глобального, а в случае "шаткого" ландшафта (рисунок 4) эти методы сходятся быстрее.
* [[Стохастический градиентный спуск|Метод стохастического градиентного спуска]] заключается в том, что алгоритм делает шаг постоянной величины в направлении, указанном градиентом в текущей точке: <tex>w^{(k+1)}=w^{(k)}-\mu\frac{\partial L(w^{(k)})}{\partial w^{(k)}}</tex>;
* Модификация Momentum <ref>[https://en.wikipedia.org/wiki/Stochastic_gradient_descent#Momentum Momentum, Wikipedia]</ref> запоминает скорость на предыдущем шаге и добавляет в <tex>\alpha</tex> раз меньшую величину на следующем шаге: <tex> \Delta w:v^{(k+1)}=\alpha \Delta wv^{(k)} -\eta \nabla Q_frac{\partial L(w^{i(k)})}{\partial w^{(wk)}}</tex>, <tex> w=w^{(k+\Delta w</tex> или <tex> w1)}=w-\eta \nabla Q_^{i(k)}+v^{(wk)+\alpha \Delta w}</tex>;
*Adagrad имеет преимущество в плане обучения нейронных сетей в предположении, что процесс обучения должен сходится (т.е. не нужно сильно менять веса сети, когда мы уже немного научились). В процессе обучения после каждого прецендента алгоритм будет уменьшать шаг за счёт суммы квадратов координат градиента предыдущих итераций<ref>[http://akyrillidis.github.io/notes/AdaGrad AdaGrad]</ref>: <tex>g_{i,(k)}=\frac{\partial L(w_i^{(k)})}{\partial w_i^{(k)}}, w_i^{(k+1)}=w_i^{(k)}-\frac{\mu}{\sqrt{G^{(k)}_i,i+\epsilon}}g_{i,(k)}</tex>, где G — диагональная матрица, элементы которой, суммы квадратов координат градиента к k-ой итерации алгоритма;
* [[Глубокое обучение]]
* [[Стохастический градиентный спуск]]
* [[Обратное распространение ошибки]]<sup>[на 28.01.19 страница не создана]</sup>
==Примечания==
26
правок

Навигация