Изменения

Перейти к: навигация, поиск

Настройка глубокой сети

389 байт добавлено, 08:03, 27 января 2019
Нет описания правки
== Инициализация сети ==
Принцип выбора начальных значений весов для слоев, составляющих модель очень важен: установка всех весов в 0 будет серьезным препятствием для обучения, так как ни один из весов изначально не будет активен. Присваивать весам значения из интервала ±1 — тоже обычно не лучший вариант — на самом деле, иногда (в зависимости от задачи и сложности модели) от правильной инициализации модели может зависеть, достигнет она высочайшей производительности или вообще не будет сходиться. Даже если задача не предполагает такой крайности, удачно выбранный способ инициализации весов может значительно влиять на способность модели к обучению, так как он предустанавливает параметры модели с учетом функции потерь.<ref>[https://habr.com/company/wunderfund/blog/315476/Тонкая настройка нейронной сети, Habr]</ref>.
Всегда можно выбрать случайно начальное приближение, но лучше выбирать определённым образом, ниже приведены самые распространённые из них.
Метод инициализации Завьера (Xavier) (иногда — метод Glorot’а)<ref>[http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdfUnderstanding the difficulty of training deep feedforward neural networks]</ref>. Основная идея этого метода — упростить прохождение сигнала через слой во время как прямого, так и обратного распространения ошибки для линейной функции активации (этот метод также хорошо работает для сигмоидной функции, так как участок, где она ненасыщена, также имеет линейный характер). При вычислении весов этот метод опирается на вероятностное распределение (равномерное или нормальное) с дисперсией, равной <tex>\mathrm{Var}(W) = {2 \over{n_{in} + n_{out}}}</tex>, где <tex>n_{in}</tex> и <tex>n_{out}</tex> — количества нейронов в предыдущем и последующем слоях соответственно.
Метод инициализации Ге (He) — это вариация метода Завьера, больше подходящая функции активации ReLU, компенсирующая тот факт, что эта функция возвращает нуль для половины области определения. А именно, в этом случае <tex>\mathrm{Var}(W) = {2 \over{n_{in}}}</tex><ref>[https://arxiv.org/pdf/1502.01852.pdfDelving Deep into Rectifiers]</ref>.
== Граф вычислений ==
Значения, которые вводятся в узлы и выходят из узлов, называются тензорами (т.е. многомерными массивами). На рисунке 1 представлен граф вычислений для функции <tex>f(a,b)=(a+b)*(b+1)</tex>. В нейронах сетях функций имеют больше аргументов и сложнее, но смысл операций остаётся прежним.
Процесс передачи значений от входных нейронов к выходным называется прямым распространеним (от англ. Forward pass). После чего мы вычисляем ошибку обработанных сетью данных на выходном нейроне и, основываясь на её значении, делаем обратную передачу (Back propagation)<ref>[https://en.wikipedia.org/wiki/BackpropagationBackpropagation, Wikipedia]</ref>. Back propagation заключается в том, чтобы последовательно менять веса нейронной сети, начиная с весов выходного нейрона. Значения весов будут меняться в сторону уменьшения ошибки.
[[Файл: Graph_compilation.jpg|400px|thumb|Рис.2. Граф вычислений для функции <tex>f(x,y,z)=(x+y)*z</tex>. Зелёные цифры — значения вычислений по ходу выполнения операций графа, красные — значения производной выходной функции по текущей переменной в точке <tex>(x_0=-2, y_0=5, z_0=-4)</tex>]]
Зная производные, можно искать матрицы весов <tex>w</tex> (числа, на которые умножаются входные для этого слоя значения) с помощью градиентного спуска сдвигаемся
в сторону градиента (при максимизации) или обратную ему
(при минимизации) <tex>w:=w-\eta\nabla_w f</tex>, или его модификаций <ref>[http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D1%80%D0%B0%D0%B4%D0%B8%D0%B5%D0%BD%D1%82%D0%BD%D0%BE%D0%B3%D0%BE_%D1%81%D0%BF%D1%83%D1%81%D0%BA%D0%B0Метод градиентного спуска]</ref>.
== Способы настройки параметров ==
Ниже представлены различные вариации градиентного спуска (более подробное сравнение, применительно к данной задаче <ref>[https://habr.com/post/318970/Методы оптимизации нейронных сетей, Habr]</ref>).
* Стохастический градиентный спуск <ref>[http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D1%81%D1%82%D0%BE%D1%85%D0%B0%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B3%D0%BE_%D0%B3%D1%80%D0%B0%D0%B4%D0%B8%D0%B5%D0%BD%D1%82%D0%B0Метод стохастического градиента]</ref>: <tex>w^{(0)}</tex> — начальные весы сети, <tex>w^{(k+1)}=w^{(k)}-\mu\frac{\partial L(w^{(k)})}{\partial w}</tex>;
* Momentum <ref>[https://en.wikipedia.org/wiki/Stochastic_gradient_descent#MomentumMomentum, Wikipedia]</ref>: <tex> \Delta w:=\alpha \Delta w-\eta \nabla Q_{i}(w)</tex>, <tex> w:=w+\Delta w</tex> или <tex> w:=w-\eta \nabla Q_{i}(w)+\alpha \Delta w</tex>;
* NAG (Nesterov accelerated gradient)<ref>[https://jlmelville.github.io/mize/nesterov.html#nagNesterov accelerated gradient]</ref>: <tex> w^{(k+1)} = w^{(k)}-v^{(k)}; v^{(k+1)}=\gamma v^{(k)}+\mu\frac{\partial L(w^{(k)}-v^{(k)})}{\partial w}</tex>
*Adagrad <ref>[http://akyrillidis.github.io/notes/AdaGrad AdaGrad]</ref>: <tex>g_{i,(k)}=\frac{\partial L(w_i^{(k)})}{\partial w_i}, w_i^{(k+1)}=w_i^{(k)}-\frac{\mu}{\sqrt{G^{(k)}_i,i+\epsilon}}g_{i,(k)}</tex>, где G — диагональная матрица, элементы которой, суммы квадратов координат градиента к k-ой итерации алгоритма;
*RMSProp<ref>[https://towardsdatascience.com/a-look-at-gradient-descent-and-rmsprop-optimizers-f77d483ef08bRMSProp]</ref>: <tex>E^{(k)}[g_i^2] = \gamma E^{(k-1)}[g_i^2]+(1-\gamma)g^2_{i, (k)}, w^{(k+1)}_i = w_i^{(k)}-\frac{\mu}{\sqrt{E^{(k)}[g_i^2]+\epsilon}}g_{i, (k)}</tex>;
*Adadelta<ref>[https://arxiv.org/abs/1212.5701Adadelta]</ref>:<tex>w^{(k+1)}=w^{(k)}-\mu(Q''(w^{(k)})^{-1}Q'(w^{(k)}</tex>, вычисление матрицы Q вторых производных довольно сложная задача, поэтому вместо неё можно брать приближение: <tex>w^{(k+1)}=w^{(k)}-\frac{RMS^{(k-1)}[\delta w_i}{RMS^{(k)}[g_i]}g_i^{(k)}</tex>, где <tex>RMS^{(k)}[x_i]=\sqrt{E^{(k)}[x^2_i]+\epsilon}</tex>;
*Adam<ref>[https://arxiv.org/pdf/1412.6980.pdfAdam]</ref>: <tex> w^{(k+1)}_i = w_i^{(k)}-\frac{\mu}{\sqrt{\hat{b}^2_{(k)}+\epsilon}}\hat{m}_{(k)}</tex>, где <tex>\hat{m}_{(k)}=\frac{\gamma_1 E^{(k-1)}[g_i]+(1-\gamma_1)g_{i,(k)}}{1-\gamma_1^k}</tex> и <tex>\hat{b}^2_{(k)}= \frac{\gamma_2 E^{(k-1)}[g^2_i]+(1-\gamma_2)g:2_{i,(k)}}{1-\gamma_2^k}</tex>.
==См.также==
==Примечания==
<references/>
 
==Источники информации==
# https://habr.com/company/wunderfund/blog/315476/# http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf# https://arxiv.org/pdf/1502.01852.pdf# https://en.wikipedia.org/wiki/Backpropagation# https://habr.com/post/318970/# [http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B5B0%D1%8288%D0%BEB8%D0%B4_BD%D1D0%81BD%D1D0%82BE%D0%BEB5_%D1D0%85BE%D0%B0B1%D1%8183%D1%8287%D0%B5%D0%BD%D0%B8%D0%B5_%28%D0%BA%D1%8783%D0D1%B580%D1%8181_%D0%BABB%D0%BEB5%D0%B3BA%D1%86%D0%BE_B8%D0%B3B9%2C_%D1D0%809A.%D0%B092.%D0%B492%D0%B8BE%D1%80%D0%B5BE%D0%BD%D1%8286%D0%B0# https://enBE%D0%B2%29 Курс лекций по машинному обучению] {{---}} Воронцов К.wikipediaВ.org/wiki/Stochastic_gradient_descent#Momentum# https://jlmelvilleRiedmiller, M.github, & Braun, H.io/mize/nesterov(1993).html#nag# httpA direct adaptive method for faster backpropagation learning://akyrillidisThe RPROP algorithm.githubIn Neural Networks, 1993.io/notes/AdaGrad# https://towardsdatascience, IEEE International Conference on (pp.com/a586-look-at-gradient-descent-and-rmsprop-optimizers-f77d483ef08b# https://arxiv591).org/abs/1212IEEE.5701# https://arxiv.org/pdf/1412.6980.pdf
[[Категория: Машинное обучение]]
[[Категория: Глубокое обучение]]
26
правок

Навигация