Изменения

Перейти к: навигация, поиск

Инициализация параметров глубокой сети

3634 байта добавлено, 19:11, 4 сентября 2022
м
rollbackEdits.php mass rollback
Рассмотрим линейное преобразование:
*<tex>y=w^Tx+b=\sum(w_i x_i)+b=\sum(y_i)+b</tex>
Его Примем значение вектора смещения $b$ нулевым, тогда дисперсия линейного преобразования (считаем настраиваемые параметры и входные данные независимыми):
*<tex>\mathrm{Var}[y_i]=\mathrm{Var}[w_i x_i]=\mathbb{E}[x_i]^2\mathrm{Var}[w_i]+\mathbb{E}[w_i]^2\mathrm{Var}[x_i]+\mathrm{Var}[w_i]\mathrm{Var}[x_i]</tex> ([https://en.wikipedia.org/wiki/Variance#Product_of_independent_variables см. дисперсия произведения])
Если отнормировать входные данные и Так как мы сами выбираем параметры распределения, то мы их можем подобрать параметрытак, чтобы $\mathbb{E}[w_i]=0$ (для всех слоев). Также можно добиться того, чтобы среднее было нулевымдля первого слоя $\mathbb{E}[x_i]=0$, если данные будут центрироваться в ходе нормализации, получитсятогда:
*<tex>(\mathbb{E}[x_i]=0, \mathbb{E}[w_i]=0) \Rightarrow \mathrm{Var}[y_i]=\mathrm{Var}[w_i]\mathrm{Var}[x_i]</tex>
Предыдущее предположение верно для первого слоя. Не трудно показать, что для всех следующих слоев оно тоже будет верно, если использовать симметричную функцию активации, которая будет сохранять нулевое математическое ожидание. Пусть $x=f(y_{prev})$, где $f$ это симметричная функция активации, а $y_{prev}=w_{prev}^T x_{prev}$ (предыдущее представление). Покажем что $\mathbb{E}[x]=0$:
*<tex>\mathbb{E}[y_{prev_{i}}]=\mathbb{E}[w_{prev_{i}} x_{prev_{i}}]=\mathbb{E}[w_{prev_{i}}] \mathbb{E}[x_{prev_{i}}]=0</tex><br>Мы можем расписать математическое ожидание произведения, как произведение мат. ожиданий, поскольку $w$ и $x$ независимы.<br><tex>\Rightarrow \mathbb{E}[y_{prev}]=\mathbb{E}[\sum\limits_{i=1}^{n_{in}}[y_{prev_{i}}]]=\sum\limits_{i=1}^{n_{in}}(\mathbb{E}[y_{prev_{i}}])=0</tex><br><tex>\Rightarrow \mathbb{E}[x]=\mathbb{E}[f(y_{prev})]=0</tex><br>Поскольку $f$ симметрична.
Поскольку $x_i$ мы отнормировали, а $w_i$ из одного распределения, то все дисперсии одинаковые:
*<tex>\mathrm{Var}[y]=\mathrm{Var}[\sum\limits_{i=1}^{n_{in}}[y_i]]=\sum\limits_{i=1}^{n_{in}}\mathrm{Var}[w_i x_i]=n_{in} \mathrm{Var}[w_i]\mathrm{Var}[x_i]</tex>Отсюда видно, что дисперсия результата линейно зависит от дисперсии входных данных с коэффициентом $n_{in} \mathrm{Var}[w_i]$, поэтому если инициализировать параметры так, что $\mathrm{Var}[w_i]=\frac{1}{n_{in}}$, то наша дисперсия будет равна $\mathrm{Var}[x_i]$.
*Если коэффициент будет $>1$ это приведет к увеличению дисперсии с каждым новым преобразованием, что может привести к ошибкам или насыщению функции активации, что негативно скажется на обучении сети.
*Если коэффициент будет $<1$ это приведет к снижению дисперсии с каждым новым преобразованием с около нулевым промежуточным представлением, что тоже негативно скажется на обучении сети.
Если бы мы не использовали между слоями функцию активации, то дисперсия на последнем слое совпадала бы с дисперсией при инициализации входных данных, но использовать глубокую сеть без функции активации не имеет смысла, потому что она добавляет нелинейность нашей модели, чтобы выявлять более сложные закономерности. Поэтому, если мы будем использовать симметричную функцию активации, дисперсия на первом слое и на последнем все еще будет отличаться, но коэффициент $n_{in} \mathrm{Var}[w_i]$ уже не будет вносить вклад в дисперсию. Поэтому для начальной инициализации параметров стоит использовать такое распределение, что $\mathrm{Var}[w_i]=\frac{1}{n_{in}}$, которое позволит сохранить дисперсию входных данныхконтролировать изменение дисперсии.
===Метод инициализации Xavier<ref>[http://proceedings.mlr.press/v9/glorot10a/glorot10a.pdf Understanding the difficulty of training deep feedforward neural networks]</ref>===
*<tex>w_i \sim \mathcal N(0,\frac{2}{n_{in}+n_{out}})</tex>
Этот способ инициализации хорошо подойдет для симметричных относительно нуля функций активации (например гиперболический тангенс, сигмоид), для ReLU<ref>[https://en.wikipedia.org/wiki/Rectifier_(neural_networks) ReLU, Wikipedia]</ref> данный способ не подходит. ====Пример инициализации Xavier на языке Python с фреймворком PyTorch====  <font color=darkgreen># инициализация параметров одного слоя</font> conv1 = torch.nn.Conv2d(...) torch.nn.init.xavier_uniform(conv1.weight)
====Пример инициализации Xavier на языке Pythonс библиотекой TensorFlow====
<font color=darkgreen># example of the normalized xavier weight initializationинициализация параметров тензора 2x2</font> from math import sqrt from numpy import mean from numpyinitializer = tf.random import rand <font color=darkgreen># number of nodes in the previous layer</font> n = 10 <font color=darkgreen># number of nodes in the next layer</font> m = 20 <font color=darkgreen># calculate the range for the weights</font> lower, upper = -(sqrt(6keras.0) / sqrt(n + m)), (sqrt(6initializers.0) / sqrtGlorotUniform(n + m)) <font colorvalues =darkgreen># generate random numbers</font> numbers initializer(shape= rand(10002, 2) <font color=darkgreen># scale to the desired range</font> scaled = lower + numbers * (upper - lower)
===Метод инициализации He<ref>[https://arxiv.org/pdf/1502.01852.pdf Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification ]</ref>===
Поэтому мы будем пытаться контролировать дисперсию не между слоями, а между входами ReLU. Пусть представление на входе было получено после применения данной функции активации к предыдущему представлению $y_{prev}$:
*<tex>x=\mathrm{ReLU}(y_{prev})</tex>
Тогда с учётом поведения ReLU и того, что $\mathrmmathbb{E}([y_{prev})]=0$, можно сказать, чтотак как $w_{prev_{i}}$ и $x_{prev_{i}}$ независимы. Доказательство было в главе про инициализацию случайными числами. Также $y_{prev_i}$ распределены симметрично относительно нуля:*<tex>\mathbb{P}(y_{prev_i}>0)=\mathbb{P}(w_{prev_{i}} x_{prev_{i}}>0)</tex><br><tex>=\mathbb{P}((w_{prev_{i}}>0 \wedge x_{prev_{i}}>0) \vee ((w_{prev_{i}}<0 \wedge x_{prev_{i}}<0)))</tex><br><tex>=\mathbb{P}(w_{prev_{i}}>0)\mathbb{P}(x_{prev_{i}}>0)+\mathbb{P}(w_{prev_{i}}<0)\mathbb{P}(x_{prev_{i}}<0)</tex><br><tex>=\frac{1}{2}\mathbb{P}(x_{prev_{i}}>0)+\frac{1}{2}\mathbb{P}(x_{prev_{i}}<0)=\frac{1}{2}</tex>Из предыдущих двух выкладок следует:*<tex>\mathbb{E}[x_i^2]=\mathbb{E}[max(0, y_{prev})^2]=\frac{1}{2}\mathbb{E}[y_{prev}^2]=\frac{1}{2}\mathrm{Var}[
y_{prev}]</tex><br><tex>\Rightarrow \mathrm{Var}[y]=\frac{1}{2}n_{in}\mathrm{Var}[w_i]\mathrm{Var}[y_{prev}]</tex>
Получается, что при использовании ReLU, нужно инициализировать параметры из распределения с дисперсией $\mathrm{Var}[w_i]=\frac{2}{n_{in}}$.
Для равномерного распределения $\mathcal U$ это будет:
*<tex>w_i \sim \mathcal U[-\sqrt{\frac{3}{n_{in}}},\sqrt{\frac{3}{n_{in}}}]</tex>
Для нормального распределения $\mathcal N$ это будет:
*<tex>w_i \sim \mathcal N(0,\frac{2}{n_{in}})</tex>
====Пример инициализации He на языке Pythonс фреймворком PyTorch====  <font color=darkgreen># инициализация параметров одного слоя</font> conv1 = torch.nn.Conv2d(...) torch.nn.init.kaiming_uniform_(conv1.weight)
<font color=darkgreen># example of the he weight initialization</font> from math import sqrt from numpy.random import randn <font color=darkgreen># number of nodes in the previous layer</font> n = 10 <font color=darkgreen># calculate the range for the weights</font> std Пример инициализации He на языке Python с библиотекой TensorFlow= sqrt(2.0 / n) <font color=darkgreen># generate random numbers</font> numbers = randn(1000) <font color=darkgreen># scale to the desired range</font> scaled = numbers * std
<font color=darkgreen># инициализация параметров тензора 2x2</font>
initializer = tf.keras.initializers.HeUniform()
values = initializer(shape=(2, 2))
==См.также==
1632
правки

Навигация