Изменения

Инициализация параметров глубокой сети

Нет изменений в размере, 22:34, 12 мая 2022

м

fix 7

Поэтому мы будем пытаться контролировать дисперсию не между слоями, а между входами ReLU. Пусть представление на входе было получено после применения данной функции активации к предыдущему представлению $y_{prev}$:

*<tex>x=\mathrm{ReLU}(y_{prev})</tex>

Давайте покажем, что $\mathbb{E}([y_{prev})]=0$, так как $w_{prev_{i}}$ и $x_{prev_{i}}$ независимы:

*<tex>\mathbb{E}[y_{prev_{i}}]=\mathbb{E}[w_{prev_{i}} x_{prev_{i}}]=\mathbb{E}[w_{prev_{i}}] \mathbb{E}[x_{prev_{i}}]=0</tex><br><tex>\Rightarrow \mathbb{E}[y_{prev}]=\mathbb{E}[\sum\limits_{i=1}^{n_{in}}[y_{prev_{i}}]]=\sum\limits_{i=1}^{n_{in}}(\mathbb{E}[y_{prev_{i}}])=0</tex>

Также $y_{prev_i}$ распределены симметрично относительно нуля:

Mishenkoil

50

правок

Изменения

Инициализация параметров глубокой сети

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты