50
правок
Изменения
м
fix 7
Поэтому мы будем пытаться контролировать дисперсию не между слоями, а между входами ReLU. Пусть представление на входе было получено после применения данной функции активации к предыдущему представлению $y_{prev}$:
*<tex>x=\mathrm{ReLU}(y_{prev})</tex>
Давайте покажем, что $\mathbb{E}([y_{prev})]=0$, так как $w_{prev_{i}}$ и $x_{prev_{i}}$ независимы:
*<tex>\mathbb{E}[y_{prev_{i}}]=\mathbb{E}[w_{prev_{i}} x_{prev_{i}}]=\mathbb{E}[w_{prev_{i}}] \mathbb{E}[x_{prev_{i}}]=0</tex><br><tex>\Rightarrow \mathbb{E}[y_{prev}]=\mathbb{E}[\sum\limits_{i=1}^{n_{in}}[y_{prev_{i}}]]=\sum\limits_{i=1}^{n_{in}}(\mathbb{E}[y_{prev_{i}}])=0</tex>
Также $y_{prev_i}$ распределены симметрично относительно нуля: