Изменения

Перейти к: навигация, поиск

Обсуждение участника:Mishenkoil

2 байта добавлено, 16:49, 9 мая 2022
фикс He
Поэтому мы будем пытаться контролировать дисперсию не между слоями, а между функциями активации ReLU. Пусть представление на входе было получено после применения данной функции активации к предыдущему представлению $z_{prev}$:
*<tex>x=\mathrm{ReLU}(z_y_{prev})</tex>Тогда с учётом поведения ReLU и того, что $\mathrm{E}(z_y_{prev})=0$, можно сказать, что:*<tex>\mathrm{E}[x_i^2]=\frac{1}{2}\mathrm{Var}[z_zy_{prev}]</tex><br><tex>\Rightarrow \mathrm{Var}[y]=\frac{1}{2}n_{in}\mathrm{Var}[w_i]\mathrm{Var}[z_y_{prev}]</tex>
Получается, что при использовании ReLU, нужно инициализировать параметры из распределения с дисперсией $\mathrm{Var}[w_i]=\frac{2}{n_{in}}$. Для нормального распределения $N$ это будет:
50
правок

Навигация