Изменения

Обсуждение участника:Mishenkoil

1 байт убрано, 16:50, 9 мая 2022

фикс He 2

*<tex>(\mathrm{E}[x_i] \neq 0, \mathrm{E}[w_i]=0)</tex><br><tex>\Rightarrow \mathrm{Var}[y_i]=\mathrm{E}[x_i]^2\mathrm{Var}[w_i] + \mathrm{Var}[w_i]\mathrm{Var}[x_i]=\mathrm{Var}[w_i](\mathrm{E}[x_i]^2 + \mathrm{Var}[x_i])=\mathrm{Var}[w_i]\mathrm{E}[x_i^2]</tex><br><tex>\Rightarrow \mathrm{Var}[y]=n_{in}\mathrm{Var}[w_i]\mathrm{E}[x_i^2]</tex>

Поэтому мы будем пытаться контролировать дисперсию не между слоями, а между функциями активации ReLU. Пусть представление на входе было получено после применения данной функции активации к предыдущему представлению $z_y_{prev}$:

*<tex>x=\mathrm{ReLU}(y_{prev})</tex>

Тогда с учётом поведения ReLU и того, что $\mathrm{E}(y_{prev})=0$, можно сказать, что:

*<tex>\mathrm{E}[x_i^2]=\frac{1}{2}\mathrm{Var}[z

y_{prev}]</tex><br><tex>\Rightarrow \mathrm{Var}[y]=\frac{1}{2}n_{in}\mathrm{Var}[w_i]\mathrm{Var}[y_{prev}]</tex>

Mishenkoil

50

правок

Изменения

Обсуждение участника:Mishenkoil

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты