50
правок
Изменения
правки по he
Поэтому мы будем пытаться контролировать дисперсию не между слоями, а между входами ReLU. Пусть представление на входе было получено после применения данной функции активации к предыдущему представлению $y_{prev}$:
*<tex>x=\mathrm{ReLU}(y_{prev})</tex>
Также $y_{prev_i}$ распределены симметрично относительно нуля:
*<tex>\mathbb{P}(y_{prev_i}>0)=\mathbb{P}(w_{prev_{i}} x_{prev_{i}}>0)</tex><br><tex>=\mathbb{P}((w_{prev_{i}}>0 \wedge x_{prev_{i}}>0) \vee ((w_{prev_{i}}<0 \wedge x_{prev_{i}}<0)))</tex><br><tex>=\mathbb{P}(w_{prev_{i}}>0)\mathbb{P}(x_{prev_{i}}>0)+\mathbb{P}(w_{prev_{i}}<0)\mathbb{P}(x_{prev_{i}}<0)</tex><br><tex>=\frac{1}{2}\mathbb{P}(x_{prev_{i}}>0)+\frac{1}{2}\mathbb{P}(x_{prev_{i}}<0)=\frac{1}{2}</tex>