Изменения

Перейти к: навигация, поиск
правка экспоненциального роста
*Если коэффициент будет $<1$ это приведет к снижению дисперсии с каждым новым преобразованием с около нулевым промежуточным представлением, что тоже негативно скажется на обучении сети.
Если бы мы не использовали между слоями функцию активации, то дисперсия на последнем слое совпадала бы с дисперсией при инициализации входных данных, но использовать глубокую сеть без функции активации не имеет смысла, потому что она добавляет нелинейность нашей модели, чтобы выявлять более сложные закономерности. Поэтому, если мы будем использовать симметричную функцию активации, дисперсия на первом слое и на последнем все еще будет отличаться, но коэффициент $n_{in} \mathrm{Var}[w_i]$ уже не экспоненциальнобудет вносить вклад в дисперсию.
Поэтому для начальной инициализации параметров стоит использовать такое распределение, что $\mathrm{Var}[w_i]=\frac{1}{n_{in}}$, которое позволит контролировать изменение дисперсии.
Анонимный участник

Навигация