Обсуждение участника:Mishenkoil

Принцип выбора начальных значений весов для слоев, составляющих модель очень важен: установка всех весов в 0 будет серьезным препятствием для обучения, так как ни один из весов изначально не будет активен. Присваивать весам значения из интервала [math][-1, 1][/math] — тоже обычно не лучший вариант — на самом деле, иногда (в зависимости от задачи и сложности модели) от правильной инициализации модели может зависеть, достигнет она высочайшей производительности или вообще не будет сходиться. Даже если задача не предполагает такой крайности, удачно выбранный способ инициализации весов может значительно влиять на способность модели к обучению, так как он предустанавливает параметры модели с учетом функции потерь^[1].

Всегда можно выбрать случайно начальное приближение, но лучше выбирать определённым образом.

Инициализация случайными числами

Рассмотрим линейное преобразование:

Его дисперсия (считаем настраиваемые параметры и входные данные независимыми):

(см. дисперсия произведения)

Если отнормировать входные данные и подобрать параметры, чтобы среднее было нулевым, получится:

Поскольку $x_i$ мы отнормировали, а $w_i$ из одного распределения, то все дисперсии одинаковые:

Отсюда видно, что дисперсия результата линейно зависит от дисперсии входных данных с коэффициентом $n_{in} \mathrm{Var}[w_i]$.

Если коэффициент будет $>1$ это приведет к увеличению дисперсии с каждым новым преобразованием, что может привести к ошибкам или насыщению функции активации, что негативно скажется на обучении сети.

Если коэффициент будет $<1$ это приведет к снижению дисперсии с каждым новым преобразованием с около нулевым промежуточным представлением, что тоже негативно скажется на обучении сети.

Поэтому для начальной инициализации параметров стоит использовать такое распределение, что $\mathrm{Var}[w_i]=\frac{1}{n_{in}}$, которое позволит сохранить дисперсию входных данных.

Метод инициализации Xavier^[2].

Предыдущий подход хорошо работает, когда размерность наших данных не изменяется после преобразований $(n_{in} = n_{out})$, но так бывает не всегда. В качестве компромисса Xavier Glorot и Yoshua Bengio предлагают инициализировать параметры из распределения с дисперсией $\mathrm{Var}[w_i]=\frac{2}{n_{in}+n_{out}}$.

Для равномерного распределения $\mathcal U$ это будет:

Для нормального распределения $\mathcal N$ это будет:

Этот способ инициализации хорошо подойдет для симметричных относительно нуля функций активации (гиперболический тангенс, сигмоид), для ReLU^[3] данный способ не подходит.

Метод инициализации He^[4]

Поскольку ReLU несимметричная функция $f(x) = max(0, x)$, мы уже не можем утверждать, что среднее значение входных данных в каждом преобразовании будет нулевым:

Поэтому мы будем пытаться контролировать дисперсию не между слоями, а между входами ReLU. Пусть представление на входе было получено после применения данной функции активации к предыдущему представлению $y_{prev}$:

[math]x=\mathrm{ReLU}(y_{prev})[/math]

Тогда с учётом поведения ReLU и того, что $\mathrm{E}(y_{prev})=0$, можно сказать, что:

Получается, что при использовании ReLU, нужно инициализировать параметры из распределения с дисперсией $\mathrm{Var}[w_i]=\frac{2}{n_{in}}$. Для нормального распределения $\mathcal N$ это будет:

См.также

Примечания

Источники информации

Онлайн-учебник по машинному обучению от ШАД

[1] Тонкая настройка нейронной сети, Habr

[2] Understanding the difficulty of training deep feedforward neural networks

[3] ReLU, Wikipedia

[4] A weight initialization based on the linear product structure for neural networks

[1]

[2]

[3]

[4]

Обсуждение участника:Mishenkoil

Содержание

Инициализация случайными числами

Метод инициализации Xavier^[2].

Метод инициализации He^[4]

См.также

Примечания

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты

Обсуждение участника:Mishenkoil

Содержание

Инициализация случайными числами

Метод инициализации Xavier[2].

Метод инициализации He[4]

См.также

Примечания

Источники информации

Навигация

Поиск

Метод инициализации Xavier^[2].

Метод инициализации He^[4]