Обсуждение участника:Mishenkoil

Инициализация — это процесс установки настраиваемых параметров для нашей глубокой сети. Выбор правильного метода инициализации важен для качества обучения нашей модели. Также это позволяет сократить время сходимости и минимизировать функцию потерь. Установка параметров в 0 или константное значение может привести к тому, что наша сеть вообще не будет обучаться. Поэтому важно уметь выбрать правильный метод.

Инициализация случайными числами

Рассмотрим линейное преобразование:

Его дисперсия (считаем настраиваемые параметры и входные данные независимыми):

(см. дисперсия произведения)

Если отнормировать входные данные и подобрать параметры, чтобы среднее было нулевым, получится:

Поскольку $x_i$ мы отнормировали, а $w_i$ из одного распределения, то все дисперсии одинаковые:

Отсюда видно, что дисперсия результата линейно зависит от дисперсии входных данных с коэффициентом $n_{in} \mathrm{Var}[w_i]$.

Если коэффициент будет $>1$ это приведет к увеличению дисперсии с каждым новым преобразованием, что может привести к ошибкам или насыщению функции активации, что негативно скажется на обучении сети.

Если коэффициент будет $<1$ это приведет к снижению дисперсии с каждым новым преобразованием с около нулевым промежуточным представлением, что тоже негативно скажется на обучении сети.

Поэтому для начальной инициализации параметров стоит использовать такое распределение, что $\mathrm{Var}[w_i]=\frac{1}{n_{in}}$, которое позволит сохранить дисперсию входных данных.

Метод инициализации Xavier^[1].

Предыдущий подход хорошо работает, когда размерность наших данных не изменяется после преобразований $(n_{in} = n_{out})$, но так бывает не всегда. В качестве компромисса Xavier Glorot и Yoshua Bengio предлагают инициализировать параметры из распределения с дисперсией $\mathrm{Var}[w_i]=\frac{2}{n_{in}+n_{out}}$.

Для равномерного распределения $\mathcal U$ это будет:

Для нормального распределения $\mathcal N$ это будет:

Этот способ инициализации хорошо подойдет для симметричных относительно нуля функций активации (гиперболический тангенс, сигмоид), для ReLU^[2] данный способ не подходит.

Метод инициализации He^[3]

Поскольку ReLU несимметричная функция $f(x) = max(0, x)$, мы уже не можем утверждать, что среднее значение входных данных в каждом преобразовании будет нулевым:

Поэтому мы будем пытаться контролировать дисперсию не между слоями, а между входами ReLU. Пусть представление на входе было получено после применения данной функции активации к предыдущему представлению $y_{prev}$:

[math]x=\mathrm{ReLU}(y_{prev})[/math]

Тогда с учётом поведения ReLU и того, что $\mathrm{E}(y_{prev})=0$, можно сказать, что:

Получается, что при использовании ReLU, нужно инициализировать параметры из распределения с дисперсией $\mathrm{Var}[w_i]=\frac{2}{n_{in}}$. Для нормального распределения $\mathcal N$ это будет:

См.также

Примечания

Источники информации

Онлайн-учебник по машинному обучению от ШАД

[1] Understanding the difficulty of training deep feedforward neural networks

[2] ReLU, Wikipedia

[3] A weight initialization based on the linear product structure for neural networks

[1]

[2]

[3]

Обсуждение участника:Mishenkoil

Содержание

Инициализация случайными числами

Метод инициализации Xavier^[1].

Метод инициализации He^[3]

См.также

Примечания

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты

Обсуждение участника:Mishenkoil

Содержание

Инициализация случайными числами

Метод инициализации Xavier[1].

Метод инициализации He[3]

См.также

Примечания

Источники информации

Навигация

Поиск

Метод инициализации Xavier^[1].

Метод инициализации He^[3]