Batch-normalization

Нормализация батчей (англ. batch-normalization) — это метод, который позволяет повысить производительность и стабилизировать работу искусственных нейронных сетей. Суть данного метода заключается в том, что некоторым слоям нейронной сети на вход подаются данные, предварительно обработанные и имеющие нулевое среднее значение и единичную дисперсию. Впервые данный метод был представлен в ^[1].

Идея

Описание метода

Опишем устройство метода нормализации батчей. Пусть, на вход некоторому слою нейронной сети поступает вектор размерности [math]d[/math]: . Нормализуем данный вектор по каждой размерности [math]k[/math]:

,

где математическое ожидание и дисперсия считаются по всей обучающей выборке. Такая нормализация входа слоя нейронной сети может изменить представление данных в слое. Чтобы избежать данной проблемы, вводятся два параметра сжатия и сдвига нормализованной величины для каждого [math]x_{k}[/math]: [math]\gamma_{k}[/math], [math]\beta_{k}[/math] — которые действуют следующим образом:

.

Данные параметры настраиваются в процессе обучения вместе с остальными гиперпараметрами модели.

Пусть, обучение модели производится с помощью батчей [math]B[/math] размера [math]m[/math]: [math]B = \{x_{1,\ldots, m}\}[/math]. Здесь нормализация применяется к каждой компоненте входа с номером [math]k[/math] отдельно, поэтому в [math]x^{(k)}[/math] индекс опускается для ясности изложения. Пусть, были получены нормализованные значения батча [math]\hat{x}_{1,\ldots, m}[/math]. Далее, после применения операций сжатия и сдвига были получены [math]y_{1,\ldots, m}[/math]. Обозначим данную функцию нормализации батчей следующим образом:

Тогда, алгоритм нормализации батчей можно представить так:

Вход: значения [math]x[/math] из батча [math]B = \{x_{1,\ldots, m}\}[/math]; настраиваемые параметры [math]\gamma, \beta[/math]; константа [math]\epsilon[/math] для вычислительной устойчивости.
Выход: [math]\{y_{i} = BN_{\gamma, \beta}(x_{i})\}[/math]
[math]\mu_{B} = \displaystyle \frac{1}{m} \sum_{i=1}^{m} x_{i}[/math] // математическое ожидание батча
[math]\sigma_{B}^{2} = \displaystyle \frac{1}{m} \sum_{i=1}^{m} (x_{i} - \mu_{B})^{2}[/math] // дисперсия батча
[math]\hat{x}_{i} = \displaystyle \frac{x_{i} - \mu_{B}}{\sqrt{\sigma_{B}^{2} + \epsilon}}[/math] // нормализация
[math]y_{i} = \gamma \hat{x}_{i} + \beta \equiv BN_{\gamma, \beta}(x_{i}) [/math] // сжатие и сдвиг

Обучение нейронных сетей с нормализацией батчей

Для обучения нейронных сетей необходимо вычислять градиент функции потерь. В случае использования метода нормализации батчей градиент вычисляется следующим образом:

Нормализация батчей в свёрточных сетях

Примеры

Реализации

Примечания

↑ https://arxiv.org/pdf/1502.03167.pdf

[1] ttps://arxiv.org/pdf/1502.03167.pdf

[1]

Batch-normalization

Идея

Описание метода

Обучение нейронных сетей с нормализацией батчей

Нормализация батчей в свёрточных сетях

Примеры

Реализации

Примечания

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты