Batch-normalization

Материал из Викиконспекты
Перейти к: навигация, поиск

Нормализация батчей (англ. batch-normalization) — это метод, который позволяет повысить производительность и стабилизировать работу искусственных нейронных сетей. Суть данного метода заключается в том, что некоторым слоям нейронной сети на вход подаются данные, предварительно обработанные и имеющие нулевое среднее значение и единичную дисперсию. Впервые данный метод был представлен в [1].

Описание метода

Опишем устройство метода нормализации батчей. Пусть, на вход некоторому слою нейронной сети поступает вектор размерности [math]d[/math]: [math]x = (x^{(1)}, \ldots, x^{(d)})[/math]. Нормализуем данный вектор по каждой размерности [math]k[/math]:

[math]\hat{x}^{(k)} = \displaystyle \frac{x^{(k)} - E(x^{(k)})}{\sqrt{D(x^{(k)})}}[/math],

где математическое ожидание и дисперсия считаются по всей обучающей выборке. Такая нормализация входа слоя нейронной сети может изменить представление данных в слое. Чтобы избежать данной проблемы, вводятся два параметра сжатия и сдвига нормализованной величины для каждого [math]x_{k}[/math]: [math]\gamma_{k}[/math], [math]\beta_{k}[/math] — которые действуют следующим образом:

[math]y^{(k)} = \gamma^{(k)} \hat{x}^{(k)} + \beta^{(k)}[/math].

Данные параметры настраиваются в процессе обучения вместе с остальными гиперпараметрами модели.

Пусть, обучение модели производится с помощью батчей [math]B[/math] размера [math]m[/math]: [math]B = \{x_{1,\ldots, m}\}[/math]. Здесь нормализация применяется к каждой компоненте входа с номером [math]k[/math] отдельно, поэтому в [math]x^{(k)}[/math] индекс опускается для ясности.

Примечания