Изменения

Batch-normalization

136 байт добавлено, 09:07, 18 января 2019

Нет описания правки

'''~~Нормализация батчей~~Пакетная нормализация''' (англ. batch-normalization) {{---}} это метод, который позволяет повысить производительность и стабилизировать работу [[Нейронные сети, перцептрон | искусственных нейронных сетей]]~~[на 10.01.18 не создан]~~. Суть данного метода заключается в том, что некоторым слоям нейронной сети на вход подаются данные, предварительно обработанные и имеющие нулевое [[Математическое ожидание случайной величины|математическое ожидание]] и единичную [[Дисперсия случайной величины|дисперсию]]. Впервые данный метод был представлен в <ref>[https://arxiv.org/pdf/1502.03167.pdf Ioffe S., Szegedy C. {{---}} Batch normalization: Accelerating deep network training by reducing internal covariate shift, 2016]</ref>.

==Идея==

[[Файл:covariate-shift1.png|600px|thumb|Рисунок 1. Верхние две строки роз показывают первое подмножество данных, а нижние две строки показывают другое подмножество. Два подмножества имеют довольно различные распределения. На графиках показано распределение двух классов в пространстве объектов с использованием красных и зеленых точек. Синяя линия показывает границу между двумя классами. Иллюстрация из [https://www.learnopencv.com/batch-normalization-in-deep-networks/ статьи].]]

Нормализация входного слоя нейронной сети обычно выполняется путем масштабирования данных, подаваемых в функции активации. Например, когда есть признаки со значениями от <tex>0</tex> до <tex>1</tex> и некоторые признаки со значениями от <tex>1</tex> до <tex>1000</tex>, то их необходимо нормализовать, чтобы ускорить обучение. Нормализацию данных можно выполнить и в скрытых слоях нейронных сетей, что и делает метод пакетной нормализации ~~батчей~~.

Предварительно, напомним, что такое '''~~батч~~пакет''' (англ. batch). Пакетный (батч) [[Стохастический градиентный спуск|градиентный спуск]][на 10.01.18 не создано] {{---}} реализация градиентного спуска, когда на каждой итерации обучающая выборка просматривается целиком, и только после этого изменяются веса модели. Также существует "золотая середина" между стохастическим градиентном спуском и пакетным градиентном спуском {{---}} когда просматривается только некоторое подмножество обучающей выборки фиксированного размера (англ. batch-size). В таком случае такие подмножества принято называть мини-~~батчем~~ пакетом (англ. mini-batch). Здесь и далее, мини-~~батчи~~ пакеты будем также называть ~~батчем~~пакетом.

~~Нормализация батчей~~ Пакетная нормализация уменьшает величину, на которую смещаются значения узлов в скрытых слоях (т.н. '''смещение [[Ковариация случайных величин|ковариации]]''' (англ. covariance shift)).

Проиллюстрируем смещение ковариации примером.

Пусть есть [[Глубокое обучение|глубокая нейронная сеть]], которая обучена определять находится ли на изображении роза.

Так как обучающая и тестовая выборки содержат изображения роз, но немного отличаются.

Другими словами, если модель обучена отображению из множества <tex>X</tex> в множество <tex>Y</tex> и если [[wikipedia:ru:Распределение_вероятностей|распределение]] элементов в <tex>X</tex> изменяется, то появляется необходимость обучить модель заново, чтобы "выровнять" распределение элементов в <tex>X</tex> и <tex>Y</tex>.

Когда ~~батчи~~ пакеты содержат изображения, равномерно-распределенные на всем множестве, то смещение ковариации незначительно. Однако, когда ~~батчи~~ пакеты выбираются только из одного из двух подмножеств (в данном случае, красные розы и цветные розы), то смещение ковариации возрастает.

Это довольно сильно замедляет процесс обучения модели. На Рисунке 1 изображена разница в распределениях.

Простой способ решить проблему смещения ковариации для входного слоя {{---}} это случайным образом перемешать данные перед созданием ~~батчей~~пакетов.

Но для скрытых слоев нейронной сети такой метод не подходит, так как распределение входных данных для каждого узла скрытых слоев изменяется каждый раз, когда происходит обновление параметров в предыдущем слое.

Эта проблема называется '''внутренним смещением ковариации''' (англ. internal covariate shift).

Для решения данной проблемы необходимо использовать маленький коэффициент скорости обучения и методы регуляризации при обучении модели.

Другим способом устранения внутреннего смещения ковариации является метод пакетной нормализации ~~батчей~~.

Кроме того, использование пакетной нормализации ~~батчей~~ обладает еще несколькими дополнительными полезными свойствами:

* достигается более быстрая сходимость моделей, несмотря на выполнение дополнительных вычислений;

* пакетная нормализация ~~батчей~~ позволяет каждому слою сети обучатся более независимо от других слоев;* становится возможным использование более высокого коэффициента скорости обучения, так как пакетная нормализация ~~батчей~~ гарантирует, что выходы узлов нейронной сети не будут иметь слишком больших или малых значений;* пакетная нормализация ~~батчей~~ в каком-то смысле также является механизмом [[wikipedia:ru:Регуляризация_(математика)|регуляризации]]: данный метод привносит в выходы узлов скрытых слоев некоторый шум, аналогично методу [[Практики реализации нейронных сетей#Dropout|dropout]];

* модели становятся менее чувствительны к начальной инициализации весов.

==Описание метода==

Опишем устройство метода пакетной нормализации ~~батчей~~. Пусть на вход некоторому слою нейронной сети поступает вектор размерности <tex>d</tex>: <tex>x = (x^{(1)}, \ldots, x^{(d)})</tex>. Нормализуем данный вектор по каждой размерности <tex>k</tex>:

<tex>\hat{x}^{(k)} = \displaystyle \frac{x^{(k)} - E(x^{(k)})}{\sqrt{D(x^{(k)})}}</tex>,

Данные параметры настраиваются в процессе обучения вместе с остальными [[Настройка гиперпараметров|гиперпараметрами]][на 10.01.18 не создан] модели.

Пусть обучение модели производится с помощью ~~батчей~~ пакетов <tex>B</tex> размера <tex>m</tex>: <tex>B = \{x_{1},\ldots, x_{m}\}</tex>. Здесь нормализация применяется к каждой компоненте входа с номером <tex>k</tex> отдельно, поэтому в <tex>x^{(k)}</tex> индекс опускается для ясности изложения. Пусть были получены нормализованные значения ~~батча~~ пакета <tex>\hat{x}_{1},\ldots, \hat{x}_{m}</tex>. После применения операций сжатия и сдвига были получены <tex>y_{1},\ldots, y_{m}</tex>. Обозначим данную функцию пакетной нормализации ~~батчей~~ следующим образом:

<tex>BN_{\gamma, \beta}: \{x_{1},\ldots, x_{m}\} \rightarrow \{y_{1},\ldots, y_{m}\}</tex>

Тогда алгоритм пакетной нормализации ~~батчей~~ можно представить так:

'''Вход''': значения <tex>x</tex> из ~~батча~~ пакета <tex>B = \{x_{1},\ldots, x_{m}\}</tex>; настраиваемые параметры <tex>\gamma, \beta</tex>; константа <tex>\epsilon</tex> для вычислительной устойчивости.

'''Выход''': <tex>\{y_{i} = BN_{\gamma, \beta}(x_{i})\}</tex>

<tex>\mu_{B} = \displaystyle \frac{1}{m} \sum_{i=1}^{m} x_{i}</tex> // математическое ожидание ~~батча~~пакета <tex>\sigma_{B}^{2} = \displaystyle \frac{1}{m} \sum_{i=1}^{m} (x_{i} - \mu_{B})^{2}</tex> // дисперсия ~~батча~~пакета

<tex>\hat{x}_{i} = \displaystyle \frac{x_{i} - \mu_{B}}{\sqrt{\sigma_{B}^{2} + \epsilon}}</tex> // нормализация

<tex>y_{i} = \gamma \hat{x}_{i} + \beta \equiv BN_{\gamma, \beta}(x_{i}) </tex> // сжатие и сдвиг

Заметим, что если <tex>\beta=\mu_{B}</tex> и <tex>\gamma=\sqrt{\sigma_{B}^{2} + \epsilon}</tex>, то <tex>y_{i}</tex> равен <tex>x_{i}</tex>, то есть <tex>BN_{\gamma, \beta}(\cdot)</tex> является тождественным отображением.

Таким образом, использование пакетной нормализации ~~батчей~~ не может привести к снижению точности, поскольку оптимизатор просто может использовать нормализацию как тождественное отображение.

==Обучение нейронных сетей с пакетной нормализацией ~~батчей~~==[[Файл:BNcircuit.png|700px|thumb|Рисунок 2. [[Настройка_глубокой_сети#Граф вычислений|Граф вычислений]] слоя пакетной нормализации ~~батчей~~ алгоритмом обратного распространения ошибки. Слева-направо черными стрелками показана работа алгоритма в прямом направлении. А справа-налево красными стрелками {{---}} в обратном направлении, где вычисляется градиент функции потерь. Здесь <tex>N=m</tex> и <tex>D=d</tex>. Иллюстрация из [https://kratzert.github.io/2016/02/12/understanding-the-gradient-flow-through-the-batch-normalization-layer.html статьи].]]

Для обучения нейронных сетей необходимо вычислять [[wikipedia:ru:Градиент|градиент]] [[wikipedia:en:Loss_function|функции потерь]] <tex>l</tex>. В случае использования метода пакетной нормализации ~~батчей~~ градиент вычисляется следующим образом:

<tex>\displaystyle \frac{\partial l}{\partial \hat{x}_{i}} = \frac{\partial l}{\partial y_{i}} \cdot \gamma</tex>

<tex>\displaystyle \frac{\partial l}{\partial \beta} = \sum_{i=1}^{m}\frac{\partial l}{\partial y_{i}}</tex>

==~~Нормализация батчей~~ Пакетная нормализация в [[Сверточные нейронные сети | свёрточных сетях]]==~~Нормализация батчей~~ Пакетная нормализация может быть применена к любой функции активации. Рассмотрим подробнее случай аффинного преобразования с некоторой нелинейной функцией:

<tex>z = g(Wu + b)</tex>,

где <tex>W</tex> и <tex>b</tex> {{---}} настраиваемые параметры модели, а <tex>g(\cdot)</tex> {{---}} некоторая нелинейная функция, например [[Практики реализации нейронных сетей#Sigmoid function|cигмоида]] или [[Практики реализации нейронных сетей#Rectified Linear Units (ReLU)|ReLU]]. Данной функцией можно описать как обычные, так и сверточные слои нейронных сетей. ~~Нормализация батчей~~ Пакетная нормализация применяется сразу перед функцией <tex>g(\cdot)</tex> к <tex>x = Wu + b</tex>. Параметр <tex>b</tex> может быть опущен, так как в дальнейших вычислениях его роль будет играть параметр <tex>\beta</tex>. Поэтому <tex>z = g(Wu + b)</tex> может быть записано так:

<tex>z = g(BN(Wu))</tex>,

где <tex>BN</tex> применяется отдельно к каждой размерности <tex>x=Wu</tex> с отдельной парой параметров <tex>\gamma^{(k)}</tex> и <tex>\beta^{(k)}</tex> для каждой размерности.

В случае свёрточных сетей, дополнительно необходима нормализация, чтобы удовлетворить свойство свёрточных сетей, что различные элементы в разных местах одной карты признаков (образ операции свёртки, англ. feature map) должны быть ~~нормализованны~~ нормализованы одинаково. Чтобы этого добиться, нормализация выполняется совместно над всеми значениями в ~~батче~~пакете. Пусть <tex>B</tex> {{---}} множество всех значений в карте признаков по всему ~~батчу~~ пакету и всем точкам в карте признаков. Тогда для ~~батча~~ пакета размера <tex>m</tex> и карты признаков размера <tex>p \times q</tex> размер <tex>B</tex> равен <tex>m'=|B|=m \cdot pq</tex>. Тогда параметры <tex>\gamma^{(k)}</tex> и <tex>\beta^{(k)}</tex> настраиваются для каждой карты признаков отдельно.

==Пример==

[[File:bn_exp_1.png|300px|thumb|Рисунок 3. Точность распознавания в зависимости от итерации обучения. Оранжевая кривая изображает результаты для модели с использованием пакетной нормализации ~~батчей~~, синяя кривая {{---}} без. Иллюстрация из [https://github.com/udacity/deep-learning/blob/master/batch-norm/Batch_Normalization_Lesson.ipynb статьи].]]

[[File:bn_exp_2.png|300px|thumb|Рисунок 4. Точность распознавания в зависимости от итерации обучения c использованием сигмоиды в качетсве функции активации. Иллюстрация из [https://github.com/udacity/deep-learning/blob/master/batch-norm/Batch_Normalization_Lesson.ipynb статьи].]]

Приведем пример демонстрирующий работу пакетной нормализации ~~батчей~~.

Рассмотрим задачу распознавания рукописных цифр на известном датасете MNIST <ref>[http://yann.lecun.com/exdb/mnist/ Датасет MNIST]</ref>.

Для решения задачи будет использоваться обычная нейронная сеть с <tex>3</tex> скрытыми полносвязными слоями по <tex>100</tex> узлов в каждом.

Функция активации {{---}} ReLU.

Выходной слой содержит <tex>10</tex> узлов.

Размер ~~батча~~ пакета равен <tex>60</tex>. Сравниваются две одинаковые модели, но в первой перед каждым скрытым слоем используется пакетная нормализация ~~батчей~~, а во второй {{---}} нет.

Коэффициент скорости обучения равен <tex>0.01</tex>.

Веса инициализированы значениями с малой дисперсией.

На Рисунке 3 изображены два графика, показывающие разницу между моделями.

Как видно, обе модели достигли высокой точности, но модель с использованием пакетной нормализации ~~батчей~~ достигла точности более <tex>90\%</tex> быстрее, почти сразу, и достигла максимума, примерно, уже на <tex>10000</tex> итераций. Однако, модель без пакетной нормализации ~~батчей~~ достигла скорости обучения примерно <tex>510</tex> ~~батчей~~ пакетов в секунду, а модель с использованием пакетной нормализации ~~батчей~~ {{---}} <tex>270</tex>. Однако, как можно видеть, пакетная нормализация ~~батчей~~ позволяет выполнить меньшее количество итераций и, в итоге, сойтись за меньшее время.

На Рисунке 4 изображен график, сравнивающий точно такие же модели, но с использованием сигмоиды в качестве функции активации.

Такая конфигурация моделей требует большего времени, чтобы начать обучение.

В итоге, модель обучается, но на это потребовалось более <tex>45000</tex> итераций, чтобы получить точность более <tex>80\%</tex>.

При использовании пакетной нормализации ~~батчей~~ получилось достичь точность более <tex>90\%</tex> примерно за <tex>1000</tex> итераций.

==Реализации==

Механизм пакетной нормализации ~~батчей~~ реализован практически во всех современных инструментариях для машинного обучения, таких как: TensorFlow <ref>[https://www.tensorflow.org/api_docs/python/tf/layers/batch_normalization TensorFlow]</ref>, Keras <ref>[https://keras.io/layers/normalization/ Keras]</ref>, CNTK <ref>[https://docs.microsoft.com/en-us/cognitive-toolkit/BatchNormalization CNTK]</ref>, Theano <ref>[http://deeplearning.net/software/theano/library/tensor/nnet/bn.html Theano]</ref>, PyTorch <ref>[https://pytorch.org/docs/stable/_modules/torch/nn/modules/batchnorm.html PyTorch]</ref> и т.д.

Приведем пример<ref>[https://towardsdatascience.com/batch-normalization-theory-and-how-to-use-it-with-tensorflow-1892ca0173ad Batch normalization: theory and how to use it with Tensorflow]</ref> применения пакетной нормализации ~~батчей~~ с использованием библиотеки TensorFlow на языке программирования Python <ref>[https://www.python.org/ Язык программирования Python]</ref>:

import tensorflow as tf

==Модификации==

Существует несколько модификаций и вариаций метода пакетной нормализации ~~батчей~~:# Тим Койманс<ref>[https://arxiv.org/pdf/1603.09025.pdf Cooijmans T. {{---}} Recurrent batch normalization, 2016]</ref> в 2016 г. предложил способ применения пакетной нормализации ~~батчей~~ к [[Рекуррентные нейронные сети|рекуррентным нейронным сетям]][на 10.01.18 не создан].# Расширение метода пакетной нормализации ~~батчей~~ было предложено Ликси Хуангом<ref>[https://arxiv.org/pdf/1804.08450.pdf Huang L. {{---}} Decorrelated Batch Normalization, 2018]</ref> в 2018 г. Метод получил название декоррелированная пакетная нормализация ~~батчей~~ (англ. Decorrelated Batch Normalization). В данном методе кроме операций масштабирования и сдвига была предложено использование специальной функции затирания данных. # Джимми Лей Ба<ref>[https://arxiv.org/pdf/1607.06450.pdf Ba J. L., Kiros J. R., Hinton G. E. {{---}} Layer normalization, 2016]</ref> в 2016 г. предложил метод нормализации слоев (англ. Layer Normalization), который решает проблему выбора размера ~~батча~~пакета.# В работе Сергея Иоффе<ref>[https://arxiv.org/pdf/1702.03275.pdf Ioffe S. {{---}} Batch renormalization: Towards reducing minibatch dependence in batch-normalized models, 2017]</ref> в 2017 г. было представлено расширение метода пакетной нормализации ~~батчей~~: пакетная ренормализация ~~батчей~~ (англ. Batch Renormalization). Данный метод улучшает пакетную нормализацию ~~батчей~~, когда размер ~~батчей~~ пакетов мал и не состоит из независимых данных.# Метод потоковой нормализации (англ. Streaming Normalization) был предложен Кифэном Ляо<ref>[https://arxiv.org/pdf/1610.06160.pdf Liao Q., Kawaguchi K., Poggio T. {{---}} Streaming normalization: Towards simpler and more biologically-plausible normalizations for online and recurrent learning, 2016]</ref> в 2016 г. Данный метод убирает два ограничения пакетной нормализации ~~батчей~~: использование при [[wikipedia:ru:Онлайновое_обучение_машин|online-обучении]] и использование в рекуррентных нейронных сетях.

==См. также==

Анонимный участник

77.244.20.131

Изменения

Batch-normalization

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты