Изменения

Batch-normalization

6371 байт добавлено, 20:04, 21 ноября 2019

ться

'''~~Нормализация батчей~~Пакетная нормализация''' (англ. batch-normalization) {{---}} ~~это~~ метод, который позволяет повысить производительность и стабилизировать работу [[Нейронные сети, перцептрон | искусственных нейронных сетей]]~~[на 10.01.18 не создан]~~. Суть данного метода заключается в том, что некоторым слоям нейронной сети на вход подаются данные, предварительно обработанные и имеющие нулевое [[Математическое ожидание случайной величины|математическое ожидание]] и единичную [[Дисперсия случайной величины|дисперсию]]. Впервые данный метод был представлен в <ref>[https://arxiv.org/pdf/1502.03167.pdf Ioffe S., Szegedy C. {{---}} Batch normalization: Accelerating deep network training by reducing internal covariate shift, 2016]</ref>.

==Идея==

[[Файл:covariate-shift1.png|600px|thumb|Рисунок 1. Верхние две строки роз показывают первое подмножество данных, а нижние две строки показывают другое подмножество. Два подмножества имеют довольно различные распределения. На графиках показано распределение двух классов в пространстве объектов с использованием красных и зеленых точек. Синяя линия показывает границу между двумя классами. Иллюстрация из [https://www.learnopencv.com/batch-normalization-in-deep-networks/ статьи].]]Нормализация входного слоя нейронной сети обычно выполняется путем масштабирования данных, подаваемых в функции активации. Например, когда есть признаки со значениями от <tex>0</tex> до <tex>1</tex> и некоторые признаки со значениями от <tex>1</tex> до <tex>1000</tex>, то их необходимо нормализовать, чтобы ускорить обучение. Нормализацию данных можно выполнить и в скрытых слоях нейронных сетей, что и делает метод пакетной нормализации ~~батчей~~.===Пакет===Предварительно, напомним, что такое '''пакет''' (англ. batch). Возможны два подхода к реализации алгоритма градиентного спуска для обучения нейросетевых моделей: стохастический и пакетный<ref>[http://www.machinelearning.ru/wiki/index.php?title=Метод_стохастического_градиента Метод стохастического градиента]</ref>. * [[Стохастический градиентный спуск|Стохастический градиентный спуск]] (англ. stochastic gradient descent) {{---}} реализация, в которой на каждой итерации алгоритма из обучающей выборки каким-то (случайным) образом выбирается только один объект; * Пакетный (батч) (англ. batch gradient descent) {{---}} реализация градиентного спуска, когда на каждой итерации обучающая выборка просматривается целиком, и только после этого изменяются веса модели.

Предварительно, напомним, что такое '''батч''' (англ. batch). Пакетный (батч) [[Стохастический градиентный спуск|градиентный спуск]][на 10.01.18 не создано] {{---}} реализация градиентного спуска, когда на каждой итерации обучающая выборка просматривается целиком, и только после этого изменяются веса модели. Также существует "золотая середина" между стохастическим ~~градиентном~~ градиентным спуском и пакетным ~~градиентном~~ градиентным спуском {{---}} когда просматривается только некоторое подмножество обучающей выборки фиксированного размера (англ. batch-size). В таком случае такие подмножества принято называть мини-~~батчем~~ пакетом (англ. mini-batch). Здесь и далее, мини-~~батчи~~ пакеты будем также называть ~~батчем~~пакетом.

~~Нормализация батчей~~ ===Ковариантный сдвиг===[[Файл:covariate-shift1.png|600px|thumb|Рисунок 1. Верхние две строки роз показывают первое подмножество данных, а нижние две строки показывают другое подмножество. Два подмножества имеют разные пропорции изображения роз. На графиках показано распределение двух классов в пространстве объектов с использованием красных и зеленых точек. Синяя линия показывает границу между двумя классами. Иллюстрация из [https://www.learnopencv.com/batch-normalization-in-deep-networks/ статьи].]]Пакетная нормализация уменьшает величину, на которую смещаются значения узлов в скрытых слоях (т.н. '''~~смещение~~ [[Ковариация случайных величин|~~ковариации~~ковариантный]]сдвиг''' (англ. covariance shift)). Ковариантный сдвиг {{---}} это ситуация, когда распределения значений признаков в обучающей и тестовой выборке имеют разные параметры (математическое ожидание, дисперсия и т.д.). Ковариантность в данном случае относится к значениям признаков. Проиллюстрируем ~~смещение ковариации~~ ковариантный сдвиг примером.

Пусть есть [[Глубокое обучение|глубокая нейронная сеть]], которая обучена определять находится ли на изображении роза.

И нейронная сеть была обучена на изображениях только красных роз.

Теперь, если попытаться использовать обученную модель для обнаружения ~~цветных~~ розразличных цветов, то, очевидно, ~~результат~~ точность работы модели будет ~~неудовлетворительный~~неудовлетворительной.~~Так как~~ Это происходит из-за того, что обучающая и тестовая выборки содержат изображения красных роз и роз~~, но немного отличаются~~различных цветов в разных пропорциях. Другими словами, если модель обучена отображению из множества <tex>X</tex> в множество <tex>Y</tex> и если ~~[[wikipedia:ru:Распределение_вероятностей|распределение]]~~ пропорция элементов в <tex>X</tex> изменяется, то появляется необходимость обучить модель заново, чтобы "выровнять" ~~распределение~~ пропорции элементов в <tex>X</tex> и <tex>Y</tex>. Когда ~~батчи~~ пакеты содержат изображенияразных классов, ~~равномерно-~~распределенные в одинаковой пропорции на всем множестве, то ~~смещение ковариации незначительно~~ковариантный сдвиг незначителен. Однако, когда ~~батчи~~ пакеты выбираются только из одного из или двух подмножеств (в данном случае, красные розы и ~~цветные~~ розыразличных цветов), то ~~смещение ковариации~~ ковариантный сдвиг возрастает. Это довольно сильно замедляет процесс обучения модели. На Рисунке 1 изображена разница в ~~распределениях~~пропорциях.

Простой способ решить проблему ~~смещения ковариации~~ ковариантного сдвига для входного слоя {{---}} это случайным образом перемешать данные перед созданием ~~батчей~~пакетов.

Но для скрытых слоев нейронной сети такой метод не подходит, так как распределение входных данных для каждого узла скрытых слоев изменяется каждый раз, когда происходит обновление параметров в предыдущем слое.

Эта проблема называется '''внутренним ~~смещением ковариации~~ковариантным сдвигом''' (англ. internal covariate shift). Для решения данной проблемы ~~необходимо~~ часто приходится использовать ~~маленький коэффициент скорости~~ низкий [[Стохастический градиентный спуск|темп обучения ]] (англ. learning rate) и методы [[wikipedia:ru:Регуляризация_(математика)|регуляризации ]] при обучении модели. Другим способом устранения внутреннего ~~смещения ковариации~~ ковариантного сдвига является метод пакетной нормализации ~~батчей~~.

===Свойства пакетной нормализации===Кроме того, использование пакетной нормализации ~~батчей~~ обладает еще несколькими дополнительными полезными свойствами:

* достигается более быстрая сходимость моделей, несмотря на выполнение дополнительных вычислений;

* пакетная нормализация ~~батчей~~ позволяет каждому слою сети ~~обучатся~~ обучаться более независимо от других слоев;* становится возможным использование более высокого ~~коэффициента скорости~~ темпа обучения, так как пакетная нормализация ~~батчей~~ гарантирует, что выходы узлов нейронной сети не будут иметь слишком больших или малых значений;* пакетная нормализация ~~батчей~~ в каком-то смысле также является механизмом ~~[[wikipedia:ru:Регуляризация_(математика)|~~регуляризации]]: данный метод привносит в выходы узлов скрытых слоев некоторый шум, аналогично методу [[Практики реализации нейронных сетей#Dropout|dropout]];

* модели становятся менее чувствительны к начальной инициализации весов.

==Описание метода==

Опишем устройство метода пакетной нормализации ~~батчей~~. Пусть, на вход некоторому слою нейронной сети поступает вектор размерности <tex>d</tex>: <tex>x = (x^{(1)}, \ldots, x^{(d)})</tex>. Нормализуем данный вектор по каждой размерности <tex>k</tex>:

<tex>\hat{x}^{(k)} = \displaystyle \frac{x^{(k)} - E(x^{(k)})}{\sqrt{D(x^{(k)})}}</tex>,

где математическое ожидание и дисперсия считаются по всей обучающей выборке. Такая нормализация входа слоя нейронной сети может изменить представление данных в слое. Чтобы избежать данной проблемы, вводятся два параметра сжатия и сдвига нормализованной величины для каждого <tex>x_x^{(k)}</tex>: <tex>\~~gamma_~~gamma^{(k)}</tex>, <tex>\~~beta_~~beta^{(k)}</tex> {{---}} которые действуют следующим образом:

<tex>y^{(k)} = \gamma^{(k)} \hat{x}^{(k)} + \beta^{(k)}</tex>.

Данные параметры настраиваются в процессе обучения вместе с остальными [[~~Настройка гиперпараметров~~Модель_алгоритма_и_ее_выбор|~~гиперпараметрами~~параметрами модели]]~~[на 10.01.18 не создан] модели~~.

Пусть обучение модели производится с помощью ~~батчей~~ пакетов <tex>B</tex> размера <tex>m</tex>: <tex>B = \{x_{1},\ldots, x_{m}\}</tex>. Здесь нормализация применяется к ~~каждой компоненте~~ каждому элементу входа с номером <tex>k</tex> отдельно, поэтому в <tex>x^{(k)}</tex> индекс опускается для ясности изложения. Пусть были получены нормализованные значения ~~батча~~ пакета <tex>\hat{x}_{1},\ldots, \hat{x}_{m}</tex>. После применения операций сжатия и сдвига были получены <tex>y_{1},\ldots, y_{m}</tex>. Обозначим данную функцию пакетной нормализации ~~батчей~~ следующим образом:

<tex>BN_{\gamma, \beta}: \{x_{1},\ldots, x_{m}\} \rightarrow \{y_{1},\ldots, y_{m}\}</tex>

Тогда алгоритм пакетной нормализации ~~батчей~~ можно представить так:

'''Вход''': значения <tex>x</tex> из ~~батча~~ пакета <tex>B = \{x_{1},\ldots, x_{m}\}</tex>; настраиваемые параметры <tex>\gamma, \beta</tex>; константа <tex>\epsilon</tex> для вычислительной устойчивости.

'''Выход''': <tex>\{y_{i} = BN_{\gamma, \beta}(x_{i})\}</tex>

<tex>\mu_{B} = \displaystyle \frac{1}{m} \sum_{i=1}^{m} x_{i}</tex> // математическое ожидание ~~батча~~пакета <tex>\sigma_{B}^{2} = \displaystyle \frac{1}{m} \sum_{i=1}^{m} (x_{i} - \mu_{B})^{2}</tex> // дисперсия ~~батча~~пакета

<tex>\hat{x}_{i} = \displaystyle \frac{x_{i} - \mu_{B}}{\sqrt{\sigma_{B}^{2} + \epsilon}}</tex> // нормализация

<tex>y_{i} = \gamma \hat{x}_{i} + \beta \equiv BN_{\gamma, \beta}(x_{i}) </tex> // сжатие и сдвиг

Заметим, что если <tex>\beta=\mu_{B}</tex> и <tex>\gamma=\sqrt{\sigma_{B}^{2} + \epsilon}</tex>, то <tex>y_{i}</tex> равен <tex>x_{i}</tex>, то есть <tex>BN_{\gamma, \beta}(\cdot)</tex> является тождественным отображением.

Таким образом, использование пакетной нормализации ~~батчей~~ не может привести к снижению точности, поскольку оптимизатор просто может использовать нормализацию как тождественное отображение. ==Обучение нейронных сетей с пакетной нормализацией==[[Файл:BNcircuit.png|700px|thumb|Рисунок 2. [[Настройка_глубокой_сети#Граф вычислений|Граф вычислений]] слоя пакетной нормализации алгоритмом обратного распространения ошибки. Слева-направо черными стрелками показана работа алгоритма в прямом направлении. А справа-налево красными стрелками {{---}} в обратном направлении, где вычисляется градиент функции потерь. Здесь <tex>N=m</tex> и <tex>D=d</tex>. Иллюстрация из [https://kratzert.github.io/2016/02/12/understanding-the-gradient-flow-through-the-batch-normalization-layer.html статьи].]] Для обучения нейронных сетей необходимо вычислять [[wikipedia:ru:Градиент|градиент]] [[wikipedia:en:Loss_function|функции потерь]] <tex>l</tex>. В случае использования метода пакетной нормализации градиент вычисляется следующим образом: <tex>\displaystyle \frac{\partial l}{\partial \hat{x}_{i}} = \frac{\partial l}{\partial y_{i}} \cdot \gamma</tex> <tex> (1)</tex> <tex>\displaystyle \frac{\partial l}{\partial \sigma_{B}^{2}} = \sum_{i=1}^{m}\frac{\partial l}{\partial \hat{x}_{i}} \cdot (x_{i} - \mu_{B}) \cdot \frac{-1}{2}(\sigma_{B}^{2} + \epsilon)^{-3/2}</tex> <tex> (2)</tex>

<tex>\displaystyle \frac{\partial l}{\partial \mu_{B}} =\left(\sum_{i=~~Обучение нейронных сетей с нормализацией батчей==[[Файл:BNcircuit.png|700px|thumb|Рисунок~~ 1}^{m}\frac{\partial l}{\partial \hat{x}_{i}} \cdot \frac{-1}{\sqrt{\sigma_{B}^{2} + \epsilon}}\right) + \frac{\partial l}{\partial \sigma_{B}^{2. [[Настройка_глубокой_сети#Граф вычислений|Граф вычислений]] слоя нормализации батчей алгоритмом обратного распространения ошибки. Слева-направо черными стрелками показана работа алгоритма в прямом направлении. А справа-налево красными стрелками }} \cdot \frac{\sum_{i=1}^{m}-2(x_{i}--\mu_{B})} ~~в обратном направлении, где вычисляется градиент функции потерь. Здесь <tex>N=~~{m}</tex> и <tex>~~D=d~~(3)</tex>~~. Иллюстрация из [https://kratzert.github.io/2016/02/12/understanding-the-gradient-flow-through-the-batch-normalization-layer.html статьи].]]~~

Для обучения нейронных сетей необходимо вычислять [[wikipedia:ru:Градиент|градиент]] [[wikipedia:en:Loss_function|функции потерь]] <tex>\displaystyle \frac{\partial l}{\partial x_{i}} = \frac{\partial l}{\partial \hat{x}_{i}} \cdot \frac{1}{\sqrt{\sigma_{B}^{2} + \epsilon}} + \frac{\partial l}{\partial \sigma_{B}^{2}} \cdot \frac{2(x_{i}-\mu_{B})}{m} + \frac{\partial l}{\partial \mu_{B}} \cdot \frac{1}{m}</tex> <tex> (4)</tex>~~. В случае использования метода нормализации батчей градиент вычисляется следующим образом:~~

<tex>\displaystyle \frac{\partial l}{\partial \~~hat{x~~gamma}_= \sum_{i=1}^{m} = \frac{\partial l}{\partial y_{i}} \cdot \~~gamma~~hat{x}_{i}</tex> <tex> (5)</tex>

<tex>\displaystyle \frac{\partial l}{\partial \~~sigma_{B}^{2}~~beta} = \sum_{i=1}^{m}\frac{\partial l}{\partial ~~\hat{x}_~~y_{i}} ~~\cdot~~ </tex> <tex> (~~x_{i} - \mu_{B}~~6) ~~\cdot \frac{-1}{2}(\sigma_{B}^{2} + \epsilon)^{-3/2}~~</tex>

~~<tex>\displaystyle \frac{\partial l}{\partial \mu_{B}} = \left(\sum_{i=1}^{m}\frac{\partial l}{\partial \hat{x}_{i}} \cdot \frac{-1}{\sqrt{\sigma_{B}^{~~На Рисунке 2~~} + \epsilon}}\right) + \frac{\partial l}{\partial \sigma_{B}^{2}} \cdot \frac{\sum_{i=1}^{m}-2(x_{i}-\mu_{B})}{m}</tex>~~изображен [[Настройка_глубокой_сети#Граф вычислений|граф вычислений]] слоя пакетной нормализации алгоритмом обратного распространения ошибки.

В прямом направлении, как и описано в алгоритме метода, из входа <tex>x</tex> вычисляется среднее значение по каждой размерности признакового пространства. Затем полученный вектор средних значение вычитается из каждого элемента обучающей выборки. Далее вычисляется дисперсия, и с помощью нее вычисляется знаменатель для нормализации. Затем полученное значение инвертируется и умножается на разницу входа <tex>~~\displaystyle \frac{\partial l}{\partial x_{i}} = \frac{\partial l}{\partial \hat{~~x~~}_{i}}~~ </tex> и средних значений. В конце применяются параметры <tex>\~~cdot \frac{1}{\sqrt{\sigma_{B}^{2} + \epsilon}} + \frac{\partial l}{\partial \sigma_{B}^{2}} \cdot \frac{2(x_{i}-\mu_{B})}{m} + \frac{\partial l}{\partial \mu_{B}} \cdot~~ gamma</tex> и <tex>\~~frac{1}{m}~~beta</tex>.

В обратном направлении вычисляются производные необходимых функций. В следующей таблице подробнее изображены шаги вычисления градиента функции потерь (иллюстрации из [https://kratzert.github.io/2016/02/12/understanding-the-gradient-flow-through-the-batch-normalization-layer.html статьи], здесь <tex>~~\displaystyle \frac{\partial l}{\partial \gamma}~~ N= ~~\sum_{i~~m</tex> и <tex>D=~~1}^{m}\frac{\partial l}{\partial y_{i}} \cdot \hat{x}_{i}~~d</tex>):

{| cellpadding = "20" class = "wikitable"! Шаг !! Изображение !! Описание|-| style = "text-align: center" | 1|[[Файл:step9.png|300px]]|Сначала вычисляется производная по параметру <tex>~~\displaystyle \frac{\partial l}{\partial~~ \beta} </tex>, как в уравнении <tex>(6)</tex>, так как к нему применяется только операции суммирования. И значение градиента выхода передается без изменений.|-| style = "text-align: center" | 2|[[Файл:step8.png|300px]]|Далее, пользуясь правилом вычисления производной при умножении, как в уравнении <tex>(5)</tex>, вычисляется градиент по параметру <tex>\~~sum_{i~~gamma</tex>. Градиент выхода умножается на данную константу, получая уравнение <tex>(1)</tex>, и передается в следующий узел.|-| style = "text-align: center" | 3|[[Файл:step7.png|300px]]|Данный шаг вычисляется аналогично предыдущему, применяя правило вычисления производной при умножении.|-| style = "text-align: center" | 4|[[Файл:step6.png|300px]]|Пользуясь производной обратной величины, вычисляем следующий узел графа.|-| style =~~1}^{m}~~"text-align: center" | 5|[[Файл:step5.png|300px]]|Вычисляем производную квадратного корня с добавлением <tex>\~~frac{\partial l}{\partial y_{i}}~~epsilon</tex>.|-| style = "text-align: center" | 6|[[Файл:step4.png|300px]]|Вычисляем производную суммы по всем компонентам входного вектора, получая матрицу.|-| style = "text-align: center" | 7|[[Файл:step3.png|300px]]|Получаем производную квадрата входящей функции.|-| style = "text-align: center" | 8|[[Файл:step2.png|300px]]|На данном шаге в одном узле сходятся ветки, поэтому полученные производные просто складываются, получая уравнение <tex>(2)</tex> для производной по дисперсии.|-| style = "text-align: center" | 9|[[Файл:step1.png|300px]]|Аналогично шагу 6 вычисляем матрицу по сумме для производной по математическому ожиданию, получая формулу <tex>(3)</tex>.|-| style = "text-align: center" | 10|[[Файл:step0.png|300px]]|В начальной вершине получаем уравнение <tex>(4)</tex>, складывая входящие производные.|}

==~~Нормализация батчей~~ Пакетная нормализация в [[Сверточные нейронные сети | свёрточных сетях]]==~~Нормализация батчей~~ Пакетная нормализация может быть применена к любой функции активации. Рассмотрим подробнее случай аффинного преобразования с некоторой нелинейной функцией:

<tex>z = g(Wu + b)</tex>,

где <tex>W</tex> и <tex>b</tex> {{---}} настраиваемые параметры модели, а <tex>g(\cdot)</tex> {{---}} некоторая нелинейная функция, например [[Практики реализации нейронных сетей#Sigmoid function|cигмоида]] или [[Практики реализации нейронных сетей#Rectified Linear Units (ReLU)|ReLU]]. Данной функцией можно описать как обычные, так и сверточные слои нейронных сетей. ~~Нормализация батчей~~ Пакетная нормализация применяется сразу перед функцией <tex>g(\cdot)</tex> к <tex>x = Wu + b</tex>. Параметр <tex>b</tex> может быть опущен, так как в дальнейших вычислениях его роль будет играть параметр <tex>\beta</tex>. Поэтому <tex>z = g(Wu + b)</tex> может быть записано так:

<tex>z = g(BN(Wu))</tex>,

где <tex>BN</tex> применяется отдельно к каждой размерности <tex>x=Wu</tex> с отдельной парой параметров <tex>\gamma^{(k)}</tex> и <tex>\beta^{(k)}</tex> для каждой размерности.

В случае свёрточных сетей, дополнительно необходима нормализация, чтобы удовлетворить свойство свёрточных сетей, что различные элементы в разных местах одной карты признаков (образ операции свёртки, англ. feature map) должны быть ~~нормализованны~~ нормализованы одинаково. Чтобы этого добиться, нормализация выполняется совместно над всеми значениями в ~~батче~~пакете. Пусть <tex>B</tex> {{---}} множество всех значений в карте признаков по всему ~~батчу~~ пакету и всем точкам в карте признаков. Тогда для ~~батча~~ пакета размера <tex>m</tex> и карты признаков размера <tex>p \times q</tex> размер <tex>B</tex> равен <tex>m'=|B|=m \cdot pq</tex>. Тогда параметры <tex>\gamma^{(k)}</tex> и <tex>\beta^{(k)}</tex> настраиваются для каждой карты признаков отдельно.

==Пример==

[[File:bn_exp_1.png|300px|thumb|Рисунок 3. Точность распознавания в зависимости от итерации обучения. Оранжевая кривая изображает результаты для модели с использованием пакетной нормализации ~~батчей~~, синяя кривая {{---}} без. Иллюстрация из [https://github.com/udacity/deep-learning/blob/master/batch-norm/Batch_Normalization_Lesson.ipynb статьи].]]

[[File:bn_exp_2.png|300px|thumb|Рисунок 4. Точность распознавания в зависимости от итерации обучения c использованием сигмоиды в качетсве функции активации. Иллюстрация из [https://github.com/udacity/deep-learning/blob/master/batch-norm/Batch_Normalization_Lesson.ipynb статьи].]]

Приведем пример демонстрирующий работу пакетной нормализации ~~батчей~~.

Рассмотрим задачу распознавания рукописных цифр на известном датасете MNIST <ref>[http://yann.lecun.com/exdb/mnist/ Датасет MNIST]</ref>.

Для решения задачи будет использоваться обычная нейронная сеть с <tex>3</tex> скрытыми полносвязными слоями по <tex>100</tex> узлов в каждом.

Функция активации {{---}} ReLU.

Выходной слой содержит <tex>10</tex> узлов.

Размер ~~батча~~ пакета равен <tex>60</tex>. Сравниваются две одинаковые модели, но в первой перед каждым скрытым слоем используется пакетная нормализация ~~батчей~~, а во второй {{---}} нет. ~~Коэффициент скорости~~ Темп обучения равен <tex>0.01</tex>.

Веса инициализированы значениями с малой дисперсией.

На Рисунке 3 изображены два графика, показывающие разницу между моделями.

Как видно, обе модели достигли высокой точности, но модель с использованием пакетной нормализации ~~батчей~~ достигла точности более <tex>90\%</tex> быстрее, почти сразу, и достигла максимума, примерно, уже на <tex>10000</tex> итераций. Однако, модель без пакетной нормализации ~~батчей~~ достигла скорости обучения примерно <tex>510</tex> ~~батчей~~ пакетов в секунду, а модель с использованием пакетной нормализации ~~батчей~~ {{---}} <tex>270</tex>. Однако, как можно видеть, пакетная нормализация ~~батчей~~ позволяет выполнить меньшее количество итераций и, в итоге, сойтись за меньшее время.

На Рисунке 4 изображен график, сравнивающий точно такие же модели, но с использованием сигмоиды в качестве функции активации.

Такая конфигурация моделей требует большего времени, чтобы начать обучение.

В итоге, модель обучается, но на это потребовалось более <tex>45000</tex> итераций, чтобы получить точность более <tex>80\%</tex>.

При использовании пакетной нормализации ~~батчей~~ получилось достичь точность более <tex>90\%</tex> примерно за <tex>1000</tex> итераций.

==Реализации==

Механизм пакетной нормализации ~~батчей~~ реализован практически во всех современных инструментариях для машинного обучения, таких как: TensorFlow <ref>[https://www.tensorflow.org/api_docs/python/tf/layers/batch_normalization TensorFlow]</ref>, Keras <ref>[https://keras.io/layers/normalization/ Keras]</ref>, CNTK <ref>[https://docs.microsoft.com/en-us/cognitive-toolkit/BatchNormalization CNTK]</ref>, Theano <ref>[http://deeplearning.net/software/theano/library/tensor/nnet/bn.html Theano]</ref>, PyTorch <ref>[https://pytorch.org/docs/stable/_modules/torch/nn/modules/batchnorm.html PyTorch]</ref> и т.д.

Приведем пример<ref>[https://towardsdatascience.com/batch-normalization-theory-and-how-to-use-it-with-tensorflow-1892ca0173ad Batch normalization: theory and how to use it with Tensorflow]</ref> применения пакетной нормализации ~~батчей~~ с использованием библиотеки TensorFlow на языке программирования Python <ref>[https://www.python.org/ Язык программирования Python]</ref>:

'''import ''' tensorflow '''as ''' tf # ...

is_train = tf.placeholder(tf.bool, name="is_train");

# ...

x_norm = tf.layers.batch_normalization(x, training=is_train)

# ...

update_ops = tf.get_collection(tf.GraphKeys.UPDATE_OPS)

'''with ''' tf.control_dependencies(update_ops):

train_op = optimizer.minimize(loss)

==Модификации==

Существует несколько модификаций и вариаций метода пакетной нормализации ~~батчей~~:# ~~В работе Тима Койманса~~Тим Койманс<ref>[https://arxiv.org/pdf/1603.09025.pdf Cooijmans T. {{---}} Recurrent batch normalization, 2016]</ref> ~~был предложен~~ в 2016 г. предложил способ применения пакетной нормализации ~~батчей~~ к [[Рекуррентные нейронные сети|рекуррентным нейронным сетям]]~~[на 10.01.18 не создан].~~;# Расширение метода пакетной нормализации ~~батчей~~ было предложено Ликси Хуангом<ref>[https://arxiv.org/pdf/1804.08450.pdf Huang L. {{---}} Decorrelated Batch Normalization, 2018]</ref>в 2018 г. Метод получил название декоррелированная пакетная нормализация ~~батчей~~ (англ. Decorrelated Batch Normalization). В данном методе кроме операций масштабирования и сдвига была предложено использование специальной функции затирания данных. ; # Джимми Лей Ба<ref>[https://arxiv.org/pdf/1607.06450.pdf Ba J. L., Kiros J. R., Hinton G. E. {{---}} Layer normalization, 2016]</ref> в 2016 г. предложил метод нормализации слоев (англ. Layer Normalization), который решает проблему выбора размера ~~батча.~~пакета;# В работе Сергея Иоффе<ref>[https://arxiv.org/pdf/1702.03275.pdf Ioffe S. {{---}} Batch renormalization: Towards reducing minibatch dependence in batch-normalized models, 2017]</ref> в 2017 г. было представлено расширение метода пакетной нормализации ~~батчей~~: пакетная ренормализация ~~батчей~~ (англ. Batch Renormalization). Данный метод улучшает пакетную нормализацию ~~батчей~~, когда размер ~~батчей~~ пакетов мал и не состоит из независимых данных.;# Метод потоковой нормализации (англ. Streaming Normalization) был предложен ~~Кифэн~~ Кифэном Ляо<ref>[https://arxiv.org/pdf/1610.06160.pdf Liao Q., Kawaguchi K., Poggio T. {{---}} Streaming normalization: Towards simpler and more biologically-plausible normalizations for online and recurrent learning, 2016]</ref>в 2016 г. Данный метод убирает два ограничения пакетной нормализации ~~батчей~~: использование при [[wikipedia:ru:~~Online_machine_learning~~Онлайновое_обучение_машин|online-обучении]] и использование в рекуррентных нейронных сетях.

==См. также==

*[[:Глубокое обучение|Глубокое обучение]]

*[[:Практики реализации нейронных сетей|Практики реализации нейронных сетей]]

*[[:Настройка глубокой сети|Настройка глубокой сети]]~~[на 10.01.18 не создан]~~

== Примечания ==

* [https://medium.com/@SeoJaeDuk/deeper-understanding-of-batch-normalization-with-interactive-code-in-tensorflow-manual-back-1d50d6903d35 Deeper Understanding of Batch Normalization with Interactive Code in Tensorflow]

* [https://www.learnopencv.com/batch-normalization-in-deep-networks/ Batch Normalization in Deep Networks]

* [https://github.com/udacity/deep-learning/blob/master/batch-norm/Batch_Normalization_Lesson.ipynb Batch Normalization {{---}} Lesson]

[[Категория: Машинное обучение]]

Анонимный участник

185.129.96.75

Изменения

Batch-normalization

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты