Изменения

Перейти к: навигация, поиск

Batch-normalization

199 байт убрано, 18:43, 22 января 2019
Обучение нейронных сетей с пакетной нормализацией
В обратном направлении вычисляются производные необходимых функций. Иллюстрации из [https://kratzert.github.io/2016/02/12/understanding-the-gradient-flow-through-the-batch-normalization-layer.html статьи], здесь <tex>N=m</tex> и <tex>D=d</tex>.
<gallery mode{| cellpadding ="nolines20" widths=350px heights=350px captionclass ="Шаги для вычисления градиента функции потерь.wikitable">Файл:step9.png|Шаг 9.Файл:step8.png|Шаг 8.! Изображение !! ОписаниеФайл:step7.png|Шаг 7.-Файл:step6.png|Шаг 6.[[Файл:step5step9.png|Шаг 5.300px]]Файл:step4.png|Шаг 4.Файл:step3.png|Шаг 3.Файл:step2.png|Шаг 2.Файл:step1.png|Шаг 1.Файл:step0.png|Шаг 0.</gallery> * '''Шаг 9''': Сначала вычисляется производная по параметру <tex>\beta</tex>, как в уравнении <tex>(6)</tex>, так как к нему применяется только операции суммирования. И значение градиента выхода передается без изменений.* '''Шаг 8'''|-|[[Файл: step8.png|300px]]|Далее, пользуясь правилом вычисления производной при умножении, как в уравнении <tex>(5)</tex>, вычисляется градиент по параметру <tex>\gamma</tex>, и градиент выхода умножается на данную константу.* '''Шаг 7'''|-|[[Файл: step7.png|300px]]|Данный шаг вычисляется аналогично предыдущему, получая уравнение <tex>(1)</tex>.* '''Шаг 6'''|-|[[Файл: step6.png|300px]]|Пользуясь производной обратной величины, вычисляем следующий узел графа.* '''Шаг 5'''|-|[[Файл: step5.png|300px]]|Вычисляем производную квадратного корня с добавлением <tex>\epsilon</tex>.* '''Шаг 4'''|-|[[Файл: step4.png|300px]]|Вычисляем производную суммы по всем компонентам входного вектора, получая матрицу.* '''Шаг 3'''|-|[[Файл: step3.png|300px]]|Получаем производную квадрата.* '''Шаг 2'''|-|[[Файл: step2.png|300px]]|На данном шаге в одном узле сходятся ветки, поэтому полученные производные просто складываются, получая уравнение <tex>(2)</tex> для дисперсии.* '''Шаг 1'''|-|[[Файл: step1.png|300px]]|Аналогично шагу 4 вычисляем матрицу по сумме для производной по математическому ожиданию, получая формулу <tex>(3)</tex>.* '''Шаг 0'''|-|[[Файл: step0.png|300px]]|В начальной вершине получаем уравнение <tex>(4)</tex>, складывая входящие производные.|}
==Пакетная нормализация в [[Сверточные нейронные сети | свёрточных сетях]]==
Анонимный участник

Навигация