210
правок
Изменения
Нет описания правки
Данные параметры настраиваются в процессе обучения вместе с остальными гиперпараметрами модели.
Пусть, обучение модели производится с помощью батчей <tex>B</tex> размера <tex>m</tex>: <tex>B = \{x_{1,\ldots, m}\}</tex>. Здесь нормализация применяется к каждой компоненте входа с номером <tex>k</tex> отдельно, поэтому в <tex>x^{(k)}</tex> индекс опускается для ясностиизложения. Пусть, были получены нормализованные значения батча <tex>\hat{x}_{1,\ldots, m}</tex>. Далее, после применения операций сжатия и сдвига были получены <tex>y_{1,\ldots, m}</tex>. Обозначим данную функцию нормализации батчей следующим образом: <tex>BN_{\gamma, \beta}: x_{1,\ldots, m} \rightarrow y_{1,\ldots, m}</tex> Тогда, алгоритм нормализации батчей можно представить так: ''<font color="green"></font>'' '''Вход''': значения <tex>x</tex> из батча <tex>B = \{x_{1,\ldots, m}\}</tex>; настраиваемые параметры <tex>\gamma, \beta</tex>; константа <tex>\epsilon</tex> для вычислительной устойчивости. '''Выход''': <tex>\{y_{i} = BN_{\gamma, \beta}(x_{i})\}</tex> <tex>\mu_{B} = \displaystyle \frac{1}{m} \sum_{i=1}^{m} x_{i}</tex> // математическое ожидание батча <tex>\sigma_{B}^{2} = \displaystyle \frac{1}{m} \sum_{i=1}^{m} (x_{i} - \mu_{B})^{2}</tex> // дисперсия батча <tex>\hat{x}_{i} = \displaystyle \frac{x_{i} - \mu_{B}}{\sqrt{\sigma_{B}^{2} + \epsilon}}</tex> // нормализация <tex>y_{i} = \gamma \hat{x}_{i} + \beta \equiv BN_{\gamma, \beta}(x_{i}) </tex> // сжатие и сдвиг
== Примечания ==
<references/>