Изменения

Перейти к: навигация, поиск

Механизм внимания

12 байт добавлено, 22:47, 21 марта 2020
Нет описания правки
Обычно слой использующийся для механизма внимания представляет собой обычную, чаще всего однослойную, нейронную сеть на вход которой подаются <math>h_t, t = 1 \ \ldots m</math>, а также вектор <math>d</math> в котором содержится некий контекст зависящий от конкретно задачи (пример <math>d</math> для задачи машинного перевода использующего ''Seq2Seq'' арихитектуру).
Выходом данного слоя будет являтся вектор <math>s</math> (англ. ''score'') {{- --}} оценки на основании которых на скрытое состояние <math>h_i</math> будет "обращено внимание".
Далее для нормализации значений <math>s</math> используется <math>softmax</math>. Тогда <math>e = softmax(s)</math>
Данный пример рассматривает применение механизма внимания в задаче машинного перевода в применении к архитектуре ''Seq2Seq''.
''Seq2Seq'' состоит из двух [[:Рекуррентные_нейронные_сети|RNN]] {{- --}} ''Encoder'' и ''Decoder''.
''Encoder'' {{---}} принимает предложение на языке ''A'' и сжимает его в вектор скрытого состояния.
162
правки

Навигация