Изменения

Механизм внимания

12 байт добавлено, 22:47, 21 марта 2020

Нет описания правки

Обычно слой использующийся для механизма внимания представляет собой обычную, чаще всего однослойную, нейронную сеть на вход которой подаются <math>h_t, t = 1 \ \ldots m</math>, а также вектор <math>d</math> в котором содержится некий контекст зависящий от конкретно задачи (пример <math>d</math> для задачи машинного перевода использующего ''Seq2Seq'' арихитектуру).

Выходом данного слоя будет являтся вектор <math>s</math> (англ. ''score'') {{- --}} оценки на основании которых на скрытое состояние <math>h_i</math> будет "обращено внимание".

Далее для нормализации значений <math>s</math> используется <math>softmax</math>. Тогда <math>e = softmax(s)</math>

Данный пример рассматривает применение механизма внимания в задаче машинного перевода в применении к архитектуре ''Seq2Seq''.

''Seq2Seq'' состоит из двух [[:Рекуррентные_нейронные_сети|RNN]] {{- --}} ''Encoder'' и ''Decoder''.

''Encoder'' {{---}} принимает предложение на языке ''A'' и сжимает его в вектор скрытого состояния.

Gpevnev

162

правки

Изменения

Механизм внимания

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты