Участник:Gpevnev — различия между версиями

Версия 14:09, 21 марта 2020

Механизм внимания в рекуррентных нейронных сетях (англ. attention mechanism, attention model) — дополнительный слой используемый в рекуррентных нейронных сетях для "обращения внимания" последующих слоев сети на скрытое состояние нейронной сети [math]h_t[/math] в момент времени [math]t[/math].

Содержание

1 Обобщенное описание
2 Пример использования для архитектуры Seq2Seq
- 2.1 Базовая архитектура Seq2Seq
3 См. также
4 Примечания

Обобщенное описание

Рекуррентные нейронные сети используются при обработке данных, для которых важна их последовательность. В классическом случае применения РНН как результат используется только последнее скрытое состояние [math]h_m[/math], где [math]m[/math] - длинна последовательности входных данных. Использование механизма внимания позволяет использовать информацию полученную не только из последнего скрытого состояниния, но и из скрытого расстояния [math]h_t[/math] для любого [math]t[/math].

Обычно слой использующийся для механизма внимания представляет собой обычную, чаще всего однослойную нейронную сеть на вход которой подаются [math]h_t, t = 1 \ldots m[/math], а также вектор [math]d[/math] в котором содержится некий контекст зависящий от конкретно задачи (пример [math]d[/math] для задачи машинного перевода использующего Seq2Seq арихитектуру есть ниже).

Выходом данного слоя будет являтся последовательность [math]s_i, i = 1 \ldots m[/math] - оценки на основании которых на скрытое состояние [math]h_i[/math] будет "обращено внимание".

Далее для нормализации значений [math]s[/math] используется [math]softmax[/math]. Тогда [math]e = softmax(s)[/math]

Далее считается [math]СV[/math] (англ. context vector) [math]СV = \sum_1^m e_i h_i[/math]

Резултатом работы слоя внимания является [math]CV[/math] который содержит в себе информацию обо всех скрытых состоянях [math]h_i[/math] пропорционально оценке [math]e_i[/math].

Пример использования для архитектуры Seq2Seq

Базовая архитектура Seq2Seq

Данный пример рассматривает применение механизма внимания в задаче машинного перевода в применении к архитектуре Seq2Seq.

Seq2Seq состоит из двух РНН - Encoder и Decoder.

Encoder — принимает предложение на языке A и сжимает его в вектор скрытого состояния. Decoder — выдает слово на языке B, принимает последнее скрытое состояние из энкодера и предыдущее предыдущее предсказаное слово.

При добавлении механизма в данную архитектуру между РНН Encoder и Decoder слоя механизма внимания процесс

См. также

Примечания

@@ Строка 15: / Строка 15: @@
 == Пример использования для архитектуры Seq2Seq ==
+=== Базовая архитектура Seq2Seq ===
+[[File:Seq2SeqBasic.png|450px|thumb]]
 Данный пример рассматривает применение механизма внимания в задаче машинного перевода в применении к архитектуре ''Seq2Seq''.
@@ Строка 21: / Строка 25: @@
 ''Encoder'' {{---}} принимает предложение на языке ''A'' и сжимает его в вектор скрытого состояния.
 ''Decoder'' {{---}} выдает слово на языке ''B'', принимает последнее скрытое состояние из энкодера и предыдущее предыдущее предсказаное слово.
-''TODO:'' картинку про базовый Seq2Seq сюда.

Участник:Gpevnev — различия между версиями

Версия 14:09, 21 марта 2020

Содержание

Обобщенное описание

Пример использования для архитектуры Seq2Seq

Базовая архитектура Seq2Seq

См. также

Примечания

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты