Участник:Gpevnev — различия между версиями
(Новая страница: «'''Механизм внимания в рекуррентных нейронных сетях''' (англ. ''attention mechanism'', ''attention model'') {{---}}…») |
|||
Строка 23: | Строка 23: | ||
''TODO:'' картинку про базовый Seq2Seq сюда. | ''TODO:'' картинку про базовый Seq2Seq сюда. | ||
+ | |||
+ | |||
+ | При добавлении механизма в данную архитектуру между [[:Рекуррентные_нейронные_сети|РНН]] ''Encoder'' и ''Decoder'' слоя механизма внимания процесс | ||
+ | |||
+ | ==См. также== | ||
+ | *[[:Сверточные_нейронные_сети|Сверточные нейронные сети]] | ||
+ | *[[:Нейронные_сети,_перцептрон|Нейронные сети, перцептрон]] | ||
+ | *[[:Рекуррентные_нейронные_сети|Рекуррентные нейронные сети]] | ||
+ | |||
+ | ==Примечания== | ||
+ | <references/> | ||
+ | |||
+ | [[Категория: Машинное обучение]] | ||
+ | [[Категория: Нейронные сети]] | ||
+ | [[Категория: Рекуррентные нейронные сети]] |
Версия 13:27, 21 марта 2020
Механизм внимания в рекуррентных нейронных сетях (англ. attention mechanism, attention model) — дополнительный слой используемый в рекуррентных нейронных сетях для "обращения внимания" последующих слоев сети на скрытое состояние нейронной сети в момент времени .
Содержание
Обобщенное описание
Рекуррентные нейронные сети используются при обработке данных, для которых важна их последовательность. В классическом случае применения РНН как результат используется только последнее скрытое состояние , где - длинна последовательности входных данных. Использование механизма внимания позволяет использовать информацию полученную не только из последнего скрытого состояниния, но и из скрытого расстояния для любого .
Обычно слой использующийся для механизма внимания представляет собой обычную, чаще всего однослойную нейронную сеть на вход которой подаются
, а также вектор в котором содержится некий контекст зависящий от конкретно задачи (пример для задачи машинного перевода использующего Seq2Seq арихитектуру есть ниже).Выходом данного слоя будет являтся последовательность
- оценки на основании которых на скрытое состояние будет "обращено внимание".Далее для нормализации значений
используется . ТогдаДалее считается
(англ. context vector)Резултатом работы слоя внимания является
который содержит в себе информацию обо всех скрытых состоянях пропорционально оценке .Пример использования для архитектуры Seq2Seq
Данный пример рассматривает применение механизма внимания в задаче машинного перевода в применении к архитектуре Seq2Seq.
Seq2Seq состоит из двух РНН - Encoder и Decoder.
Encoder — принимает предложение на языке A и сжимает его в вектор скрытого состояния. Decoder — выдает слово на языке B, принимает последнее скрытое состояние из энкодера и предыдущее предыдущее предсказаное слово.
TODO: картинку про базовый Seq2Seq сюда.
При добавлении механизма в данную архитектуру между РНН Encoder и Decoder слоя механизма внимания процесс