Изменения

Механизм внимания

1206 байт добавлено, 12:05, 22 марта 2020

Нет описания правки

'''Механизм внимания ~~в рекуррентных нейронных сетях~~''' (англ. ''attention mechanism'', ''attention model'') {{---}} ~~дополнительный слой используемый~~ техника используемая в [[:Рекуррентные_нейронные_сети|рекуррентных нейронных сетях]] (сокращенно ''RNN'') и [[:Сверточные_нейронные_сети|сверточных нейронных сетях]] (сокр. ''CNN'') для "обращения внимания" ~~последующих слоев сети~~ на ~~скрытое состояние нейронной сети <math>h_t</math>~~ определенные части входных данных в ~~момент времени <math>t</math>~~зависимости от текущего контекста.

~~Изначально механизм внимания был представлен в [https:~~слоев сети на скрытое состояние нейронной сети <math>h_t<//arxiv.org/abs/1409.0473 статье] описывыющей данную технику и ее [[:Механизм_внимания#Пример использования для архитектуры Seq2seq|применение]] именно math> в ~~''Seq2seq''~~момент времени <~~ref~~math>~~[https://en.wikipedia.org/wiki/Seq2seq Wiki -- Seq2seq]~~t</~~ref~~math> сетях и лишь позже был использован в [https://arxiv.org/abs/1502.03044 статье] применительно к генерации описания изображений.

Изначально механизм внимания был представлен в [https://arxiv.org/abs/1409.0473 статье] описывыющей данную технику и ее [[:Механизм_внимания#Пример использования для архитектуры Seq2seq|применение]] именно в ''Seq2seq''<ref>[https://en.wikipedia.org/wiki/Seq2seq Wiki -- ''Seq2seq'']</ref> сетях и лишь позже был использован в [https://arxiv.org/abs/1502.03044 статье] применительно к генерации описания изображений.

Изначально механизм внимания был представлен в контексте [[:Рекуррентные_нейронные_сети|рекуррентных]] ''Seq2seq'' сетей <ref>https://arxiv.org/abs/1409.0473 статье</ref> и был использован для лучшего вывода закономерностей между словами находящимися на большом расстоянии друг от друга в задаче машинного перевода. После успеха этой методики в машинном переводе последовали ее внедрения в других задачах [[:Обработка_естественного_языка|обработки естественного языка]] и применения к [[:Сверточные_нейронные_сети|CNN]] для генерации описания изображения<ref>https://arxiv.org/abs/1502.03044</ref> и GAN <ref>SAGAN</ref>.

== Обобщенное описание ==

[[File:AttentionGeneral.png|350px|thumb|Обобщенное описание механизма внимания]]

[[:Рекуррентные_нейронные_сети|RNN]] используются при обработке данных, для которых важна их последовательность. В классическом случае применения [[:Рекуррентные_нейронные_сети|RNN]] результатом является только последнее скрытое состояние <math>h_m</math>, где <math>m</math> {{---}} длина последовательности входных данных. Использование механизма внимания позволяет использовать информацию полученную не только из последнего скрытого состояниния, но и любого скрытого состояния <math>h_t</math> для любого <math>t</math>.

Обычно слой использующийся для механизма внимания представляет собой обычную, чаще всего однослойную, нейронную сеть на вход которой подаются <math>h_t, t = 1 \ \ldots m</math>, а также вектор <math>d</math> в котором содержится некий контекст зависящий от конкретно задачи.

Выходом данного слоя будет являтся вектор <math>s</math> (англ. ''score'') {{---}} оценки на основании которых на скрытое состояние <math>h_i</math> будет "обращено внимание".

Gpevnev

162

правки

Изменения

Механизм внимания

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты