Изменения

Перейти к: навигация, поиск

Механизм внимания

284 байта добавлено, 13:12, 22 марта 2020
Нет описания правки
'''Механизм внимания''' (англ. ''attention mechanism'', ''attention model'') {{---}} техника используемая в [[:Рекуррентные_нейронные_сети|рекуррентных нейронных сетях]] (сокр. ''RNN'') и [[:Сверточные_нейронные_сети|сверточных нейронных сетях]] (сокр. ''CNN'') для поиска взаимосвязей между различными частями входных и выходных данных. (или проще для "обращения внимания" на определенные части входных данных в зависимости от текущего контекста.(как лучше?))
Изначально механизм внимания был представлен в контексте [[:Рекуррентные_нейронные_сети|рекуррентных]] ''Seq2seq'' сетей <ref>https://arxiv.org/abs/1409.0473 статье</ref> для "обращения внимания" блоков декодеров на скрытые состояния [[:Рекуррентные_нейронные_сети|RNN]] энкодера для любой итерации, а не только последней.
==Обобщенный механизм внимания==
[[File:AttentionGeneral.png|350px|thumb|Обобщенное описание механизма внимания]]
'''Обобщенный механизм внимания''' (англ. general attention) {{---}}
[[:Рекуррентные_нейронные_сети|RNN]] используются при обработке данных, для которых важна их последовательность. В классическом случае применения [[:Рекуррентные_нейронные_сети|RNN]] результатом является только последнее скрытое состояние <math>h_m</math>, где <math>m</math> {{---}} длина последовательности входных данных. Использование механизма внимания позволяет использовать информацию полученную не только из последнего скрытого состояния, но и любого скрытого состояния <math>h_t</math> для любого <math>t</math>.
162
правки

Навигация