Изменения

Перейти к: навигация, поиск

Механизм внимания

178 байт добавлено, 12:25, 22 марта 2020
Нет описания правки
'''Механизм внимания''' (англ. ''attention mechanism'', ''attention model'') {{---}} техника используемая в [[:Рекуррентные_нейронные_сети|рекуррентных нейронных сетях]] (сокр. ''RNN'') и [[:Сверточные_нейронные_сети|сверточных нейронных сетях]] (сокр. ''CNN'') для "обращения внимания" на определенные части входных данных в зависимости от текущего контекста.
Изначально механизм внимания был представлен в контексте [[:Рекуррентные_нейронные_сети|рекуррентных]] ''Seq2seq'' сетей <ref>https://arxiv.org/abs/1409.0473 статье</ref> для обращения внимания блоков декодеров на скрытые состояния [[:Рекуррентные_нейронные_сети|RNN]] энкодера для любой итерации, а не только последней. Успех этого подхода обусловлен лучшим был обусловлен лучшим выводом закономерностей между словами находящимися на большом расстоянии друг от друга в задаче машинного перевода. Несмотря на то, что ''LSTM'' и ''GRU'' блоки используются именно для улучшения передачи информации с предыдущих итераций ''RNN'' их основная проблема заключается в том, что влияние предыдущих состояний на текущее уменьшается экспоненциально, в то же время механизм внимания улучшает этот показатель до линейного.
После успеха этой методики в машинном переводе последовали ее внедрения в других задачах [[:Обработка_естественного_языка|обработки естественного языка]] и применения к [[:Сверточные_нейронные_сети|CNN]] для генерации описания изображения<ref>https://arxiv.org/abs/1502.03044</ref> и GAN <ref>SAGAN</ref>.
Результатом работы слоя внимания является <math>c</math> который, содержит в себе информацию обо всех скрытых состоянях <math>h_i</math> пропорционально оценке <math>e_i</math>.
== Пример использования для архитектуры задачи машинного перевода в ''Seq2seq'' сетях==
Пример добавления механизма внимания в ''Seq2seq'' сеть поможет лучше понять его предназначение.
Изначально в оригинальной статье<ref>[https://arxiv.org/abs/1409.0473 Neural Machine Translation by Jointly Learning to Align and Translate]</ref> применяется , представляющей механизм внимания , он применяется в контексте именно Seq2seq сетив задаче машинного перевода.
Несмотря на то, что нейронные сети рассматриваются как "черный ящик" и интерпретировать их внутренности в понятных человеку терминах часто невозможно, все же механизм внимания интуитивно понятный людям смог улучшить результаты машинного перевода для алгоритма используемого в статье.
 
Успех этого использования этого подхода в задаче машинного перевода обусловлен лучшим выводом закономерностей между словами находящимися на большом расстоянии друг от друга. Несмотря на то, что ''LSTM'' и ''GRU'' блоки используются именно для улучшения передачи информации с предыдущих итераций ''RNN'' их основная проблема заключается в том, что влияние предыдущих состояний на текущее уменьшается экспоненциально от расстояния между словами, в то же время механизм внимания улучшает этот показатель до линейного.
=== Базовая архитектура ''Seq2seq'' ===
162
правки

Навигация