Изменения

Механизм внимания

101 байт добавлено, 12:17, 22 марта 2020

Нет описания правки

'''Механизм внимания''' (англ. ''attention mechanism'', ''attention model'') {{---}} техника используемая в [[:Рекуррентные_нейронные_сети|рекуррентных нейронных сетях]] (сокр. ''RNN'') и [[:Сверточные_нейронные_сети|сверточных нейронных сетях]] (сокр. ''CNN'') для "обращения внимания" на определенные части входных данных в зависимости от текущего контекста.

~~слоев сети~~ Изначально механизм внимания был представлен в контексте [[:Рекуррентные_нейронные_сети|рекуррентных]] ''Seq2seq'' сетей <ref>https://arxiv.org/abs/1409.0473 статье</ref> для обращения внимания блоков декодеров на ~~скрытое состояние нейронной сети~~ скрытые состояния [[:Рекуррентные_нейронные_сети|RNN]] энкодера для любой итерации, а не только последней. Успех этого подхода обусловлен лучшим был обусловлен лучшим выводом закономерностей между словами находящимися на большом расстоянии друг от друга в задаче машинного перевода. Несмотря на то, что ''LSTM'' и ''GRU'' блоки используются именно для улучшения передачи информации с предыдущих итераций ''RNN'' их основная проблема заключается в том, что влияние предыдущих состояний на текущее уменьшается экспоненциально, в то же время механизм внимания улучшает этот показатель до линейного. После успеха этой методики в машинном переводе последовали ее внедрения в других задачах [[:Обработка_естественного_языка|обработки естественного языка]] и применения к [[:Сверточные_нейронные_сети|CNN]] для генерации описания изображения<~~math~~ref>~~h_t~~https://arxiv.org/abs/1502.03044</~~math~~ref> ~~в момент времени~~ и GAN <~~math~~ref>tSAGAN</~~math~~ref>.

Изначально механизм внимания был представлен в [https://arxiv.org/abs/1409.0473 статье] описывыющей данную технику и ее [[:Механизм_внимания#Пример использования для архитектуры Seq2seq|применение]] именно в ''Seq2seq''<ref>[https://en.wikipedia.org/wiki/Seq2seq Wiki -- ''Seq2seq'']</ref> сетях и лишь позже был использован в [https://arxiv.org/abs/1502.03044 статье] применительно к генерации описания изображений.

Изначально механизм внимания был представлен в контексте [[:Рекуррентные_нейронные_сети|рекуррентных]] ''Seq2seq'' сетей <ref>https://arxiv.org/abs/1409.0473 статье</ref> и был использован для лучшего вывода закономерностей между словами находящимися на большом расстоянии друг от друга в задаче машинного перевода. После успеха этой методики в машинном переводе последовали ее внедрения в других задачах [[:Обработка_естественного_языка|обработки естественного языка]] и применения к [[:Сверточные_нейронные_сети|CNN]] для генерации описания изображения<ref>https://arxiv.org/abs/1502.03044</ref> и GAN <ref>SAGAN</ref>.

== Обобщенное описание ==

[[File:AttentionGeneral.png|350px|thumb|Обобщенное описание механизма внимания]]

Gpevnev

162

правки

Изменения

Механизм внимания

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты