Изменения

← Предыдущая правка

Механизм внимания

11 881 байт добавлено, 19:16, 4 сентября 2022

м

rollbackEdits.php mass rollback

'''Механизм внимания''' (англ. ''attention mechanism'', ''attention model'') {{---}} техника используемая в [[:Рекуррентные_нейронные_сети|рекуррентных нейронных сетях]] (сокр. ''RNN'') и [[:Сверточные_нейронные_сети|сверточных нейронных сетях]] (сокр. ''CNN'') для ~~"обращения внимания" на определенные части~~ поиска взаимосвязей между различными частями входных и выходных данных ~~в зависимости от текущего контекста~~.

Изначально механизм внимания был представлен в контексте [[:Рекуррентные_нейронные_сети|рекуррентных]] ''Seq2seq'' <ref>[https://en.wikipedia.org/wiki/Seq2seq Wiki -- Seq2seq]</ref> сетей <ref>https://arxiv.org/abs/1409.0473 ~~статье~~</ref> для "обращения внимания" блоков декодеров на скрытые состояния [[:Рекуррентные_нейронные_сети|RNN]] ~~энкодера~~ для любой итерацииэнкодера, а не только последней.

После успеха этой методики в машинном переводе последовали ее внедрения в других задачах [[:Обработка_естественного_языка|обработки естественного языка]] и применения к [[:Сверточные_нейронные_сети|CNN]] для генерации описания изображения<ref>https://arxiv.org/abs/1502.03044</ref> и [[:Generative_Adversarial_Nets_(GAN )|порождающих состязательных сетях]]<ref>~~SAGAN~~https://arxiv.org/abs/1805.08318</ref>(сокр. ''GAN'').

== ~~Обобщенное описание~~ Обобщенный механизм внимания==~~[[File:AttentionGeneral.png|350px|thumb|Обобщенное описание механизма~~ '''Обобщенный механизм внимания]][[:Рекуррентные_нейронные_сети|RNN]] используются при обработке данных, для которых важна их последовательность''' (англ. В классическом случае применения [[:Рекуррентные_нейронные_сети|RNN]] результатом является только последнее скрытое состояние <math>h_m</math>, где <math>m</math> general attention) {{---}} ~~длина последовательности входных данных. Использование~~ разновидность механизма внимания ~~позволяет использовать информацию полученную не только из последнего скрытого состояниния~~, но задачей которой является выявление закономерности между входными и ~~любого скрытого состояния~~ выходными данными. Изначально механизм внимания представленный в оригинальной статье<~~math~~ref>~~h_t<~~https://arxiv.org/abs/~~math> для любого <math>t~~1409.0473</~~math~~ref>подразумевал именно этот тип внимания.

~~Обычно слой использующийся~~ ===Пример использования обобщенного механизма внимания для задачи машинного перевода===Для лучшего понимания работы обобщенного механизма внимания ~~представляет собой обычную, чаще всего однослойную, нейронную сеть на вход~~ будет рассмотрен пример его применения в задаче машинного перевода при помощи Seq2seq сетей для решения которой подаются <math>h_t, t = 1 \ \ldots m</math>, а также вектор <math>d</math> в котором содержится некий контекст зависящий от конкретно задачион изначально был представлен.

====Базовая архитектура ''Seq2seq''====[[File:Seq2SeqBasic.png|350px|thumb|Пример работы базовой ''Seq2seq'' сети]]Для понимания механизма внимания в ''Seq2seq'' сетях необходимо базовое понимание ''Seq2seq'' архитектуры до введения механизма внимания. ''Seq2seq'' состоит из двух [[:Рекуррентные_нейронные_сети|RNN]] {{---}} ''Энкодера'' и ''Декодера''. ''Энкодер'' {{---}} принимает предложение на языке ''A'' и сжимает его в вектор скрытого состояния. ''Декодер'' {{---}} выдает слово на языке ''B'', принимает последнее скрытое состояние энкодера и предыдущее предсказанное слово. Рассмотрим пример работы ''Seq2seq'' сети: <math>x_i</math> {{---}} слова в предложении на языке ''A''. <math>h_i</math> {{---}} скрытое состояние энкодера. ''Блоки энкодера (зеленый)'' {{---}} блоки энкодера получающие на вход <math>x_i</math> и передающие скрытое состояние <math>h_i</math> на следующую итерацию. <math>d_i</math> {{---}} скрытое состояние декодера. <math>y_i</math> {{---}} слова в предложении на языке ''B''. ''Блоки декодера (фиолетовый)'' {{---}} блоки декодера получающие на вход <math>y_{i-1}</math> или специальный токен '''start''' в случае первой итерации и возвращаюшие <math>y_i</math> {{---}} слова в предложении на языке ''B''. Передают <math>d_i</math> {{---}} скрытое состояние декодера на следующую итерацию. Перевод считается завершенным при <math>y_i</math>, равном специальному токену '''end'''. ====Применение механизма внимания для ''Seq2seq''====Несмотря на то, что нейронные сети рассматриваются как "черный ящик" и интерпретировать их внутренности в понятных человеку терминах часто невозможно, все же механизм внимания интуитивно понятный людям смог улучшить качество машинного перевода базового ''Seq2seq'' алгоритма. Успех использования этого подхода в задаче машинного перевода обусловлен лучшим выводом закономерностей между словами находящимися на большом расстоянии друг от друга. Несмотря на то, что [[:Долгая_краткосрочная_память|LSTM и GRU]] блоки используются именно для улучшения передачи информации с предыдущих итераций [[:Рекуррентные_нейронные_сети|RNN]] их основная проблема заключается в том, что влияние предыдущих состояний на текущее уменьшается экспоненциально от расстояния между словами, в то же время механизм внимания улучшает этот показатель до линейного<ref>https://towardsdatascience.com/transformers-141e32e69591</ref>. [[:Рекуррентные_нейронные_сети|RNN]] используются при обработке данных, для которых важна их последовательность. В классическом случае применения [[:Рекуррентные_нейронные_сети|RNN]] результатом является только последнее скрытое состояние <math>h_m</math>, где <math>m</math> {{---}} длина последовательности входных данных. Использование механизма внимания позволяет использовать информацию полученную не только из последнего скрытого состояния, но и любого скрытого состояния <math>h_t</math> для любого <math>t</math>.=====Устройство слоя механизма внимания=====[[File:AttentionGeneral.png|350px|thumb|Обобщенный механизм внимания в [[:Рекуррентные_нейронные_сети|RNN]]]]Слой механизма внимания представляет собой обычную, чаще всего однослойную, нейронную сеть на вход которой подаются <math>h_t, t = 1 \ \ldots m</math>, а также вектор <math>d</math> в котором содержится некий контекст зависящий от конкретной задачи. В случае ''Seq2seq'' сетей вектором <math>d</math> будет являться скрытое состояние <math>d_{i-1}</math> предыдущей итерации декодера. Выходом данного слоя будет ~~являтся~~ является вектор <math>s</math> (англ. ''score'') {{---}} оценки на основании которых на скрытое состояние <math>h_i</math> будет "обращено внимание".

Далее для нормализации значений <math>s</math> используется <math>softmax</math><ref>[https://ru.wikipedia.org/wiki/Softmax Wiki -- Функция softmax]</ref>. Тогда <math>e = softmax(s)</math>

<math>softmax</math> здесь используется ~~благодоря~~ благодаря своим свойствам:

*<math>\forall s\colon\ \sum_{i=1}^n softmax(s)_i = 1, </math>

Результатом работы слоя внимания является <math>c</math> который, содержит в себе информацию обо всех скрытых ~~состоянях~~ состояниях <math>h_i</math> пропорционально оценке <math>e_i</math>.

==~~Пример использования для задачи машинного перевода в~~ ===Применение механизма внимания к базовой ''Seq2seq'' ~~сетях~~архитектуре=====[[File:Seq2SeqAttention.png|350px|thumb|Пример ~~добавления механизма внимания в~~ работы ''Seq2seq'' ~~сеть поможет лучше понять его предназначение.~~ сети с механизмом внимания]]~~Изначально~~ При добавлении механизма в ~~оригинальной статье<ref>~~данную архитектуру между [[~~https~~:~~//arxiv.org/abs/1409.0473 Neural Machine Translation by Jointly Learning to Align and Translate~~Рекуррентные_нейронные_сети|RNN]]~~</ref>, представляющей механизм~~ ''Энкодером'' и ''Декодером'' слоя механизма внимания~~, он применяется в контексте именно Seq2seq сети в задаче машинного перевода.~~получится следующая схема:

~~Несмотря на то~~Здесь <math>x_i, h_i, d_i, y_i</math> имеют те же назначения, что ~~нейронные сети рассматриваются как "черный ящик"~~ и ~~интерпретировать их внутренности~~ в ~~понятных человеку терминах часто невозможно, все же механизм~~ варианте без механизма внимания ~~интуитивно понятный людям смог улучшить результаты машинного перевода для алгоритма используемого в статье~~.

Успех этого использования этого подхода в задаче машинного перевода обусловлен лучшим выводом закономерностей между словами находящимися на большом расстоянии друг от друга. Несмотря на то, что ''~~LSTM~~Агрегатор скрытых состояний энкодера (желтый)'' {{---}} агрегирует в себе все вектора <math>h_i</math> и ''GRU'' блоки используются именно для улучшения передачи информации с предыдущих итераций ''RNN'' их основная проблема заключается в томвозвращает всю последовательность векторов <math>h = [h_1, h_2, ~~что влияние предыдущих состояний на текущее уменьшается экспоненциально от расстояния между словами~~h_3, ~~в то же время механизм внимания улучшает этот показатель до линейного~~h_4]</math>.

~~=== Базовая архитектура ''Seq2seq'' ===[[File:Seq2SeqBasic.png|450px|thumb|Пример работы базовой ''Seq2seq'' сети]]~~Данный пример рассматривает применение механизма внимания в задаче машинного перевода в применении к архитектуре ''Seq2seq''<math>c_i</math> {{---}} вектор контекста на итерации <math>i</math>.

''~~Seq2seq~~Блоки механизма внимания (красный)'' ~~состоит из двух [[:Рекуррентные_нейронные_сети|RNN]]~~ {{---}} ~~''Энкодера''~~ принимает <math>h</math> и ~~''Декодера''~~<math>d_{i - 1}</math>, возвращает <math>c_i</math>.

''~~Энкодер~~Блоки декодера (фиолетовый)'' {{---}} ~~принимает предложение на языке~~ по сравнению с обычной ''ASeq2seq'' сетью меняются входные данные. Теперь на итерации <math>i</math> на вход подается не <math>y_{i-1}</math>, а конкатенация <math>y_{i-1}</math> и ~~сжимает его в вектор скрытого состояния~~<math>c_i</math>.

Таким образом при помощи механизма внимания достигается "фокусирование" декодера на определенных скрытых состояниях. В случаях машинного перевода эта возможность помогает декодеру предсказывать на какие скрытые состояния при исходных определенных словах на языке ''~~Декодер~~A'' ~~{{---}} выдает слово~~ необходимо обратить больше внимания при переводе данного слова на ~~языке~~ язык ''B''~~, принимает последнее скрытое состояние энкодера и предыдущее предыдущее предсказаное слово~~. То есть на какие слова из исходного текста обратить внимание при переводе конкретного слова на язык назначения.

~~Рассмотрим пример работы~~ ==Модули внимания=====Сверточный модуль внимания===[[Файл:ConvolutionalBlockAttentionModule.png|601px|thumb|right|Сверточный модуль внимания]]'''Сверточный модуль внимания''' (англ. ''~~Seq2seq~~сonvolutional block attention module'' ~~сети~~) {{---}} простой, но эффективный модуль внимания для [[:Сверточные_нейронные_сети|сверточных нейросетей]]. Применяется для задач детектирования обьектов на изображениях и классификации с входными данными больших размерностей. Данный модуль внимания состоит из двух последовательно применяемых подмодулей {{---}} канального (применяется ко всем каналам одного пикселя с изображения) и пространственного (применяется ко всему изображению с фиксированным каналом), оба эти подмодуля описаны в следующих разделах.

Более формально говоря: на вход подается множество признаков <math>F \in \mathbb{R}^{C \times H \times W}</math>, где <math>C</math> {{---}} число каналов, <math>H</math> {{---}} высота, а <math>~~x_i~~W</math> {{---}} ~~слова в предложении на языке ''A''~~длина изображения. Канальный подмодуль <math>A_1(F)</math> принадлежит множеству <math>\mathbb{R}^{C \times 1 \times 1}</math>, а пространственный <math>A_2(F)</math> принадлежит множеству <math>\mathbb{R}^{1 \times H \times W}</math>.Таким образом применение модуля можно описать так:

*<math>~~h_i~~F_1 = A_1(F) \otimes F</math> ~~{{---}} скрытое состояние энкодера.~~

~~''Блоки энкодера (зеленый)'' {{---}} блоки энкодера получающие на вход~~ *<math>~~x_i</math> и передающие скрытое состояние <math>h_i~~F_2 = A_2(F_1) \otimes F_1</math> ~~на следующую итерацию.~~

Здесь за <math>~~d_i~~\otimes </math> обозначено поэлементное произведение, а тензоры <math>A_1(F)</math> и <math>A_2(F_1)</math> копируются вдоль недостающих измерений. <math>F_1 \in \mathbb{R}^{C \times H \times W}</math> {{---}} ~~скрытое состояние декодера.~~ тензор после применения канального модуля внимания, <math>~~y_i~~F_2 \in \mathbb{R}^{C \times H \times W}</math> {{---}} ~~слова в предложении на языке ''B''~~выходное множество признаков.

=== Канальный модуль внимания ===[[Файл:ChannelAttentionModule.png|600px|thumb|right|Канальный модуль внимания]]'''Канальный модуль внимания'''~~Блоки декодера~~ (~~фиолетовый)~~англ. ''channel attention module'' ~~{{---}} блоки декодера получающие~~ ) реализуется за счет исследования внутриканальных взаимосвязей во входных данных, то есть пытается извлечь информацию из яркости каналов одного пикселя. Фокусируется на ~~вход~~ том, "какая" информация находится в данных. Для более эффективной реализации используется сжатие входных данных по измерениям <math>H</math> и <math>W</math> с помощью [[:Сверточные_нейронные_сети#Пулинговый слой|пулингов]] <math>y_MaxPool</math> и <math>AvgPool</math>, которые применяются независимо к входному тензору. В результате которого получаются два вектора <math>F^c_{~~i-1~~max}</math> ~~или специальный токен '''start''' в случае первой итерации~~ и ~~возвращаюшие~~ <math>~~y_i~~F^c_{avg}</math> из <math>\mathbb{R}^{~~---~~C}~~} слова в предложении на языке ''B''~~</math>. ~~Передают~~ После чего к этим двум векторам независимо применяется одна и та же [[:Нейронные_сети,_перцептрон#Многослойные нейронные сети|полносвязная нейронная сеть]] с одним скрытым слоем малой размерности (при этом ее входные и выходные вектора принадлежат <math>~~d_i~~\mathbb{R}^{C}</math> ). После этого полученные из нейросети вектора поэлементно складываются, к результату поэлементно применяется сигмоидная функция активации и добавляются недостающие единичные размерности. Полученный тензор из <math>\mathbb{R}^{~~---~~C \times 1 \times 1}~~} скрытое состояние декодера на следующую итерацию.~~ ~~Перевод считается завершенным при~~ </math> как раз и является результатом применения <math>~~y_i~~A_1(F)</math>, ~~равном специальному токену '''end'''~~поэлементное произведение которого со входом <math>F</math> дает тензор <math>F_1</math>.

=== ~~Применение механизма~~ Пространственный модуль внимания ~~для ''Seq2seq''~~ ===~~При добавлении механизма в данную архитектуру между~~ [[Файл:~~Рекуррентные_нейронные_сети~~Screenshot (203).png|600px|thumb|~~RNN~~right|Пространственный модуль внимания]] '''~~Энкодер~~Пространственный модуль внимания'' и ' (англ. ''~~Декодер~~spatial attention module'' ~~слоя механизма внимания получится следуюшая схема~~) реализуется за счет исследования пространственных взаимосвязей, то есть пытается извлечь информацию из взаимного расположения пикселей. В отличие от канального фокусируется на том, "где" находится информация во входных данных. В данном случае для сжатия размерности используются те же [[:Сверточные_нейронные_сети#Пулинговый слой|пулинги]], но относительно измерения <math>C</math>. Таким образом на выходе мы получаем две матрицы <math>F^s_{max}</math> и <math>F^s_{avg}</math> из <math>\mathbb{R}^{H \times W}</math>. После чего они конкатенируются и к полученному тензору размерности <math>\mathbb{R}^{2 \times H \times W}</math> применяется [[:Сверточные_нейронные_сети#Свертка|свертка]], уменьшающая число каналов до одного и не меняющая остальные размерности, а к результату поэлементно применяется сигмоидная функция активации. Полученный тензор из <math>\mathbb{R}^{1 \times H \times W}</math> как раз является результатом применения <math>A_2(F_1)</math>, поэлементное произведение которого с <math>F_1</math> дает выходной тензор <math>F_2</math>, который называется выходным множеством признаков c размерностью <math>\mathbb{R}^{C \times H \times W}</math>.

==Self-Attention==[[File:~~Seq2SeqAttention~~TransformerSelfAttentionVisualization.png|~~450px~~250px|thumb|Пример работы ''~~Seq2seq~~Self-Attention'' ~~сети с механизмом внимания~~]]'''Self-Attention''' {{---}} разновидность механизма внимания, задачей которой является выявление закономерности только между входными данными.

~~Здесь~~ Данная методика показала себя настолько эффективной в задаче машинного перевода, что позволила отказаться от использования [[:Рекуррентные_нейронные_сети|RNN]] и заменить их на обычные нейронные сети в комбинации с механизмом ''Self-attention'' в архитектуре трансформер<~~math~~ref>~~x_i, h_i, d_i, y_i~~https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf</~~math~~ref> ~~имееют те же назначения, что и в варианте без механизма внимания~~.

''Аггрегатор скрытых состояний энкодера (желтый)'' {{---}} аггрегирует в себе все вектора <math>h_i</math> и возвращает всю последовательность векторов <math>h = Это позволило ускорить работу алгоритма, поскольку ранее предложение обрабатывалось последовательно при помощи [[~~h_1, h_2, h_3, h_4~~:Рекуррентные_нейронные_сети|RNN]]~~</math>~~. При использовании трансформера каждое слово в предложении может обрабатываться параллельно.

~~<math>c_i</math> {{~~Основным отличием ''Self-~~--}} вектор контекста на итерации <math>i</math>~~Attention'' от [[:Механизм_внимания#Обобщенный механизм внимания|обобщенного механизма внимания]] является, что он делает заключения о зависимостях исключительно между входными данными.

Рассмотрим предложение ''~~Блоки механизма внимания (красный)~~'The animal didn' {{t cross the street because it was too tired''' и результат работы алгоритма ''Self-~~--}} механизм внимания~~attention'' для слова '''it'''. ~~Принимает <math>h</math> и <math>d_{i - 1}</math>, возвращает <math>c_i</math>~~Полученный вектор соответствует взаимосвязи слова '''it''' со всеми остальными словам в предложении.

Из визуализации вектора можно заметить, что механизм ''Self-attention''~~Блоки декодера (фиолетовый)~~обнаружил взаимосвязь между словами '''it''' и '' ~~{{---}} по сравнению с обычной~~ 'animal'~~Seq2seq~~'' ~~сетью меняются входные данные~~. ~~Теперь на итерации <math>i</math> на вход подается не <math>y_{i-1}</math>~~Этот результат можно интуитивно объяснить с человеческой точки зрения, что позволяет алгоритмам машинного обучения, использующим данный подход, ~~а конкатенация <math>y_{i-1}</math> и <math>c_i</math>~~лучше решать задачу принимая во внимание контекстные взаимосвязи.

Таким образом при помощи механизма внимания достигается "фокусирование" декодера на определенных скрытых состояниях. В случаях машинного перевода эта возможность помогает декодеру предсказывать на какие скрытые сосояния при исходных определенных словах на языке Также ''~~A'' необходимо обратить больше внимания при переводе данного слова на язык ''B~~Self-Attention''успешно применяется применяется в [[:Generative_Adversarial_Nets_(GAN)|GAN]] сетях, в частности в алгоритме SAGAN<ref>https://arxiv.org/abs/1805.08318</ref>.

==См. также==

==Источники информации==

*[https://blog.floydhub.com/attention-mechanism/amp/ Статья о механизме внимания, его типах и разновидностях]

*[https://www.coursera.org/lecture/nlp-sequence-models/attention-model-lSwVa Лекция Andrew Ng о механизме внимания в NLP]

*[https://towardsdatascience.com/intuitive-understanding-of-attention-mechanism-in-deep-learning-6c9482aecf4f Статья с подробно разборанными примерами и кодом на ''Python'' и ''TensorFlow'']

*[http://jalammar.github.io/illustrated-transformer/ Статья c примерами работы Self-attention]

*[https://arxiv.org/pdf/1807.06521.pdf Статья о сверточном модуле внимания (CBAM)]

==Примечания==

Maintenance script

1632

правки

Изменения

Механизм внимания

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты