<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
		<id>http://neerc.ifmo.ru/wiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=91.122.35.83&amp;*</id>
		<title>Викиконспекты - Вклад участника [ru]</title>
		<link rel="self" type="application/atom+xml" href="http://neerc.ifmo.ru/wiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=91.122.35.83&amp;*"/>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:%D0%92%D0%BA%D0%BB%D0%B0%D0%B4/91.122.35.83"/>
		<updated>2026-04-29T23:43:25Z</updated>
		<subtitle>Вклад участника</subtitle>
		<generator>MediaWiki 1.30.0</generator>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Gpevnev&amp;diff=73020</id>
		<title>Участник:Gpevnev</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Gpevnev&amp;diff=73020"/>
				<updated>2020-03-21T10:27:04Z</updated>
		
		<summary type="html">&lt;p&gt;91.122.35.83: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;'''Механизм внимания в рекуррентных нейронных сетях''' (англ. ''attention mechanism'', ''attention model'') {{---}} дополнительный слой используемый в [[:Рекуррентные_нейронные_сети|рекуррентных нейронных сетях]] для &amp;quot;обращения внимания&amp;quot; последующих слоев сети на скрытое состояние нейронной сети &amp;lt;math&amp;gt;h_t&amp;lt;/math&amp;gt; в момент времени &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
== Обобщенное описание ==&lt;br /&gt;
[[:Рекуррентные_нейронные_сети|Рекуррентные нейронные сети]] используются при обработке данных, для которых важна их последовательность. В классическом случае применения [[:Рекуррентные_нейронные_сети|РНН]] как результат используется только последнее скрытое состояние &amp;lt;math&amp;gt;h_m&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;m&amp;lt;/math&amp;gt; - длинна последовательности входных данных. Использование механизма внимания позволяет использовать информацию полученную не только из последнего скрытого состояниния, но и из скрытого расстояния &amp;lt;math&amp;gt;h_t&amp;lt;/math&amp;gt; для любого &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Обычно слой использующийся для механизма внимания представляет собой обычную, чаще всего однослойную нейронную сеть на вход которой подаются &amp;lt;math&amp;gt;h_t, t = 1 \ldots m&amp;lt;/math&amp;gt;, а также вектор &amp;lt;math&amp;gt;d&amp;lt;/math&amp;gt; в котором содержится некий контекст зависящий от конкретно задачи (пример &amp;lt;math&amp;gt;d&amp;lt;/math&amp;gt; для задачи машинного перевода использующего ''Seq2Seq'' арихитектуру есть ниже). &lt;br /&gt;
&lt;br /&gt;
Выходом данного слоя будет являтся последовательность &amp;lt;math&amp;gt;s_i, i = 1 \ldots m&amp;lt;/math&amp;gt; - оценки на основании которых на скрытое состояние &amp;lt;math&amp;gt;h_i&amp;lt;/math&amp;gt; будет &amp;quot;обращено внимание&amp;quot;.&lt;br /&gt;
&lt;br /&gt;
Далее для нормализации значений &amp;lt;math&amp;gt;s&amp;lt;/math&amp;gt; используется &amp;lt;math&amp;gt;softmax&amp;lt;/math&amp;gt;. Тогда &amp;lt;math&amp;gt;e = softmax(s)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Далее считается &amp;lt;math&amp;gt;СV&amp;lt;/math&amp;gt; (англ. ''context vector'') &amp;lt;math&amp;gt;СV = \sum_1^m e_i h_i&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Резултатом работы слоя внимания является &amp;lt;math&amp;gt;CV&amp;lt;/math&amp;gt; который содержит в себе информацию обо всех скрытых состоянях &amp;lt;math&amp;gt;h_i&amp;lt;/math&amp;gt; пропорционально оценке &amp;lt;math&amp;gt;e_i&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
== Пример использования для архитектуры Seq2Seq ==&lt;br /&gt;
Данный пример рассматривает применение механизма внимания в задаче машинного перевода в применении к архитектуре ''Seq2Seq''.&lt;br /&gt;
&lt;br /&gt;
''Seq2Seq'' состоит из двух [[:Рекуррентные_нейронные_сети|РНН]] - ''Encoder'' и ''Decoder''. &lt;br /&gt;
&lt;br /&gt;
''Encoder'' {{---}} принимает предложение на языке ''A'' и сжимает его в вектор скрытого состояния.&lt;br /&gt;
''Decoder'' {{---}} выдает слово на языке ''B'', принимает последнее скрытое состояние из энкодера и предыдущее предыдущее предсказаное слово.&lt;br /&gt;
&lt;br /&gt;
''TODO:'' картинку про базовый Seq2Seq сюда.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
При добавлении механизма в данную архитектуру между [[:Рекуррентные_нейронные_сети|РНН]] ''Encoder'' и ''Decoder'' слоя механизма внимания процесс&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[:Сверточные_нейронные_сети|Сверточные нейронные сети]]&lt;br /&gt;
*[[:Нейронные_сети,_перцептрон|Нейронные сети, перцептрон]]&lt;br /&gt;
*[[:Рекуррентные_нейронные_сети|Рекуррентные нейронные сети]]&lt;br /&gt;
&lt;br /&gt;
==Примечания==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Нейронные сети]]&lt;br /&gt;
[[Категория: Рекуррентные нейронные сети]]&lt;/div&gt;</summary>
		<author><name>91.122.35.83</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Gpevnev&amp;diff=73019</id>
		<title>Участник:Gpevnev</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A3%D1%87%D0%B0%D1%81%D1%82%D0%BD%D0%B8%D0%BA:Gpevnev&amp;diff=73019"/>
				<updated>2020-03-21T10:18:15Z</updated>
		
		<summary type="html">&lt;p&gt;91.122.35.83: Новая страница: «'''Механизм внимания в рекуррентных нейронных сетях''' (англ. ''attention mechanism'', ''attention model'') {{---}}…»&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;'''Механизм внимания в рекуррентных нейронных сетях''' (англ. ''attention mechanism'', ''attention model'') {{---}} дополнительный слой используемый в [[:Рекуррентные_нейронные_сети|рекуррентных нейронных сетях]] для &amp;quot;обращения внимания&amp;quot; последующих слоев сети на скрытое состояние нейронной сети &amp;lt;math&amp;gt;h_t&amp;lt;/math&amp;gt; в момент времени &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
== Обобщенное описание ==&lt;br /&gt;
[[:Рекуррентные_нейронные_сети|Рекуррентные нейронные сети]] используются при обработке данных, для которых важна их последовательность. В классическом случае применения [[:Рекуррентные_нейронные_сети|РНН]] как результат используется только последнее скрытое состояние &amp;lt;math&amp;gt;h_m&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;m&amp;lt;/math&amp;gt; - длинна последовательности входных данных. Использование механизма внимания позволяет использовать информацию полученную не только из последнего скрытого состояниния, но и из скрытого расстояния &amp;lt;math&amp;gt;h_t&amp;lt;/math&amp;gt; для любого &amp;lt;math&amp;gt;t&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Обычно слой использующийся для механизма внимания представляет собой обычную, чаще всего однослойную нейронную сеть на вход которой подаются &amp;lt;math&amp;gt;h_t, t = 1 \ldots m&amp;lt;/math&amp;gt;, а также вектор &amp;lt;math&amp;gt;d&amp;lt;/math&amp;gt; в котором содержится некий контекст зависящий от конкретно задачи (пример &amp;lt;math&amp;gt;d&amp;lt;/math&amp;gt; для задачи машинного перевода использующего ''Seq2Seq'' арихитектуру есть ниже). &lt;br /&gt;
&lt;br /&gt;
Выходом данного слоя будет являтся последовательность &amp;lt;math&amp;gt;s_i, i = 1 \ldots m&amp;lt;/math&amp;gt; - оценки на основании которых на скрытое состояние &amp;lt;math&amp;gt;h_i&amp;lt;/math&amp;gt; будет &amp;quot;обращено внимание&amp;quot;.&lt;br /&gt;
&lt;br /&gt;
Далее для нормализации значений &amp;lt;math&amp;gt;s&amp;lt;/math&amp;gt; используется &amp;lt;math&amp;gt;softmax&amp;lt;/math&amp;gt;. Тогда &amp;lt;math&amp;gt;e = softmax(s)&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Далее считается &amp;lt;math&amp;gt;СV&amp;lt;/math&amp;gt; (англ. ''context vector'') &amp;lt;math&amp;gt;СV = \sum_1^m e_i h_i&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Резултатом работы слоя внимания является &amp;lt;math&amp;gt;CV&amp;lt;/math&amp;gt; который содержит в себе информацию обо всех скрытых состоянях &amp;lt;math&amp;gt;h_i&amp;lt;/math&amp;gt; пропорционально оценке &amp;lt;math&amp;gt;e_i&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
== Пример использования для архитектуры Seq2Seq ==&lt;br /&gt;
Данный пример рассматривает применение механизма внимания в задаче машинного перевода в применении к архитектуре ''Seq2Seq''.&lt;br /&gt;
&lt;br /&gt;
''Seq2Seq'' состоит из двух [[:Рекуррентные_нейронные_сети|РНН]] - ''Encoder'' и ''Decoder''. &lt;br /&gt;
&lt;br /&gt;
''Encoder'' {{---}} принимает предложение на языке ''A'' и сжимает его в вектор скрытого состояния.&lt;br /&gt;
''Decoder'' {{---}} выдает слово на языке ''B'', принимает последнее скрытое состояние из энкодера и предыдущее предыдущее предсказаное слово.&lt;br /&gt;
&lt;br /&gt;
''TODO:'' картинку про базовый Seq2Seq сюда.&lt;/div&gt;</summary>
		<author><name>91.122.35.83</name></author>	</entry>

	</feed>