Просмотр исходного текста страницы Рекуррентные нейронные сети

'''Рекуррентная нейронная сеть''' (англ. ''recurrent neural network'', ''RNN'') {{---}} вид [[:Нейронные_сети,_перцептрон|нейронных сетей]], где связи между элементами образуют направленную последовательность.

== Описание ==
[[File:RNN.png|450px|thumb|Рисунок 1. RNN и ее развернутое представление]]
[[File:RNN_layer.png|450px|thumb|Рисунок 2. Схема слоя рекуррентной сети]]
Рекуррентные нейронные сети {{---}} сети с циклами, которые хорошо подходят для обработки последовательностей (рис. 1).
[[File:RNN_BP.jpg|450px|thumb|Рисунок 3. RNN с задержкой на скрытом слое]]
[[File:RNN_BPTT.jpg|450px|thumb|Рисунок 4. Развертка RNN]]
Обучение RNN аналогично обучению обычной нейронной сети. Мы также используем [[:Обратное_распространение_ошибки|алгоритм обратного распространения ошибки (backpropagation)]]<sup>[на 28.01.19 не создан]</sup>, но с небольшим изменением. Поскольку одни и те же параметры используются на всех временных этапах в сети, градиент на каждом выходе зависит не только от расчетов текущего шага, но и от предыдущих временных шагов (рис. 4). Например, чтобы вычислить градиент для четвертого элемента последовательности, нам нужно было бы «распространить ошибку» на 3 шага и суммировать градиенты. Этот алгоритм называется «алгоритмом обратного распространения ошибки сквозь время» (англ. Backpropagation Through Time, BPTT).<ref name=BPTT_1>[http://andrew.gibiansky.com/blog/machine-learning/recurrent-neural-networks/ Backpropagation Through Time]</ref><ref name=BPTT_2>[http://www.wildml.com/2015/10/recurrent-neural-networks-tutorial-part-3-backpropagation-through-time-and-vanishing-gradients/ Backpropagation Through Time]</ref>

Алгоритм обратного распространения ошибки сквозь время:

[[File:RNN_BPTT_GRAD.png|400px|frameless]]

== Области и примеры применения ==
Используются, когда важно соблюдать последовательность, когда важен порядок поступающих объектов.
* Обработка текста на естественном языке:
** Анализ текста;
** Автоматический перевод;
* Обработка аудио:
** Автоматическое распознавание речи;
* Обработка видео:
** Прогнозирование следующего кадра на основе предыдущих;
** Распознавание эмоций;
* Обработка изображений:
** Прогнозирование следующего пикселя на основе окружения;
** Генерация описания изображений.

== Виды RNN ==
=== Один к одному ===
{|
|-
|[[File:RNN_OTO.jpg|100px|left]]
|Архитектура по сути является обычной нейронной сетью.
|}

=== Один ко многим ===
{|
|-
|[[File:RNN_OTM.jpg|100px|left]]
|Один вход ко многим выходам может применяться, например, для генерации аудиозаписи. На вход подаем жанр музыки, который хотим получить, на выходе получаем последовательность аудиозаписи.
|}

=== Многие к одному ===
{|
|-
|[[File:RNN_MTO.jpg|100px|left]]
|Много входов и один выход может применяться, если мы хотим оценить тональность рецензии. На вход подаем слова рецензии, на выходе получаем оценку ее тональности: позитивная рецензия или негативная.
|}

=== Многие ко многим ===
{|
|-
|[[File:RNN_MTM1.jpg|100px|left]]
|Данную архитектуру можно использовать для перевода текста с одного языка на другой.
|-
|[[File:RNN_MTM2.jpg|100px|left]]
|Такой вариант подойдет для определения для классификации каждого слова в предложении в зависимости от контекста.
|}

== Архитектуры ==
=== Полностью рекуррентная сеть ===
Это базовая архитектура, разработанная в 1980-х. Сеть строится из узлов, каждый из которых соединён со всеми другими узлами. У каждого нейрона порог активации меняется со временем и является вещественным числом. Каждое соединение имеет переменный вещественный вес. Узлы разделяются на входные, выходные и скрытые.

=== Рекурсивная сеть ===
[[:Рекурсивные нейронные сети|Рекурсивные нейронные сети]]<sup>[на 28.01.19 не создан]</sup> представляют собой более общий случай рекуррентных сетей, когда сигнал в сети проходит через структуру в виде дерева (обычно бинарные деревья). Те же самые матрицы весов используются рекурсивно по всему графу в соответствии с его топологией.

=== Нейронная сеть Хопфилда ===
Тип рекуррентной сети, когда все соединения симметричны. Изобретена Джоном Хопфилдом в 1982 году и гарантируется, что динамика такой сети сходится к одному из положений равновесия.

=== Двунаправленная ассоциативная память (BAM) ===
Вариацией сети Хопфилда является двунаправленная ассоциативная память (BAM). BAM имеет два слоя, каждый из которых может выступать в качестве входного, находить (вспоминать) ассоциацию и генерировать результат для другого слоя.
[[File:Elman_RNN.jpg|450px|thumb|Рисунок 5. Сеть Элмана]]

=== Сеть Элмана ===
Нейронная сеть Элмана состоит из трёх слоев: x, y, z. Дополнительно к сети добавлен набор «контекстных блоков»: u (рис. 5). Средний (скрытый) слой соединён с контекстными блоками с фиксированным весом, равным единице. С каждым шагом времени на вход поступает информация, которая проходит прямой ход к выходному слою в соответствии с правилами обучения. Фиксированные обратные связи сохраняют предыдущие значения скрытого слоя в контекстных блоках (до того как скрытый слой поменяет значение в процессе обучения). Таким способом сеть сохраняет своё состояние, что может использоваться в предсказании последовательностей, выходя за пределы мощности многослойного перцептрона.

<math>h_t = \sigma_h(W_h x_t + U_h h_{t-1} + b_h)</math>,

<math>y_t = \sigma_y(W_y h_t + b_y)</math>,

Обозначения переменных и функций:
* <math>x_t</math>: вектор входного слоя;
* <math>h_t</math>: вектор скрытого слоя;
* <math>y_t</math>: вектор выходного слоя;
* <math>W, U, b</math>: матрица и вектор параметров;
* <math>\sigma_h, \sigma_y</math>: функция активации.

=== Сеть Джордана ===
Нейронная сеть Джордана подобна сети Элмана, но контекстные блоки связаны не со скрытым слоем, а с выходным слоем. Контекстные блоки таким образом сохраняют своё состояние. Они обладают рекуррентной связью с собой.

<math>h_t = \sigma_h(W_h x_t + U_h y_{t-1} + b_h)</math>,

<math>y_t = \sigma_y(W_y h_t + b_y)</math>,

=== Эхо-сети ===
Эхо-сеть (англ. Echo State Network, ESN) характеризуется одним скрытым слоем (который называется резервуаром) со случайными редкими связями между нейронами. При этом связи внутри резервуара фиксированы, но связи с выходным слоем подлежат обучению. Состояние резервуара (state) вычисляется через предыдущие состояния резервуара, а также предыдущие состояния входного и выходного сигналов. Так как эхо-сети обладают только одним скрытым слоем, они обладают достаточно низкой вычислительной сложностью.

=== Нейронный компрессор истории ===
Нейронный компрессор исторических данных {{---}} это блок, позволяющий в сжатом виде хранить существенные исторические особенности процесса, который является своего рода стеком рекуррентной нейронной сети, формируемым в процессе самообучения.
[[File:LSTM.png|450px|thumb|Рисунок 6. Схема слоев рекуррентной сети долго-краткосрочной памяти]]

=== Сети долго-краткосрочной памяти ===
[[:Долгая_краткосрочная_память|Сеть долго-краткосрочной памяти]] (англ. Long short-term memory, LSTM) является самой популярной архитектурой рекуррентной нейронной сети на текущий момент, такая архитектура способна запоминать данные на долгое время (рис. 6).<ref name=LSTM>[https://www.bioinf.jku.at/publications/older/2604.pdf Sepp Hochreiter, Jurgen Schmidhuber. Long short-term memory (1997). Neural Computation.]</ref>

=== Управляемые рекуррентные блоки ===
Управляемые рекуррентные блоки (англ. Gated Recurrent Units, GRU) {{---}} обладает меньшим количеством параметров, чем у LSTM, и в ней отсутствует выходное управление. При этом производительность в моделях речевого сигнала или полифонической музыки оказалась сопоставимой с LSTM.

=== Двунаправленные рекуррентные сети ===
[[File:biRNN.png|450px|thumb|Рисунок 7. Двунаправленная рекуррентная сеть]]
Двунаправленная рекуррентная сеть (англ. Bidirectional Recurrent Neural Network, biRNN) представляет собой две однонаправленные рекуррентные сети, одна из которых обрабатывает входную последовательность в прямом порядке, а другая {{---}} в обратном (рис. 7). Таким образом, для каждого элемента входной последовательности считается два вектора скрытых состояний, на основе которых вычисляется выход сети. Благодаря данной архитектуре сети доступна информация о контексте как из прошлого, так и из будущего, что решает проблему однонаправленных рекуррентных сетей. Для обучения biRNN используются те же алгоритмы, что и для RNN.

=== Seq-2-seq сети ===
[[File:Seq2seq.png|450px|thumb|Рисунок 8. Seq-2-seq сеть]]
Seq-2-seq (Sequence to sequence, Seq2seq) сеть является базовой архитектурой many-to-many RNN и используется для трансляции одной последовательности в другую (рис. 8). Она состоит из двух рекуррентных сетей: кодировщика и декодировщика. Кодировщик вычисляет вектор, кодирующий входную последовательность. Далее данный вектор передается декодировщику, который в свою очередь по полученному скрытому представлению восстанавливает целевую последовательность. При этом каждый посчитанный выход используется для обновления скрытого представления. 
<br clear="both" /> 

== Пример кода ==
===Пример кода на Python с использованием библиотеки Keras.<ref name=KerasRNN>[https://keras.io/layers/recurrent/ Keras RNN]</ref>===

  <font color="green"># Импорты</font>
  '''import''' numpy '''as''' np
  '''from''' keras.preprocessing '''import''' sequence
  '''from''' keras.models '''import''' Sequential
  '''from''' keras.layers '''import''' Dense, Activation, Embedding
  '''from''' keras.layers '''import''' LSTM
  '''from''' keras.datasets '''import''' imdb
  
  <font color="green"># Устанавливаем seed для обеспечения повторяемости результатов</font>
  np.random.seed(<font color="blue">42</font>)
  
  <font color="green"># Указываем количество слов из частотного словаря, которое будет использоваться (отсортированы по частоте использования)</font>
  max_features = <font color="blue">5000</font>
  
  <font color="green"># Загружаем данные (датасет IMDB содержит 25000 рецензий на фильмы с правильным ответом для обучения и 25000 рецензий на фильмы с правильным ответом для тестирования)</font>
  (X_train, y_train), (X_test, y_test) = imdb.load_data(nb_words = max_features)
  
  <font color="green"># Устанавливаем максимальную длину рецензий в словах, чтобы они все были одной длины</font>
  maxlen = <font color="blue">80</font>
  
  <font color="green"># Заполняем короткие рецензии пробелами, а длинные обрезаем</font>
  X_train = sequence.pad_sequences(X_train, maxlen = maxlen)
  X_test = sequence.pad_sequences(X_test, maxlen = maxlen)
  
  <font color="green"># Создаем модель последовательной сети</font>
  model = Sequential()
  <font color="green"># Добавляем слой для векторного представления слов (5000 слов, каждое представлено вектором из 32 чисел, отключаем входной сигнал с вероятностью 20% для предотвращения переобучения)</font>
  model.add(Embedding(max_features, <font color="blue">32</font>, dropout = <font color="blue">0.2</font>))
  <font color="green"># Добавляем слой долго-краткосрочной памяти (100 элементов для долговременного хранения информации, отключаем входной сигнал с вероятностью 20%, отключаем рекуррентный сигнал с вероятностью 20%)</font>
  model.add(LSTM(<font color="blue">100</font>, dropout_W = <font color="blue">0.2</font>, dropout_U = <font color="blue">0.2</font>))
  <font color="green"># Добавляем полносвязный слой из 1 элемента для классификации, в качестве функции активации будем использовать сигмоидальную функцию</font>
  model.add(Dense(<font color="blue">1</font>, activation = <font color="red">'sigmoid'</font>))
  
  <font color="green"># Компилируем модель нейронной сети</font>
  model.compile(loss = <font color="red">'binary_crossentropy'</font>,
                optimizer = <font color="red">'adam'</font>,
                metrics = [<font color="red">'accuracy'</font>])
  
  <font color="green"># Обучаем нейронную сеть (данные для обучения, ответы к данным для обучения, количество рецензий после анализа которого будут изменены веса, число эпох обучения, тестовые данные, показывать progress bar или нет)</font>
  model.fit(X_train, y_train, 
            batch_size = <font color="blue">64</font>,
            nb_epoch = <font color="blue">7</font>,
            validation_data = (X_test, y_test),
            verbose = <font color="blue">1</font>)
  
  <font color="green"># Проверяем качество обучения на тестовых данных (если есть данные, которые не участвовали в обучении, лучше использовать их, но в нашем случае таковых нет)</font>
  scores = model.evaluate(X_test, y_test, batch_size = <font color="blue">64</font>)
  print(<font color="red">'Точность на тестовых данных: %.2f%%'</font> % (scores[1] * <font color="blue">100</font>))

===Пример на языке Java===
[https://github.com/deeplearning4j/dl4j-examples/blob/master/dl4j-examples/src/main/java/org/deeplearning4j/examples/recurrent/basic/BasicRNNExample.java Пример] простой рекуррентной нейронной сети, способной генерировать заданную строку по первому символу, с применением библиотеки <code>deeplearning4j</code>.

==См. также==
*[[:Сверточные_нейронные_сети|Сверточные нейронные сети]]
*[[:Нейронные_сети,_перцептрон|Нейронные сети, перцептрон]]
*[[:Рекурсивные нейронные сети|Рекурсивные нейронные сети]]<sup>[на 28.01.19 не создан]</sup>

==Примечания==
<references/>

[[Категория: Машинное обучение]]
[[Категория: Нейронные сети]]
[[Категория: Рекуррентные нейронные сети]]