Викиконспекты - Вклад участника [ru]

Рекуррентные нейронные сети

2019-01-26T17:54:44Z

Adel:

'''Рекуррентная нейронная сеть''' (англ. ''recurrent neural network'', ''RNN'') {{---}} вид [[:Нейронные_сети,_перцептрон|нейронных сетей]], где связи между элементами образуют направленную последовательность.

== Описание ==
[[File:RNN.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ RNN и ее развернутое представление]]]
[[File:RNN_layer.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Схема слоя рекуррентной сети]]]
Рекуррентные нейронные сети {{---}} сети с циклами, которые хорошо подходят для обработки последовательностей.
[[File:RNN_BP.jpg|450px|thumb|RNN с задержкой на скрытом слое]]
[[File:RNN_BPTT.jpg|450px|thumb|Развертка RNN]]
Обучение RNN аналогично обучению обычной нейронной сети. Мы также используем [[:Обратное_распространение_ошибки|алгоритм обратного распространения ошибки (backpropagation)]], но с небольшим изменением. Поскольку одни и те же параметры используются на всех временных этапах в сети, градиент на каждом выходе зависит не только от расчетов текущего шага, но и от предыдущих временных шагов. Например, чтобы вычислить градиент для четвертого элемента последовательности, нам нужно было бы «распространить ошибку» на 3 шага и суммировать градиенты. Этот алгоритм называется «алгоритмом обратного распространения ошибки сквозь время» (англ. Backpropagation Through Time, BPTT).<ref name=BPTT_1>[http://andrew.gibiansky.com/blog/machine-learning/recurrent-neural-networks/ Backpropagation Through Time]</ref><ref name=BPTT_2>[http://www.wildml.com/2015/10/recurrent-neural-networks-tutorial-part-3-backpropagation-through-time-and-vanishing-gradients/ Backpropagation Through Time]</ref>

Алгоритм обратного распространения ошибки сквозь время:

[[File:RNN_BPTT_GRAD.png|400px|frameless]]

== Области и примеры применения ==
Используются, когда важно соблюдать последовательность, когда важен порядок поступающих объектов.
* Обработка текста на естественном языке
** Анализ текста
** Автоматический перевод
* Обработка аудио
** Автоматическое распознавание речи
* Обработка видео
** Прогнозирование следующего кадра на основе предыдущих
** Распознавание эмоций
* Обработка изображений
** Прогнозирование следующего пикселя на основе окружения
** Генерация описания изображений

== Виды RNN ==
=== Один к одному ===
{|
|-
|[[File:RNN_OTO.jpg|100px|left]]
|Архитектура по сути является обычной нейронной сетью.
|}

=== Один ко многим ===
{|
|-
|[[File:RNN_OTM.jpg|100px|left]]
|Один вход ко многим выходам может применяться, например, для генерации аудиозаписи. На вход подаем жанр музыки, который хотим получить, на выходе получаем последовательность аудиозаписи.
|}

=== Многие к одному ===
{|
|-
|[[File:RNN_MTO.jpg|100px|left]]
|Много входов и один выход может применяться, если мы хотим оценить тональность рецензии. На вход подаем слова рецензии, на выходе получаем оценку ее тональности: позитивная рецензия или негативная.
|}

=== Многие ко многим ===
{|
|-
|[[File:RNN_MTM1.jpg|100px|left]]
|Данную архитектуру можно использовать для перевода текста с одного языка на другой.
|-
|[[File:RNN_MTM2.jpg|100px|left]]
|Такой вариант подойдет для определения для классификации каждого слова в предложении в зависимости от контекста.
|}

== Архитектуры ==
=== Полностью рекуррентная сеть ===
Это базовая архитектура, разработанная в 1980-х. Сеть строится из узлов, каждый из которых соединён со всеми другими узлами. У каждого нейрона порог активации меняется со временем и является вещественным числом. Каждое соединение имеет переменный вещественный вес. Узлы разделяются на входные, выходные и скрытые.

=== Рекурсивная сеть ===
[[:Рекурсивные нейронные сети|Рекурсивные нейронные сети]] представляют собой более общий случай рекуррентных сетей, когда сигнал в сети проходит через структуру в виде дерева (обычно бинарные деревья). Те же самые матрицы весов используются рекурсивно по всему графу в соответствии с его топологией.

=== Нейронная сеть Хопфилда ===
Тип рекуррентной сети, когда все соединения симметричны. Изобретена Джоном Хопфилдом в 1982 году и гарантируется, что динамика такой сети сходится к одному из положений равновесия.

=== Двунаправленная ассоциативная память (BAM) ===
Вариацией сети Хопфилда является двунаправленная ассоциативная память (BAM). BAM имеет два слоя, каждый из которых может выступать в качестве входного, находить (вспоминать) ассоциацию и генерировать результат для другого слоя.
[[File:Elman_RNN.jpg|450px|thumb|Сеть Элмана]]

=== Сеть Элмана ===
Нейронная сеть Элмана состоит из трёх слоев: x, y, z (см рис. Сеть Элмана). Дополнительно к сети добавлен набор «контекстных блоков»: u (см рис. Сеть Элмана). Средний (скрытый) слой соединён с контекстными блоками с фиксированным весом, равным единице. С каждым шагом времени на вход поступает информация, которая проходит прямой ход к выходному слою в соответствии с правилами обучения. Фиксированные обратные связи сохраняют предыдущие значения скрытого слоя в контекстных блоках (до того как скрытый слой поменяет значение в процессе обучения). Таким способом сеть сохраняет своё состояние, что может использоваться в предсказании последовательностей, выходя за пределы мощности многослойного перцептрона.

<math>h_t = \sigma_h(W_h x_t + U_h h_{t-1} + b_h)</math>

<math>y_t = \sigma_y(W_y h_t + b_y)</math>

Обозначения переменных и функций:
* <math>x_t</math>: вектор входного слоя
* <math>h_t</math>: вектор скрытого слоя
* <math>y_t</math>: вектор выходного слоя
* <math>W, U, b</math>: матрица и вектор параметров
* <math>\sigma_h, \sigma_y</math>: функция активации

=== Сеть Джордана ===
Нейронная сеть Джордана подобна сети Элмана, но контекстные блоки связаны не со скрытым слоем, а с выходным слоем. Контекстные блоки таким образом сохраняют своё состояние. Они обладают рекуррентной связью с собой.

<math>h_t = \sigma_h(W_h x_t + U_h y_{t-1} + b_h)</math>

<math>y_t = \sigma_y(W_y h_t + b_y)</math>

=== Эхо-сети ===
Эхо-сеть (англ. Echo State Network, ESN) характеризуется одним скрытым слоем (который называется резервуаром) со случайными редкими связями между нейронами. При этом связи внутри резервуара фиксированы, но связи с выходным слоем подлежат обучению. Состояние резервуара (state) вычисляется через предыдущие состояния резервуара, а также предыдущие состояния входного и выходного сигналов. Так как эхо-сети обладают только одним скрытым слоем, они обладают достаточно низкой вычислительной сложностью.

=== Нейронный компрессор истории ===
Нейронный компрессор исторических данных {{---}} это блок, позволяющий в сжатом виде хранить существенные исторические особенности процесса, который является своего рода стеком рекуррентной нейронной сети, формируемым в процессе самообучения.
[[File:LSTM.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Схема слоев рекуррентной сети долго-краткосрочной памяти]]]

=== Сети долго-краткосрочной памяти ===
[[:Долгая_краткосрочная_память_(LSTM)|Сеть долго-краткосрочной памяти]] (англ. Long short-term memory, LSTM) является самой популярной архитектурой рекуррентной нейронной сети на данный момент, данная архитектура способна запоминать данные на долгое время.<ref name=LSTM>[https://www.bioinf.jku.at/publications/older/2604.pdf Sepp Hochreiter, Jurgen Schmidhuber. Long short-term memory (1997). Neural Computation.]</ref>

=== Управляемые рекуррентные блоки ===
Управляемые рекуррентные блоки (англ. Gated Recurrent Units, GRU) {{---}} обладает меньшим количеством параметров, чем у LSTM, и в ней отсутствует выходное управление. При этом производительность в моделях речевого сигнала или полифонической музыки оказалась сопоставимой с LSTM.

== Пример кода ==
Пример кода на Python с использованием библиотеки Keras.<ref name=KerasRNN>[https://keras.io/layers/recurrent/ Keras RNN]</ref>

# Импорты
'''import''' numpy '''as''' np
'''from''' keras.preprocessing '''import''' sequence
'''from''' keras.models '''import''' Sequential
'''from''' keras.layers '''import''' Dense, Activation, Embedding
'''from''' keras.layers '''import''' LSTM
'''from''' keras.datasets '''import''' imdb

# Устанавливаем seed для обеспечения повторяемости результатов
np.random.seed(42)

# Указываем количество слов из частотного словаря, которое будет использоваться (отсортированы по частоте использования)
max_features = 5000

# Загружаем данные (датасет IMDB содержит 25000 рецензий на фильмы с правильным ответом для обучения и 25000 рецензий на фильмы с правильным ответом для тестирования)
(X_train, y_train), (X_test, y_test) = imdb.load_data(nb_words = max_features)

# Устанавливаем максимальную длину рецензий в словах, чтобы они все были одной длины
maxlen = 80

# Заполняем короткие рецензии пробелами, а длинные обрезаем
X_train = sequence.pad_sequences(X_train, maxlen = maxlen)
X_test = sequence.pad_sequences(X_test, maxlen = maxlen)

# Создаем модель последовательной сети
model = Sequential()
# Добавляем слой для векторного представления слов (5000 слов, каждое представлено вектором из 32 чисел, отключаем входной сигнал с вероятностью 20% для предотвращения переобучения)
model.add(Embedding(max_features, 32, dropout = 0.2))
# Добавляем слой долго-краткосрочной памяти (100 элементов для долговременного хранения информации, отключаем входной сигнал с вероятностью 20%, отключаем рекуррентный сигнал с вероятностью 20%)
model.add(LSTM(100, dropout_W = 0.2, dropout_U = 0.2))
# Добавляем полносвязный слой из 1 элемента для классификации, в качестве функции активации будем использовать сигмоидальную функцию
model.add(Dense(1, activation = 'sigmoid'))

# Компилируем модель нейронной сети
model.compile(loss = 'binary_crossentropy',
optimizer = 'adam',
metrics = ['accuracy'])

# Обучаем нейронную сеть (данные для обучения, ответы к данным для обучения, количество рецензий после анализа которого будут изменены веса, число эпох обучения, тестовые данные, показывать progress bar или нет)
model.fit(X_train, y_train,
batch_size = 64,
nb_epoch = 7,
validation_data = (X_test, y_test),
verbose = 1)

# Проверяем качество обучения на тестовых данных (если есть данные, которые не участвовали в обучении, лучше использовать их, но в нашем случае таковых нет)
scores = model.evaluate(X_test, y_test, batch_size = 64)
print('Точность на тестовых данных: %.2f%%' % (scores[1] * 100))

==См. также==
*[[:Сверточные_нейронные_сети|Сверточные нейронные сети]]
*[[:Нейронные_сети,_перцептрон|Нейронные сети, перцептрон]]
*[[:Рекурсивные нейронные сети|Рекурсивные нейронные сети]]

==Примечания==
<references/>

[[Категория: Машинное обучение]]
[[Категория: Нейронные сети]]
[[Категория: Рекуррентные нейронные сети]]

Файл:RNN MTM2.jpg

2019-01-26T15:01:05Z

Adel:

Файл:RNN MTM1.jpg

2019-01-26T15:00:48Z

Adel:

Файл:RNN MTO.jpg

2019-01-26T15:00:32Z

Adel:

Файл:RNN OTM.jpg

2019-01-26T15:00:18Z

Adel:

Файл:RNN OTO.jpg

2019-01-26T15:00:05Z

Adel:

Файл:RNN BPTT GRAD.png

2019-01-26T13:57:26Z

Adel:

Рекуррентные нейронные сети

2019-01-25T21:59:20Z

Adel:

'''Рекуррентная нейронная сеть''' (англ. ''recurrent neural network'', ''RNN'') {{---}} вид [[:Нейронные_сети,_перцептрон|нейронных сетей]], где связи между элементами образуют направленную последовательность.

== Описание ==
[[File:RNN.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ RNN и ее развернутое представление]]]
[[File:RNN_layer.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Схема слоя рекуррентной сети]]]
Рекуррентные нейронные сети {{---}} сети с циклами, которые хорошо подходят для обработки последовательностей.
[[File:RNN_BP.jpg|450px|thumb|RNN с задержкой на скрытом слое]]
[[File:RNN_BPTT.jpg|450px|thumb|Развертка RNN]]
Обучение RNN аналогично обучению обычной нейронной сети. Мы также используем [[:Обратное_распространение_ошибки|алгоритм обратного распространения ошибки (backpropagation)]], но с небольшим изменением. Поскольку одни и те же параметры используются на всех временных этапах в сети, градиент на каждом выходе зависит не только от расчетов текущего шага, но и от предыдущих временных шагов. Например, чтобы вычислить градиент при количестве слоев равном 4, нам нужно было бы «распространить ошибку» на 3 шага и суммировать градиенты. Этот алгоритм называется «алгоритмом обратного распространения ошибки сквозь время» (англ. Backpropagation Through Time, BPTT).<ref name=BPTT_1>[http://andrew.gibiansky.com/blog/machine-learning/recurrent-neural-networks/ Backpropagation Through Time]</ref><ref name=BPTT_2>[http://www.wildml.com/2015/10/recurrent-neural-networks-tutorial-part-3-backpropagation-through-time-and-vanishing-gradients/ Backpropagation Through Time]</ref>

== Области и примеры применения ==
Используются, когда важно соблюдать последовательность, когда важен порядок поступающих объектов.
* Обработка текста на естественном языке
** Анализ текста
** Автоматический перевод
* Обработка аудио
** Автоматическое распознавание речи
* Обработка видео
** Прогнозирование следующего кадра на основе предыдущих
** Распознавание эмоций
* Обработка изображений
** Прогнозирование следующего пикселя на основе окружения
** Генерация описания изображений

== Архитектуры ==
=== Полностью рекуррентная сеть ===
Это базовая архитектура, разработанная в 1980-х. Сеть строится из узлов, каждый из которых соединён со всеми другими узлами. У каждого нейрона порог активации меняется со временем и является вещественным числом. Каждое соединение имеет переменный вещественный вес. Узлы разделяются на входные, выходные и скрытые.

=== Рекурсивная сеть ===
[[:Рекурсивные нейронные сети|Рекурсивные нейронные сети]] представляют собой более общий случай рекуррентных сетей, когда сигнал в сети проходит через структуру в виде дерева (обычно бинарные деревья). Те же самые матрицы весов используются рекурсивно по всему графу в соответствии с его топологией.

=== Нейронная сеть Хопфилда ===
Тип рекуррентной сети, когда все соединения симметричны. Изобретена Джоном Хопфилдом в 1982 году и гарантируется, что динамика такой сети сходится к одному из положений равновесия.

=== Двунаправленная ассоциативная память (BAM) ===
Вариацией сети Хопфилда является двунаправленная ассоциативная память (BAM). BAM имеет два слоя, каждый из которых может выступать в качестве входного, находить (вспоминать) ассоциацию и генерировать результат для другого слоя.
[[File:Elman_RNN.jpg|450px|thumb|Сеть Элмана]]

=== Сеть Элмана ===
Нейронная сеть Элмана состоит из трёх слоев: x, y, z (см рис. Сеть Элмана). Дополнительно к сети добавлен набор «контекстных блоков»: u (см рис. Сеть Элмана). Средний (скрытый) слой соединён с контекстными блоками с фиксированным весом, равным единице. С каждым шагом времени на вход поступает информация, которая проходит прямой ход к выходному слою в соответствии с правилами обучения. Фиксированные обратные связи сохраняют предыдущие значения скрытого слоя в контекстных блоках (до того как скрытый слой поменяет значение в процессе обучения). Таким способом сеть сохраняет своё состояние, что может использоваться в предсказании последовательностей, выходя за пределы мощности многослойного перцептрона.

<math>h_t = \sigma_h(W_h x_t + U_h h_{t-1} + b_h)</math>

<math>y_t = \sigma_y(W_y h_t + b_y)</math>

Обозначения переменных и функций:
* <math>x_t</math>: вектор входного слоя
* <math>h_t</math>: вектор скрытого слоя
* <math>y_t</math>: вектор выходного слоя
* <math>W, U, b</math>: матрица и вектор параметров
* <math>\sigma_h, \sigma_y</math>: функция активации

=== Сеть Джордана ===
Нейронная сеть Джордана подобна сети Элмана, но контекстные блоки связаны не со скрытым слоем, а с выходным слоем. Контекстные блоки таким образом сохраняют своё состояние. Они обладают рекуррентной связью с собой.

<math>h_t = \sigma_h(W_h x_t + U_h y_{t-1} + b_h)</math>

<math>y_t = \sigma_y(W_y h_t + b_y)</math>

=== Эхо-сети ===
Эхо-сеть (англ. Echo State Network, ESN) характеризуется одним скрытым слоем (который называется резервуаром) со случайными редкими связями между нейронами. При этом связи внутри резервуара фиксированы, но связи с выходным слоем подлежат обучению. Состояние резервуара (state) вычисляется через предыдущие состояния резервуара, а также предыдущие состояния входного и выходного сигналов. Так как эхо-сети обладают только одним скрытым слоем, они обладают достаточно низкой вычислительной сложностью.

=== Нейронный компрессор истории ===
Нейронный компрессор исторических данных {{---}} это блок, позволяющий в сжатом виде хранить существенные исторические особенности процесса, который является своего рода стеком рекуррентной нейронной сети, формируемым в процессе самообучения.
[[File:LSTM.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Схема слоев рекуррентной сети долго-краткосрочной памяти]]]

=== Сети долго-краткосрочной памяти ===
[[:Долгая_краткосрочная_память_(LSTM)|Сеть долго-краткосрочной памяти]] (англ. Long short-term memory, LSTM) является самой популярной архитектурой рекуррентной нейронной сети на данный момент, данная архитектура способна запоминать данные на долгое время.<ref name=LSTM>[https://www.bioinf.jku.at/publications/older/2604.pdf Sepp Hochreiter, Jurgen Schmidhuber. Long short-term memory (1997). Neural Computation.]</ref>

=== Управляемые рекуррентные блоки ===
Управляемые рекуррентные блоки (англ. Gated Recurrent Units, GRU) {{---}} обладает меньшим количеством параметров, чем у LSTM, и в ней отсутствует выходное управление. При этом производительность в моделях речевого сигнала или полифонической музыки оказалась сопоставимой с LSTM.

== Пример кода ==
Пример кода на Python с использованием библиотеки Keras.<ref name=KerasRNN>[https://keras.io/layers/recurrent/ Keras RNN]</ref>

# Импорты
'''import''' numpy '''as''' np
'''from''' keras.preprocessing '''import''' sequence
'''from''' keras.models '''import''' Sequential
'''from''' keras.layers '''import''' Dense, Activation, Embedding
'''from''' keras.layers '''import''' LSTM
'''from''' keras.datasets '''import''' imdb

# Устанавливаем seed для обеспечения повторяемости результатов
np.random.seed(42)

# Указываем количество слов из частотного словаря, которое будет использоваться (отсортированы по частоте использования)
max_features = 5000

# Загружаем данные (датасет IMDB содержит 25000 рецензий на фильмы с правильным ответом для обучения и 25000 рецензий на фильмы с правильным ответом для тестирования)
(X_train, y_train), (X_test, y_test) = imdb.load_data(nb_words = max_features)

# Устанавливаем максимальную длину рецензий в словах, чтобы они все были одной длины
maxlen = 80

# Заполняем короткие рецензии пробелами, а длинные обрезаем
X_train = sequence.pad_sequences(X_train, maxlen = maxlen)
X_test = sequence.pad_sequences(X_test, maxlen = maxlen)

# Создаем модель последовательной сети
model = Sequential()
# Добавляем слой для векторного представления слов (5000 слов, каждое представлено вектором из 32 чисел, отключаем входной сигнал с вероятностью 20% для предотвращения переобучения)
model.add(Embedding(max_features, 32, dropout = 0.2))
# Добавляем слой долго-краткосрочной памяти (100 элементов для долговременного хранения информации, отключаем входной сигнал с вероятностью 20%, отключаем рекуррентный сигнал с вероятностью 20%)
model.add(LSTM(100, dropout_W = 0.2, dropout_U = 0.2))
# Добавляем полносвязный слой из 1 элемента для классификации, в качестве функции активации будем использовать сигмоидальную функцию
model.add(Dense(1, activation = 'sigmoid'))

# Компилируем модель нейронной сети
model.compile(loss = 'binary_crossentropy',
optimizer = 'adam',
metrics = ['accuracy'])

# Обучаем нейронную сеть (данные для обучения, ответы к данным для обучения, количество рецензий после анализа которого будут изменены веса, число эпох обучения, тестовые данные, показывать progress bar или нет)
model.fit(X_train, y_train,
batch_size = 64,
nb_epoch = 7,
validation_data = (X_test, y_test),
verbose = 1)

# Проверяем качество обучения на тестовых данных (если есть данные, которые не участвовали в обучении, лучше использовать их, но в нашем случае таковых нет)
scores = model.evaluate(X_test, y_test, batch_size = 64)
print('Точность на тестовых данных: %.2f%%' % (scores[1] * 100))

==См. также==
*[[:Сверточные_нейронные_сети|Сверточные нейронные сети]]
*[[:Нейронные_сети,_перцептрон|Нейронные сети, перцептрон]]
*[[:Рекурсивные нейронные сети|Рекурсивные нейронные сети]]

==Примечания==
<references/>

[[Категория: Машинное обучение]]
[[Категория: Нейронные сети]]
[[Категория: Рекуррентные нейронные сети]]

Файл:RNN BPTT.jpg

2019-01-25T21:47:49Z

Adel: Adel загрузил новую версию Файл:RNN BPTT.jpg

Файл:RNN BP.jpg

2019-01-25T21:47:11Z

Adel: Adel загрузил новую версию Файл:RNN BP.jpg

Рекуррентные нейронные сети

2019-01-24T15:39:23Z

Adel:

[[File:RNN.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ RNN и ее развернутое представление]]]
[[File:RNN_layer.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Схема слоя рекуррентной сети]]]

'''Рекуррентная нейронная сеть''' (англ. ''recurrent neural network'', ''RNN'') {{---}} вид [[:Нейронные_сети,_перцептрон|нейронных сетей]], где связи между элементами образуют направленную последовательность.

== Описание ==
Рекуррентные нейронные сети {{---}} сети с циклами, которые хорошо подходят для обработки последовательностей.
[[File:RNN_BP.jpg|450px|thumb|RNN с задержкой на скрытом слое]]
[[File:RNN_BPTT.jpg|450px|thumb|Развертка RNN]]
Обучение RNN аналогично обучению обычной нейронной сети. Мы также используем алгоритм обратного распространения ошибки (backpropagation), но с небольшим изменением. Поскольку одни и те же параметры используются на всех временных этапах в сети, градиент на каждом выходе зависит не только от расчетов текущего шага, но и от предыдущих временных шагов. Например, чтобы вычислить градиент при t = 4, нам нужно было бы «распространить ошибку» на 3 шага и суммировать градиенты. Этот алгоритм называется «алгоритмом обратного распространения ошибки сквозь время» (англ. Backpropagation Through Time, BPTT).<ref name=BPTT_1>[http://andrew.gibiansky.com/blog/machine-learning/recurrent-neural-networks/ Backpropagation Through Time]</ref><ref name=BPTT_2>[http://www.wildml.com/2015/10/recurrent-neural-networks-tutorial-part-3-backpropagation-through-time-and-vanishing-gradients/ Backpropagation Through Time]</ref>

== Области и примеры применения ==
Используются, когда важно соблюдать последовательность, когда нужен порядок того, что у нас происходит.
* Обработка текста на естественном языке
** Анализ текста
** Автоматический перевод
* Обработка аудио
** Автоматическое распознавание речи
* Обработка видео
** Прогнозирование следующего кадра на основе предыдущих
** Распознавание эмоций
* Обработка изображений
** Прогнозирование следующего пикселя на основе окружения
** Генерация описания изображений

== Архитектуры ==
=== Полностью рекуррентная сеть ===
Это базовая архитектура, разработанная в 1980-х. Сеть строится из узлов, каждый из которых соединён со всеми другими узлами. У каждого нейрона порог активации меняется со временем и является вещественным числом. Каждое соединение имеет переменный вещественный вес. Узлы разделяются на входные, выходные и скрытые.

=== Рекурсивная сеть ===
[[:Рекурсивные нейронные сети|Рекурсивные нейронные сети]] представляют собой более общий случай рекуррентных сетей, когда сигнал в сети проходит через структуру в виде дерева (обычно бинарные деревья). Те же самые матрицы весов используются рекурсивно по всему графу в соответствии с его топологией.

=== Нейронная сеть Хопфилда ===
Тип рекуррентной сети, когда все соединения симметричны. Изобретена Джоном Хопфилдом в 1982 году и гарантируется, что динамика такой сети сходится к одному из положений равновесия.

=== Двунаправленная ассоциативная память (BAM) ===
Вариацией сети Хопфилда является двунаправленная ассоциативная память (BAM). BAM имеет два слоя, каждый из которых может выступать в качестве входного, находить (вспоминать) ассоциацию и генерировать результат для другого слоя.
[[File:Elman_RNN.jpg|450px|thumb|Сеть Элмана]]

=== Сеть Элмана ===
Нейронная сеть Элмана состоит из трёх слоев: x, y, z (см рис. Сеть Элмана). Дополнительно к сети добавлен набор «контекстных блоков»: u (см рис. Сеть Элмана). Средний (скрытый) слой соединён с контекстными блоками с фиксированным весом, равным единице. С каждым шагом времени на вход поступает информация, которая проходит прямой ход к выходному слою в соответствии с правилами обучения. Фиксированные обратные связи сохраняют предыдущие значения скрытого слоя в контекстных блоках (до того как скрытый слой поменяет значение в процессе обучения). Таким способом сеть сохраняет своё состояние, что может использоваться в предсказании последовательностей, выходя за пределы мощности многослойного перцептрона.

<math>h_t = \sigma_h(W_h x_t + U_h h_{t-1} + b_h)</math>

<math>y_t = \sigma_y(W_y h_t + b_y)</math>

Обозначения переменных и функций:
* <math>x_t</math>: вектор входного слоя
* <math>h_t</math>: вектор скрытого слоя
* <math>y_t</math>: вектор выходного слоя
* <math>W, U, b</math>: матрица и вектор параметров
* <math>\sigma_h, \sigma_y</math>: функция активации

=== Сеть Джордана ===
Нейронная сеть Джордана подобна сети Элмана, но контекстные блоки связаны не со скрытым слоем, а с выходным слоем. Контекстные блоки таким образом сохраняют своё состояние. Они обладают рекуррентной связью с собой.

<math>h_t = \sigma_h(W_h x_t + U_h y_{t-1} + b_h)</math>

<math>y_t = \sigma_y(W_y h_t + b_y)</math>

=== Эхо-сети ===
Эхо-сеть (англ. Echo State Network, ESN) характеризуется одним скрытым слоем (который называется резервуаром) со случайными редкими связями между нейронами. При этом связи внутри резервуара фиксированы, но связи с выходным слоем подлежат обучению. Состояние резервуара (state) вычисляется через предыдущие состояния резервуара, а также предыдущие состояния входного и выходного сигналов. Так как эхо-сети обладают только одним скрытым слоем, они обладают достаточно низкой вычислительной сложностью.

=== Нейронный компрессор истории ===
Нейронный компрессор исторических данных {{---}} это блок, позволяющий в сжатом виде хранить существенные исторические особенности процесса, который является своего рода стеком рекуррентной нейронной сети, формируемым в процессе самообучения.
[[File:LSTM.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Схема слоев рекуррентной сети долго-краткосрочной памяти]]]

=== Сети долго-краткосрочной памяти ===
Сеть долго-краткосрочной памяти (англ. Long short-term memory, LSTM) является самой популярная архитектура рекуррентной нейронной сети на данный момент, данная архитектура способна запоминать данные на долгое время.<ref name=LSTM>[https://www.bioinf.jku.at/publications/older/2604.pdf Sepp Hochreiter, Jurgen Schmidhuber. Long short-term memory (1997). Neural Computation.]</ref>

Разберем работу слоев подробнее<ref name=Understanding_LSTM>[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Understanding LSTM Networks]</ref>:

Первый слой вычисляет, насколько на данном шаге ему нужно забыть предыдущую информацию {{---}} по сути множители к компонентам вектора памяти.
[[File:LSTM_F1.png|none|250px]]
<math>f_t = \sigma(W_f * [h_{t-1}, x_t] + b_f)</math>

Второй слой вычисляет, насколько ему интересна новая информация, пришедшая с сигналом {{---}} такой же множитель, но уже для наблюдения.
[[File:LSTM_F2.png|none|250px]]
<math>i_t = \sigma(W_f * [h_{t-1}, x_t] + b_i)</math>

<math>\tilde{C}_t = tanh(W_C * [h_{t-1}, x_t] + b_C)</math>

На третьем слое вычисляется линейная комбинация памяти и наблюдения с только вычисленными весами для каждой из компонент. Так получается новое состояние памяти, которое в таком же виде передаётся далее.
[[File:LSTM_F3.png|none|250px]]
<math>C_t = f_t * C_{t-1} + i_t * \tilde{C}_t</math>

Осталось вычислить output. Но поскольку часть входного сигнала уже в памяти, не нужно считать активацию по всему сигналу. Сначала сигнал проходит через сигмоиду, которая решает, какая его часть важна для дальнейших решений, затем гиперболический тангенс «размазывает» вектор памяти на отрезок от -1 до 1, и в конце эти два вектора перемножаются.
[[File:LSTM_F4.png|none|250px]]
<math>o_t = \sigma(W_o * [h_{t-1}, x_t] + b_o)</math>

<math>h_t = o_t * tanh(C_t)</math>

Полученные таким образом <math>h_t</math> и <math>C_t</math> передаются далее по цепочке.

=== Управляемые рекуррентные блоки ===
Управляемые рекуррентные блоки (англ. Gated Recurrent Units, GRU) {{---}} обладает меньшим количеством параметров, чем у LSTM, и в ней отсутствует выходное управление. При этом производительность в моделях речевого сигнала или полифонической музыки оказалась сопоставимой с LSTM.

== Пример кода ==
Пример кода на Python с использованием библиотеки Keras.<ref name=KerasRNN>[https://keras.io/layers/recurrent/ Keras RNN]</ref>

# Импорты
'''import''' numpy '''as''' np
'''from''' keras.preprocessing '''import''' sequence
'''from''' keras.models '''import''' Sequential
'''from''' keras.layers '''import''' Dense, Activation, Embedding
'''from''' keras.layers '''import''' LSTM
'''from''' keras.datasets '''import''' imdb

# Устанавливаем seed для обеспечения повторяемости результатов
np.random.seed(42)

# Указываем количество слов из частотного словаря, которое будет использоваться (отсортированы по частоте использования)
max_features = 5000

# Загружаем данные (датасет IMDB содержит 25000 рецензий на фильмы с правильным ответом для обучения и 25000 рецензий на фильмы с правильным ответом для тестирования)
(X_train, y_train), (X_test, y_test) = imdb.load_data(nb_words = max_features)

# Устанавливаем максимальную длину рецензий в словах, чтобы они все были одной длины
maxlen = 80

# Заполняем короткие рецензии пробелами, а длинные обрезаем
X_train = sequence.pad_sequences(X_train, maxlen = maxlen)
X_test = sequence.pad_sequences(X_test, maxlen = maxlen)

# Создаем модель последовательной сети
model = Sequential()
# Добавляем слой для векторного представления слов (5000 слов, каждое представлено вектором из 32 чисел, отключаем входной сигнал с вероятностью 20% для предотвращения переобучения)
model.add(Embedding(max_features, 32, dropout = 0.2))
# Добавляем слой долго-краткосрочной памяти (100 элементов для долговременного хранения информации, отключаем входной сигнал с вероятностью 20%, отключаем рекуррентный сигнал с вероятностью 20%)
model.add(LSTM(100, dropout_W = 0.2, dropout_U = 0.2))
# Добавляем полносвязный слой из 1 элемента для классификации, в качестве функции активации будем использовать сигмоидальную функцию
model.add(Dense(1, activation = 'sigmoid'))

# Компилируем модель нейронной сети
model.compile(loss = 'binary_crossentropy',
optimizer = 'adam',
metrics = ['accuracy'])

# Обучаем нейронную сеть (данные для обучения, ответы к данным для обучения, количество рецензий после анализа которого будут изменены веса, число эпох обучения, тестовые данные, показывать progress bar или нет)
model.fit(X_train, y_train,
batch_size = 64,
nb_epoch = 7,
validation_data = (X_test, y_test),
verbose = 1)

# Проверяем качество обучения на тестовых данных (если есть данные, которые не участвовали в обучении, лучше использовать их, но в нашем случае таковых нет)
scores = model.evaluate(X_test, y_test, batch_size = 64)
print('Точность на тестовых данных: %.2f%%' % (scores[1] * 100))

==См. также==
*[[:Сверточные_нейронные_сети|Сверточные нейронные сети]]
*[[:Нейронные_сети,_перцептрон|Нейронные сети, перцептрон]]
*[[:Рекурсивные нейронные сети|Рекурсивные нейронные сети]]

==Примечания==
<references/>

Рекуррентные нейронные сети

2019-01-23T13:57:52Z

Adel:

[[File:RNN.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ RNN и ее развернутое представление]]]
[[File:RNN_layer.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Схема слоя рекуррентной сети]]]

'''Рекуррентная нейронная сеть''' (англ. ''recurrent neural network'', ''RNN'') {{---}} вид [[:Нейронные сети|нейронных сетей]], где связи между элементами образуют направленную последовательность.

== Описание ==
Рекуррентные нейронные сети {{---}} сети с циклами, которые хорошо подходят для обработки последовательностей.
[[File:RNN_BP.jpg|450px|thumb|RNN с задержкой на скрытом слое]]
[[File:RNN_BPTT.jpg|450px|thumb|Развертка RNN]]
Обучение RNN аналогично обучению обычной нейронной сети. Мы также используем алгоритм обратного распространения ошибки (backpropagation), но с небольшим изменением. Поскольку одни и те же параметры используются на всех временных этапах в сети, градиент на каждом выходе зависит не только от расчетов текущего шага, но и от предыдущих временных шагов. Например, чтобы вычислить градиент при t = 4, нам нужно было бы «распространить ошибку» на 3 шага и суммировать градиенты. Этот алгоритм называется «алгоритмом обратного распространения ошибки сквозь время» (англ. Backpropagation Through Time, BPTT).<ref name=BPTT_1>[http://andrew.gibiansky.com/blog/machine-learning/recurrent-neural-networks/ Backpropagation Through Time]</ref><ref name=BPTT_2>[http://www.wildml.com/2015/10/recurrent-neural-networks-tutorial-part-3-backpropagation-through-time-and-vanishing-gradients/ Backpropagation Through Time]</ref>

== Области и примеры применения ==
Используются, когда важно соблюдать последовательность, когда нужен порядок того, что у нас происходит.
* Обработка текста на естественном языке
** Анализ текста
** Автоматический перевод
* Обработка аудио
** Автоматическое распознавание речи
* Обработка видео
** Прогнозирование следующего кадра на основе предыдущих
** Распознавание эмоций
* Обработка изображений
** Прогнозирование следующего пикселя на основе окружения
** Генерация описания изображений

== Архитектуры ==
=== Полностью рекуррентная сеть ===
Это базовая архитектура, разработанная в 1980-х. Сеть строится из узлов, каждый из которых соединён со всеми другими узлами. У каждого нейрона порог активации меняется со временем и является вещественным числом. Каждое соединение имеет переменный вещественный вес. Узлы разделяются на входные, выходные и скрытые.

=== Рекурсивная сеть ===
[[:Рекурсивные нейронные сети|Рекурсивные нейронные сети]] представляют собой более общий случай рекуррентных сетей, когда сигнал в сети проходит через структуру в виде дерева (обычно бинарные деревья). Те же самые матрицы весов используются рекурсивно по всему графу в соответствии с его топологией.

=== Нейронная сеть Хопфилда ===
Тип рекуррентной сети, когда все соединения симметричны. Изобретена Джоном Хопфилдом в 1982 году и гарантируется, что динамика такой сети сходится к одному из положений равновесия.

=== Двунаправленная ассоциативная память (BAM) ===
Вариацией сети Хопфилда является двунаправленная ассоциативная память (BAM). BAM имеет два слоя, каждый из которых может выступать в качестве входного, находить (вспоминать) ассоциацию и генерировать результат для другого слоя.
[[File:Elman_RNN.jpg|450px|thumb|Сеть Элмана]]

=== Сеть Элмана ===
Нейронная сеть Элмана состоит из трёх слоев: x, y, z (см рис. Сеть Элмана). Дополнительно к сети добавлен набор «контекстных блоков»: u (см рис. Сеть Элмана). Средний (скрытый) слой соединён с контекстными блоками с фиксированным весом, равным единице. С каждым шагом времени на вход поступает информация, которая проходит прямой ход к выходному слою в соответствии с правилами обучения. Фиксированные обратные связи сохраняют предыдущие значения скрытого слоя в контекстных блоках (до того как скрытый слой поменяет значение в процессе обучения). Таким способом сеть сохраняет своё состояние, что может использоваться в предсказании последовательностей, выходя за пределы мощности многослойного перцептрона.

<math>h_t = \sigma_h(W_h x_t + U_h h_{t-1} + b_h)</math>

<math>y_t = \sigma_y(W_y h_t + b_y)</math>

Обозначения переменных и функций:
* <math>x_t</math>: вектор входного слоя
* <math>h_t</math>: вектор скрытого слоя
* <math>y_t</math>: вектор выходного слоя
* <math>W, U, b</math>: матрица и вектор параметров
* <math>\sigma_h, \sigma_y</math>: функция активации

=== Сеть Джордана ===
Нейронная сеть Джордана подобна сети Элмана, но контекстные блоки связаны не со скрытым слоем, а с выходным слоем. Контекстные блоки таким образом сохраняют своё состояние. Они обладают рекуррентной связью с собой.

<math>h_t = \sigma_h(W_h x_t + U_h y_{t-1} + b_h)</math>

<math>y_t = \sigma_y(W_y h_t + b_y)</math>

=== Эхо-сети ===
Эхо-сеть (англ. Echo State Network, ESN) характеризуется одним скрытым слоем (который называется резервуаром) со случайными редкими связями между нейронами. При этом связи внутри резервуара фиксированы, но связи с выходным слоем подлежат обучению. Состояние резервуара (state) вычисляется через предыдущие состояния резервуара, а также предыдущие состояния входного и выходного сигналов. Так как эхо-сети обладают только одним скрытым слоем, они обладают достаточно низкой вычислительной сложностью.

=== Нейронный компрессор истории ===
Нейронный компрессор исторических данных {{---}} это блок, позволяющий в сжатом виде хранить существенные исторические особенности процесса, который является своего рода стеком рекуррентной нейронной сети, формируемым в процессе самообучения.
[[File:LSTM.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Схема слоев рекуррентной сети долго-краткосрочной памяти]]]

=== Сети долго-краткосрочной памяти ===
Сеть долго-краткосрочной памяти (англ. Long short-term memory, LSTM) является самой популярная архитектура рекуррентной нейронной сети на данный момент, данная архитектура способна запоминать данные на долгое время.<ref name=LSTM>[https://www.bioinf.jku.at/publications/older/2604.pdf Sepp Hochreiter, Jurgen Schmidhuber. Long short-term memory (1997). Neural Computation.]</ref>

Разберем работу слоев подробнее<ref name=Understanding_LSTM>[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Understanding LSTM Networks]</ref>:

Первый слой вычисляет, насколько на данном шаге ему нужно забыть предыдущую информацию {{---}} по сути множители к компонентам вектора памяти.
[[File:LSTM_F1.png|none|250px]]
<math>f_t = \sigma(W_f * [h_{t-1}, x_t] + b_f)</math>

Второй слой вычисляет, насколько ему интересна новая информация, пришедшая с сигналом {{---}} такой же множитель, но уже для наблюдения.
[[File:LSTM_F2.png|none|250px]]
<math>i_t = \sigma(W_f * [h_{t-1}, x_t] + b_i)</math>

<math>\tilde{C}_t = tanh(W_C * [h_{t-1}, x_t] + b_C)</math>

На третьем слое вычисляется линейная комбинация памяти и наблюдения с только вычисленными весами для каждой из компонент. Так получается новое состояние памяти, которое в таком же виде передаётся далее.
[[File:LSTM_F3.png|none|250px]]
<math>C_t = f_t * C_{t-1} + i_t * \tilde{C}_t</math>

Осталось вычислить output. Но поскольку часть входного сигнала уже в памяти, не нужно считать активацию по всему сигналу. Сначала сигнал проходит через сигмоиду, которая решает, какая его часть важна для дальнейших решений, затем гиперболический тангенс «размазывает» вектор памяти на отрезок от -1 до 1, и в конце эти два вектора перемножаются.
[[File:LSTM_F4.png|none|250px]]
<math>o_t = \sigma(W_o * [h_{t-1}, x_t] + b_o)</math>

<math>h_t = o_t * tanh(C_t)</math>

Полученные таким образом <math>h_t</math> и <math>C_t</math> передаются далее по цепочке.

=== Управляемые рекуррентные блоки ===
Управляемые рекуррентные блоки (англ. Gated Recurrent Units, GRU) {{---}} обладает меньшим количеством параметров, чем у LSTM, и в ней отсутствует выходное управление. При этом производительность в моделях речевого сигнала или полифонической музыки оказалась сопоставимой с LSTM.

== Пример кода ==
Пример кода на Python с использованием библиотеки Keras.<ref name=KerasRNN>[https://keras.io/layers/recurrent/ Keras RNN]</ref>

# Импорты
'''import''' numpy '''as''' np
'''from''' keras.preprocessing '''import''' sequence
'''from''' keras.models '''import''' Sequential
'''from''' keras.layers '''import''' Dense, Activation, Embedding
'''from''' keras.layers '''import''' LSTM
'''from''' keras.datasets '''import''' imdb

# Устанавливаем seed для обеспечения повторяемости результатов
np.random.seed(42)

# Указываем количество слов из частотного словаря, которое будет использоваться (отсортированы по частоте использования)
max_features = 5000

# Загружаем данные (датасет IMDB содержит 25000 рецензий на фильмы с правильным ответом для обучения и 25000 рецензий на фильмы с правильным ответом для тестирования)
(X_train, y_train), (X_test, y_test) = imdb.load_data(nb_words = max_features)

# Устанавливаем максимальную длину рецензий в словах, чтобы они все были одной длины
maxlen = 80

# Заполняем короткие рецензии пробелами, а длинные обрезаем
X_train = sequence.pad_sequences(X_train, maxlen = maxlen)
X_test = sequence.pad_sequences(X_test, maxlen = maxlen)

# Создаем модель последовательной сети
model = Sequential()
# Добавляем слой для векторного представления слов (5000 слов, каждое представлено вектором из 32 чисел, отключаем входной сигнал с вероятностью 20% для предотвращения переобучения)
model.add(Embedding(max_features, 32, dropout = 0.2))
# Добавляем слой долго-краткосрочной памяти (100 элементов для долговременного хранения информации, отключаем входной сигнал с вероятностью 20%, отключаем рекуррентный сигнал с вероятностью 20%)
model.add(LSTM(100, dropout_W = 0.2, dropout_U = 0.2))
# Добавляем полносвязный слой из 1 элемента для классификации, в качестве функции активации будем использовать сигмоидальную функцию
model.add(Dense(1, activation = 'sigmoid'))

# Компилируем модель нейронной сети
model.compile(loss = 'binary_crossentropy',
optimizer = 'adam',
metrics = ['accuracy'])

# Обучаем нейронную сеть (данные для обучения, ответы к данным для обучения, количество рецензий после анализа которого будут изменены веса, число эпох обучения, тестовые данные, показывать progress bar или нет)
model.fit(X_train, y_train,
batch_size = 64,
nb_epoch = 7,
validation_data = (X_test, y_test),
verbose = 1)

# Проверяем качество обучения на тестовых данных (если есть данные, которые не участвовали в обучении, лучше использовать их, но в нашем случае таковых нет)
scores = model.evaluate(X_test, y_test, batch_size = 64)
print('Точность на тестовых данных: %.2f%%' % (scores[1] * 100))

==См. также==
*[[:Сверточные_нейронные_сети|Сверточные нейронные сети]]
*[[:Нейронные_сети,_перцептрон|Нейронные сети, перцептрон]]
*[[:Рекурсивные нейронные сети|Рекурсивные нейронные сети]]

==Примечания==
<references/>

Рекуррентные нейронные сети

2019-01-23T02:57:39Z

Adel:

[[File:RNN.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ RNN и ее развернутое представление]]]
[[File:RNN_layer.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Схема слоя рекуррентной сети]]]

'''Рекуррентная нейронная сеть''' (англ. ''recurrent neural network'', ''RNN'') {{---}} вид [[:Нейронные сети|нейронных сетей]], где связи между элементами образуют направленную последовательность.

== Описание ==
Рекуррентные нейронные сети {{---}} сети с циклами, которые хорошо подходят для обработки последовательностей.
[[File:RNN_BP.jpg|450px|thumb|RNN с задержкой на скрытом слое]]
[[File:RNN_BPTT.jpg|450px|thumb|Развертка RNN]]
Обучение RNN аналогично обучению обычной нейронной сети. Мы также используем алгоритм обратного распространения ошибки (backpropagation), но с небольшим изменением. Поскольку одни и те же параметры используются на всех временных этапах в сети, градиент на каждом выходе зависит не только от расчетов текущего шага, но и от предыдущих временных шагов. Например, чтобы вычислить градиент при t = 4, нам нужно было бы «распространить ошибку» на 3 шага и суммировать градиенты. Этот алгоритм называется «алгоритмом обратного распространения ошибки сквозь время» (англ. Backpropagation Through Time, BPTT).<ref name=BPTT_1>[http://andrew.gibiansky.com/blog/machine-learning/recurrent-neural-networks/ Backpropagation Through Time]</ref><ref name=BPTT_2>[http://www.wildml.com/2015/10/recurrent-neural-networks-tutorial-part-3-backpropagation-through-time-and-vanishing-gradients/ Backpropagation Through Time]</ref>

== Области и примеры применения ==
Используются, когда важно соблюдать последовательность, когда нужен порядок того, что у нас происходит.
* Обработка текста на естественном языке
** Анализ текста
** Автоматический перевод
* Обработка аудио
** Автоматическое распознавание речи
* Обработка видео
** Прогнозирование следующего кадра на основе предыдущих
** Распознавание эмоций
* Обработка изображений
** Прогнозирование следующего пикселя на основе окружения
** Генерация описания изображений

== Архитектуры ==
=== Полностью рекуррентная сеть ===
Это базовая архитектура, разработанная в 1980-х. Сеть строится из узлов, каждый из которых соединён со всеми другими узлами. У каждого нейрона порог активации меняется со временем и является вещественным числом. Каждое соединение имеет переменный вещественный вес. Узлы разделяются на входные, выходные и скрытые.

=== Рекурсивная сеть ===
[[:Рекурсивные нейронные сети|Рекурсивные нейронные сети]] представляют собой более общий случай рекуррентных сетей, когда сигнал в сети проходит через структуру в виде дерева (обычно бинарные деревья). Те же самые матрицы весов используются рекурсивно по всему графу в соответствии с его топологией.

=== Нейронная сеть Хопфилда ===
Тип рекуррентной сети, когда все соединения симметричны. Изобретена Джоном Хопфилдом в 1982 году и гарантируется, что динамика такой сети сходится к одному из положений равновесия.

=== Двунаправленная ассоциативная память (BAM) ===
Вариацией сети Хопфилда является двунаправленная ассоциативная память (BAM). BAM имеет два слоя, каждый из которых может выступать в качестве входного, находить (вспоминать) ассоциацию и генерировать результат для другого слоя.
[[File:Elman_RNN.jpg|450px|thumb|Сеть Элмана]]

=== Сеть Элмана ===
Нейронная сеть Элмана состоит из трёх слоев: x, y, z (см рис. Сеть Элмана). Дополнительно к сети добавлен набор «контекстных блоков»: u (см рис. Сеть Элмана). Средний (скрытый) слой соединён с контекстными блоками с фиксированным весом, равным единице. С каждым шагом времени на вход поступает информация, которая проходит прямой ход к выходному слою в соответствии с правилами обучения. Фиксированные обратные связи сохраняют предыдущие значения скрытого слоя в контекстных блоках (до того как скрытый слой поменяет значение в процессе обучения). Таким способом сеть сохраняет своё состояние, что может использоваться в предсказании последовательностей, выходя за пределы мощности многослойного перцептрона.

<math>h_t = \sigma_h(W_h x_t + U_h h_{t-1} + b_h)</math>

<math>y_t = \sigma_y(W_y h_t + b_y)</math>

Обозначения переменных и функций:
* <math>x_t</math>: вектор входного слоя
* <math>h_t</math>: вектор скрытого слоя
* <math>y_t</math>: вектор выходного слоя
* <math>W, U, b</math>: матрица и вектор параметров
* <math>\sigma_h, \sigma_y</math>: функция активации

=== Сеть Джордана ===
Нейронная сеть Джордана подобна сети Элмана, но контекстные блоки связаны не со скрытым слоем, а с выходным слоем. Контекстные блоки таким образом сохраняют своё состояние. Они обладают рекуррентной связью с собой.

<math>h_t = \sigma_h(W_h x_t + U_h y_{t-1} + b_h)</math>

<math>y_t = \sigma_y(W_y h_t + b_y)</math>

=== Эхо-сети ===
Эхо-сеть (англ. Echo State Network, ESN) характеризуется одним скрытым слоем (который называется резервуаром) со случайными редкими связями между нейронами. При этом связи внутри резервуара фиксированы, но связи с выходным слоем подлежат обучению. Состояние резервуара (state) вычисляется через предыдущие состояния резервуара, а также предыдущие состояния входного и выходного сигналов. Так как эхо-сети обладают только одним скрытым слоем, они обладают достаточно низкой вычислительной сложностью.

=== Нейронный компрессор истории ===
Нейронный компрессор исторических данных {{---}} это блок, позволяющий в сжатом виде хранить существенные исторические особенности процесса, который является своего рода стеком рекуррентной нейронной сети, формируемым в процессе самообучения.
[[File:LSTM.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Схема слоев рекуррентной сети долго-краткосрочной памяти]]]

=== Сети долго-краткосрочной памяти ===
Сеть долго-краткосрочной памяти (англ. Long short-term memory, LSTM) является самой популярная архитектура рекуррентной нейронной сети на данный момент, данная архитектура способна запоминать данные на долгое время.<ref name=LSTM>[https://www.bioinf.jku.at/publications/older/2604.pdf Sepp Hochreiter, Jurgen Schmidhuber. Long short-term memory (1997). Neural Computation.]</ref>

Разберем работу слоев подробнее<ref name=Understanding_LSTM>[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Understanding LSTM Networks]</ref>:

Первый слой вычисляет, насколько на данном шаге ему нужно забыть предыдущую информацию {{---}} по сути множители к компонентам вектора памяти.
[[File:LSTM_F1.png|none|250px]]
<math>f_t = \sigma(W_f * [h_{t-1}, x_t] + b_f)</math>

Второй слой вычисляет, насколько ему интересна новая информация, пришедшая с сигналом {{---}} такой же множитель, но уже для наблюдения.
[[File:LSTM_F2.png|none|250px]]
<math>i_t = \sigma(W_f * [h_{t-1}, x_t] + b_i)</math>

<math>\tilde{C}_t = tanh(W_C * [h_{t-1}, x_t] + b_C)</math>

На третьем слое вычисляется линейная комбинация памяти и наблюдения с только вычисленными весами для каждой из компонент. Так получается новое состояние памяти, которое в таком же виде передаётся далее.
[[File:LSTM_F3.png|none|250px]]
<math>C_t = f_t * C_{t-1} + i_t * \tilde{C}_t</math>

Осталось вычислить output. Но поскольку часть входного сигнала уже в памяти, не нужно считать активацию по всему сигналу. Сначала сигнал проходит через сигмоиду, которая решает, какая его часть важна для дальнейших решений, затем гиперболический тангенс «размазывает» вектор памяти на отрезок от -1 до 1, и в конце эти два вектора перемножаются.
[[File:LSTM_F4.png|none|250px]]
<math>o_t = \sigma(W_o * [h_{t-1}, x_t] + b_o)</math>

<math>h_t = o_t * tanh(C_t)</math>

Полученные таким образом <math>h_t</math> и <math>C_t</math> передаются далее по цепочке.

=== Управляемые рекуррентные блоки ===
Управляемые рекуррентные блоки (англ. Gated Recurrent Units, GRU) {{---}} обладает меньшим количеством параметров, чем у LSTM, и в ней отсутствует выходное управление. При этом производительность в моделях речевого сигнала или полифонической музыки оказалась сопоставимой с LSTM.

== Пример кода ==
Пример кода на Python с использованием библиотеки Keras.<ref name=KerasRNN>[https://keras.io/layers/recurrent/ Keras RNN]</ref>
<pre>
# Импорты
import numpy as np
from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Activation, Embedding
from keras.layers import LSTM
from keras.datasets import imdb

# Устанавливаем seed для обеспечения повторяемости результатов
np.random.seed(42)

# Указываем количество слов из частотного словаря, которое будет использоваться (отсортированы по частоте использования)
max_features = 5000

# Загружаем данные (датасет IMDB содержит 25000 рецензий на фильмы с правильным ответом для обучения и 25000 рецензий на фильмы с правильным ответом для тестирования)
(X_train, y_train), (X_test, y_test) = imdb.load_data(nb_words = max_features)

# Устанавливаем максимальную длину рецензий в словах, чтобы они все были одной длины
maxlen = 80

# Заполняем короткие рецензии пробелами, а длинные обрезаем
X_train = sequence.pad_sequences(X_train, maxlen = maxlen)
X_test = sequence.pad_sequences(X_test, maxlen = maxlen)

# Создаем модель последовательной сети
model = Sequential()
# Добавляем слой для векторного представления слов (5000 слов, каждое представлено вектором из 32 чисел, отключаем входной сигнал с вероятностью 20% для предотвращения переобучения)
model.add(Embedding(max_features, 32, dropout = 0.2))
# Добавляем слой долго-краткосрочной памяти (100 элементов для долговременного хранения информации, отключаем входной сигнал с вероятностью 20%, отключаем рекуррентный сигнал с вероятностью 20%)
model.add(LSTM(100, dropout_W = 0.2, dropout_U = 0.2))
# Добавляем полносвязный слой из 1 элемента для классификации, в качестве функции активации будем использовать сигмоидальную функцию
model.add(Dense(1, activation = "sigmoid"))

# Компилируем модель нейронной сети
model.compile(loss = 'binary_crossentropy',
optimizer = 'adam',
metrics = ['accuracy'])

# Обучаем нейронную сеть (данные для обучения, ответы к данным для обучения, количество рецензий после анализа которого будут изменены веса, число эпох обучения, тестовые данные, показывать progress bar или нет)
model.fit(X_train, y_train,
batch_size = 64,
nb_epoch = 7,
validation_data = (X_test, y_test),
verbose = 1)

# Проверяем качество обучения на тестовых данных (если есть данные, которые не участвовали в обучении, лучше использовать их, но в нашем случае таковых нет)
scores = model.evaluate(X_test, y_test, batch_size = 64)
print("Точность на тестовых данных: %.2f%%" % (scores[1] * 100))
</pre>

==См. также==
*[[:Сверточные_нейронные_сети|Сверточные нейронные сети]]
*[[:Нейронные_сети,_перцептрон|Нейронные сети, перцептрон]]
*[[:Рекурсивные нейронные сети|Рекурсивные нейронные сети]]

==Примечания==
<references/>

Рекуррентные нейронные сети

2019-01-23T02:55:24Z

Adel:

[[File:RNN.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ RNN и ее развернутое представление]]]
[[File:RNN_layer.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Схема слоя рекуррентной сети]]]

'''Рекуррентная нейронная сеть''' (англ. ''recurrent neural network'', ''RNN'') {{---}} вид [[:Нейронные сети|нейронных сетей]], где связи между элементами образуют направленную последовательность.

== Описание ==
Рекуррентные нейронные сети {{---}} сети с циклами, которые хорошо подходят для обработки последовательностей.
[[File:RNN_BP.jpg|450px|thumb|RNN с задержкой на скрытом слое]]
[[File:RNN_BPTT.jpg|450px|thumb|Развертка RNN]]
Обучение RNN аналогично обучению обычной нейронной сети. Мы также используем алгоритм обратного распространения ошибки (backpropagation), но с небольшим изменением. Поскольку одни и те же параметры используются на всех временных этапах в сети, градиент на каждом выходе зависит не только от расчетов текущего шага, но и от предыдущих временных шагов. Например, чтобы вычислить градиент при t = 4, нам нужно было бы «распространить ошибку» на 3 шага и суммировать градиенты. Этот алгоритм называется «алгоритмом обратного распространения ошибки сквозь время» (англ. Backpropagation Through Time, BPTT).<ref name=BPTT_1>[http://andrew.gibiansky.com/blog/machine-learning/recurrent-neural-networks/ Backpropagation Through Time]</ref><ref name=BPTT_2>[http://www.wildml.com/2015/10/recurrent-neural-networks-tutorial-part-3-backpropagation-through-time-and-vanishing-gradients/ Backpropagation Through Time]</ref>

== Области и примеры применения ==
Используются, когда важно соблюдать последовательность, когда нужен порядок того, что у нас происходит.
* Обработка текста на естественном языке
** Анализ текста
** Автоматический перевод
* Обработка аудио
** Автоматическое распознавание речи
* Обработка видео
** Прогнозирование следующего кадра на основе предыдущих
** Распознавание эмоций
* Обработка изображений
** Прогнозирование следующего пикселя на основе окружения
** Генерация описания изображений

== Архитектуры ==
=== Полностью рекуррентная сеть ===
Это базовая архитектура, разработанная в 1980-х. Сеть строится из узлов, каждый из которых соединён со всеми другими узлами. У каждого нейрона порог активации меняется со временем и является вещественным числом. Каждое соединение имеет переменный вещественный вес. Узлы разделяются на входные, выходные и скрытые.

=== Рекурсивная сеть ===
[[:Рекурсивные нейронные сети|Рекурсивные нейронные сети]] представляют собой более общий случай рекуррентных сетей, когда сигнал в сети проходит через структуру в виде дерева (обычно бинарные деревья). Те же самые матрицы весов используются рекурсивно по всему графу в соответствии с его топологией.

=== Нейронная сеть Хопфилда ===
Тип рекуррентной сети, когда все соединения симметричны. Изобретена Джоном Хопфилдом в 1982 году и гарантируется, что динамика такой сети сходится к одному из положений равновесия.

=== Двунаправленная ассоциативная память (BAM) ===
Вариацией сети Хопфилда является двунаправленная ассоциативная память (BAM). BAM имеет два слоя, каждый из которых может выступать в качестве входного, находить (вспоминать) ассоциацию и генерировать результат для другого слоя.
[[File:Elman_RNN.jpg|450px|thumb|Сеть Элмана]]

=== Сеть Элмана ===
Нейронная сеть Элмана состоит из трёх слоев: x, y, z (см рис. Сеть Элмана). Дополнительно к сети добавлен набор «контекстных блоков»: u (см рис. Сеть Элмана). Средний (скрытый) слой соединён с контекстными блоками с фиксированным весом, равным единице. С каждым шагом времени на вход поступает информация, которая проходит прямой ход к выходному слою в соответствии с правилами обучения. Фиксированные обратные связи сохраняют предыдущие значения скрытого слоя в контекстных блоках (до того как скрытый слой поменяет значение в процессе обучения). Таким способом сеть сохраняет своё состояние, что может использоваться в предсказании последовательностей, выходя за пределы мощности многослойного перцептрона.

<math>h_t = \sigma_h(W_h x_t + U_h h_{t-1} + b_h)</math>

<math>y_t = \sigma_y(W_y h_t + b_y)</math>

Обозначения переменных и функций:
* <math>x_t</math>: вектор входного слоя
* <math>h_t</math>: вектор скрытого слоя
* <math>y_t</math>: вектор выходного слоя
* <math>W, U и b</math>: матрица и вектор параметров
* <math>\sigma_h и \sigma_y</math>: функция активации

=== Сеть Джордана ===
Нейронная сеть Джордана подобна сети Элмана, но контекстные блоки связаны не со скрытым слоем, а с выходным слоем. Контекстные блоки таким образом сохраняют своё состояние. Они обладают рекуррентной связью с собой.

<math>h_t = \sigma_h(W_h x_t + U_h y_{t-1} + b_h)</math>

<math>y_t = \sigma_y(W_y h_t + b_y)</math>

=== Эхо-сети ===
Эхо-сеть (англ. Echo State Network, ESN) характеризуется одним скрытым слоем (который называется резервуаром) со случайными редкими связями между нейронами. При этом связи внутри резервуара фиксированы, но связи с выходным слоем подлежат обучению. Состояние резервуара (state) вычисляется через предыдущие состояния резервуара, а также предыдущие состояния входного и выходного сигналов. Так как эхо-сети обладают только одним скрытым слоем, они обладают достаточно низкой вычислительной сложностью.

=== Нейронный компрессор истории ===
Нейронный компрессор исторических данных {{---}} это блок, позволяющий в сжатом виде хранить существенные исторические особенности процесса, который является своего рода стеком рекуррентной нейронной сети, формируемым в процессе самообучения.
[[File:LSTM.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Схема слоев рекуррентной сети долго-краткосрочной памяти]]]

=== Сети долго-краткосрочной памяти ===
Сеть долго-краткосрочной памяти (англ. Long short-term memory, LSTM) является самой популярная архитектура рекуррентной нейронной сети на данный момент, данная архитектура способна запоминать данные на долгое время.<ref name=LSTM>[https://www.bioinf.jku.at/publications/older/2604.pdf Sepp Hochreiter, Jurgen Schmidhuber. Long short-term memory (1997). Neural Computation.]</ref>

Разберем работу слоев подробнее<ref name=Understanding_LSTM>[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Understanding LSTM Networks]</ref>:

Первый слой вычисляет, насколько на данном шаге ему нужно забыть предыдущую информацию {{---}} по сути множители к компонентам вектора памяти.
[[File:LSTM_F1.png|none|250px]]
<math>f_t = \sigma(W_f * [h_{t-1}, x_t] + b_f)</math>

Второй слой вычисляет, насколько ему интересна новая информация, пришедшая с сигналом {{---}} такой же множитель, но уже для наблюдения.
[[File:LSTM_F2.png|none|250px]]
<math>i_t = \sigma(W_f * [h_{t-1}, x_t] + b_i)</math>

<math>\tilde{C}_t = tanh(W_C * [h_{t-1}, x_t] + b_C)</math>

На третьем слое вычисляется линейная комбинация памяти и наблюдения с только вычисленными весами для каждой из компонент. Так получается новое состояние памяти, которое в таком же виде передаётся далее.
[[File:LSTM_F3.png|none|250px]]
<math>C_t = f_t * C_{t-1} + i_t * \tilde{C}_t</math>

Осталось вычислить output. Но поскольку часть входного сигнала уже в памяти, не нужно считать активацию по всему сигналу. Сначала сигнал проходит через сигмоиду, которая решает, какая его часть важна для дальнейших решений, затем гиперболический тангенс «размазывает» вектор памяти на отрезок от -1 до 1, и в конце эти два вектора перемножаются.
[[File:LSTM_F4.png|none|250px]]
<math>o_t = \sigma(W_o * [h_{t-1}, x_t] + b_o)</math>

<math>h_t = o_t * tanh(C_t)</math>

Полученные таким образом <math>h_t</math> и <math>C_t</math> передаются далее по цепочке.

=== Управляемые рекуррентные блоки ===
Управляемые рекуррентные блоки (англ. Gated Recurrent Units, GRU) {{---}} обладает меньшим количеством параметров, чем у LSTM, и в ней отсутствует выходное управление. При этом производительность в моделях речевого сигнала или полифонической музыки оказалась сопоставимой с LSTM.

== Пример кода ==
Пример кода на Python с использованием библиотеки Keras.<ref name=KerasRNN>[https://keras.io/layers/recurrent/ Keras RNN]</ref>
<pre>
# Импорты
import numpy as np
from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Activation, Embedding
from keras.layers import LSTM
from keras.datasets import imdb

# Устанавливаем seed для обеспечения повторяемости результатов
np.random.seed(42)

# Указываем количество слов из частотного словаря, которое будет использоваться (отсортированы по частоте использования)
max_features = 5000

# Загружаем данные (датасет IMDB содержит 25000 рецензий на фильмы с правильным ответом для обучения и 25000 рецензий на фильмы с правильным ответом для тестирования)
(X_train, y_train), (X_test, y_test) = imdb.load_data(nb_words = max_features)

# Устанавливаем максимальную длину рецензий в словах, чтобы они все были одной длины
maxlen = 80

# Заполняем короткие рецензии пробелами, а длинные обрезаем
X_train = sequence.pad_sequences(X_train, maxlen = maxlen)
X_test = sequence.pad_sequences(X_test, maxlen = maxlen)

# Создаем модель последовательной сети
model = Sequential()
# Добавляем слой для векторного представления слов (5000 слов, каждое представлено вектором из 32 чисел, отключаем входной сигнал с вероятностью 20% для предотвращения переобучения)
model.add(Embedding(max_features, 32, dropout = 0.2))
# Добавляем слой долго-краткосрочной памяти (100 элементов для долговременного хранения информации, отключаем входной сигнал с вероятностью 20%, отключаем рекуррентный сигнал с вероятностью 20%)
model.add(LSTM(100, dropout_W = 0.2, dropout_U = 0.2))
# Добавляем полносвязный слой из 1 элемента для классификации, в качестве функции активации будем использовать сигмоидальную функцию
model.add(Dense(1, activation = "sigmoid"))

# Компилируем модель нейронной сети
model.compile(loss = 'binary_crossentropy',
optimizer = 'adam',
metrics = ['accuracy'])

# Обучаем нейронную сеть (данные для обучения, ответы к данным для обучения, количество рецензий после анализа которого будут изменены веса, число эпох обучения, тестовые данные, показывать progress bar или нет)
model.fit(X_train, y_train,
batch_size = 64,
nb_epoch = 7,
validation_data = (X_test, y_test),
verbose = 1)

# Проверяем качество обучения на тестовых данных (если есть данные, которые не участвовали в обучении, лучше использовать их, но в нашем случае таковых нет)
scores = model.evaluate(X_test, y_test, batch_size = 64)
print("Точность на тестовых данных: %.2f%%" % (scores[1] * 100))
</pre>

==См. также==
*[[:Сверточные_нейронные_сети|Сверточные нейронные сети]]
*[[:Нейронные_сети,_перцептрон|Нейронные сети, перцептрон]]
*[[:Рекурсивные нейронные сети|Рекурсивные нейронные сети]]

==Примечания==
<references/>

Рекуррентные нейронные сети

2019-01-23T02:36:37Z

Adel: Новая страница: «[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ RNN и ее развернутое представление] File:RNN_…»

[[File:RNN.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ RNN и ее развернутое представление]]]
[[File:RNN_layer.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Схема слоя рекуррентной сети]]]

'''Рекуррентная нейронная сеть''' (англ. ''recurrent neural network'', ''RNN'') {{---}} вид [[:Нейронные сети|нейронных сетей]], где связи между элементами образуют направленную последовательность.

== Описание ==
Рекуррентные нейронные сети {{---}} сети с циклами, которые хорошо подходят для обработки последовательностей.
[[File:RNN_BP.jpg|450px|thumb|RNN с задержкой на скрытом слое]]
[[File:RNN_BPTT.jpg|450px|thumb|Развертка RNN]]
Обучение RNN аналогично обучению обычной нейронной сети. Мы также используем алгоритм обратного распространения ошибки (backpropagation), но с небольшим изменением. Поскольку одни и те же параметры используются на всех временных этапах в сети, градиент на каждом выходе зависит не только от расчетов текущего шага, но и от предыдущих временных шагов. Например, чтобы вычислить градиент при t = 4, нам нужно было бы «распространить ошибку» на 3 шага и суммировать градиенты. Этот алгоритм называется «алгоритмом обратного распространения ошибки сквозь время» (англ. Backpropagation Through Time, BPTT).<ref name=BPTT_1>[http://andrew.gibiansky.com/blog/machine-learning/recurrent-neural-networks/ Backpropagation Through Time]</ref><ref name=BPTT_2>[http://www.wildml.com/2015/10/recurrent-neural-networks-tutorial-part-3-backpropagation-through-time-and-vanishing-gradients/ Backpropagation Through Time]</ref>

== Области и примеры применения ==
Используются, когда важно соблюдать последовательность, когда нужен порядок того, что у нас происходит.
* Обработка текста на естественном языке
** Анализ текста
** Автоматический перевод
* Обработка аудио
** Автоматическое распознавание речи
* Обработка видео
** Прогнозирование следующего кадра на основе предыдущих
** Распознавание эмоций
* Обработка изображений
** Прогнозирование следующего пикселя на основе окружения
** Генерация описания изображений

== Архитектуры ==
=== Полностью рекуррентная сеть ===
Это базовая архитектура, разработанная в 1980-х. Сеть строится из узлов, каждый из которых соединён со всеми другими узлами. У каждого нейрона порог активации меняется со временем и является вещественным числом. Каждое соединение имеет переменный вещественный вес. Узлы разделяются на входные, выходные и скрытые.
=== Рекурсивная сеть ===
[[:Рекурсивные нейронные сети|Рекурсивные нейронные сети]] представляют собой более общий случай рекуррентных сетей, когда сигнал в сети проходит через структуру в виде дерева (обычно бинарные деревья). Те же самые матрицы весов используются рекурсивно по всему графу в соответствии с его топологией.
=== Нейронная сеть Хопфилда ===
Тип рекуррентной сети, когда все соединения симметричны. Изобретена Джоном Хопфилдом в 1982 году и гарантируется, что динамика такой сети сходится к одному из положений равновесия.
=== Двунаправленная ассоциативная память (BAM) ===
Вариацией сети Хопфилда является двунаправленная ассоциативная память (BAM). BAM имеет два слоя, каждый из которых может выступать в качестве входного, находить (вспоминать) ассоциацию и генерировать результат для другого слоя.
[[File:Elman_RNN.jpg|450px|thumb|Сеть Элмана]]
=== Сеть Элмана ===
Нейронная сеть Элмана состоит из трёх слоев: x, y, z (см рис. Сеть Элмана). Дополнительно к сети добавлен набор «контекстных блоков»: u (см рис. Сеть Элмана). Средний (скрытый) слой соединён с контекстными блоками с фиксированным весом, равным единице. С каждым шагом времени на вход поступает информация, которая проходит прямой ход к выходному слою в соответствии с правилами обучения. Фиксированные обратные связи сохраняют предыдущие значения скрытого слоя в контекстных блоках (до того как скрытый слой поменяет значение в процессе обучения). Таким способом сеть сохраняет своё состояние, что может использоваться в предсказании последовательностей, выходя за пределы мощности многослойного перцептрона.
=== Сеть Джордана ===
Нейронная сеть Джордана подобна сети Элмана, но контекстные блоки связаны не со скрытым слоем, а с выходным слоем. Контекстные блоки таким образом сохраняют своё состояние. Они обладают рекуррентной связью с собой.
=== Эхо-сети ===
Эхо-сеть (англ. Echo State Network, ESN) характеризуется одним скрытым слоем (который называется резервуаром) со случайными редкими связями между нейронами. При этом связи внутри резервуара фиксированы, но связи с выходным слоем подлежат обучению. Состояние резервуара (state) вычисляется через предыдущие состояния резервуара, а также предыдущие состояния входного и выходного сигналов. Так как эхо-сети обладают только одним скрытым слоем, они обладают достаточно низкой вычислительной сложностью.
=== Нейронный компрессор истории ===
Нейронный компрессор исторических данных {{---}} это блок, позволяющий в сжатом виде хранить существенные исторические особенности процесса, который является своего рода стеком рекуррентной нейронной сети, формируемым в процессе самообучения.
[[File:LSTM.png|450px|thumb|[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Схема слоев рекуррентной сети долго-краткосрочной памяти]]]
=== Сети долго-краткосрочной памяти ===
Сеть долго-краткосрочной памяти (англ. Long short-term memory, LSTM) является самой популярная архитектура рекуррентной нейронной сети на данный момент, данная архитектура способна запоминать данные на долгое время.<ref name=LSTM>[https://www.bioinf.jku.at/publications/older/2604.pdf Sepp Hochreiter, Jurgen Schmidhuber. Long short-term memory (1997). Neural Computation.]</ref>

Разберем работу слоев подробнее<ref name=Understanding_LSTM>[http://colah.github.io/posts/2015-08-Understanding-LSTMs/ Understanding LSTM Networks]</ref>:

Первый слой вычисляет, насколько на данном шаге ему нужно забыть предыдущую информацию {{---}} по сути множители к компонентам вектора памяти.
[[File:LSTM_F1.png|none|250px]]
<math>f_t = \sigma(W_f * [h_t-1, x_t] + b_f)</math>

Второй слой вычисляет, насколько ему интересна новая информация, пришедшая с сигналом {{---}} такой же множитель, но уже для наблюдения.
[[File:LSTM_F2.png|none|250px]]
<math>i_t = \sigma(W_f * [h_t-1, x_t] + b_i)</math>

<math>\tilde{C}_t = tanh(W_C * [h_t-1, x_t] + b_C)</math>

На третьем слое вычисляется линейная комбинация памяти и наблюдения с только вычисленными весами для каждой из компонент. Так получается новое состояние памяти, которое в таком же виде передаётся далее.
[[File:LSTM_F3.png|none|250px]]
<math>C_t = f_t * C_t-1 + i_t * \tilde{C}_t</math>

Осталось вычислить output. Но поскольку часть входного сигнала уже в памяти, не нужно считать активацию по всему сигналу. Сначала сигнал проходит через сигмоиду, которая решает, какая его часть важна для дальнейших решений, затем гиперболический тангенс «размазывает» вектор памяти на отрезок от -1 до 1, и в конце эти два вектора перемножаются.
[[File:LSTM_F4.png|none|250px]]
<math>o_t = \sigma(W_o * [h_t-1, x_t] + b_o)</math>

<math>h_t = o_t * tanh(C_t)</math>

Полученные таким образом <math>h_t</math> и <math>C_t</math> передаются далее по цепочке.

=== Управляемые рекуррентные блоки ===
Управляемые рекуррентные блоки (англ. Gated Recurrent Units, GRU) {{---}} обладает меньшим количеством параметров, чем у LSTM, и в ней отсутствует выходное управление. При этом производительность в моделях речевого сигнала или полифонической музыки оказалась сопоставимой с LSTM.

== Пример кода ==
Пример кода на Python с использованием библиотеки Keras.<ref name=KerasRNN>[https://keras.io/layers/recurrent/ Keras RNN]</ref>
<pre>
# Импорты
import numpy as np
from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Activation, Embedding
from keras.layers import LSTM
from keras.datasets import imdb

# Устанавливаем seed для обеспечения повторяемости результатов
np.random.seed(42)

# Указываем количество слов из частотного словаря, которое будет использоваться (отсортированы по частоте использования)
max_features = 5000

# Загружаем данные (датасет IMDB содержит 25000 рецензий на фильмы с правильным ответом для обучения и 25000 рецензий на фильмы с правильным ответом для тестирования)
(X_train, y_train), (X_test, y_test) = imdb.load_data(nb_words = max_features)

# Устанавливаем максимальную длину рецензий в словах, чтобы они все были одной длины
maxlen = 80

# Заполняем короткие рецензии пробелами, а длинные обрезаем
X_train = sequence.pad_sequences(X_train, maxlen = maxlen)
X_test = sequence.pad_sequences(X_test, maxlen = maxlen)

# Создаем модель последовательной сети
model = Sequential()
# Добавляем слой для векторного представления слов (5000 слов, каждое представлено вектором из 32 чисел, отключаем входной сигнал с вероятностью 20% для предотвращения переобучения)
model.add(Embedding(max_features, 32, dropout = 0.2))
# Добавляем слой долго-краткосрочной памяти (100 элементов для долговременного хранения информации, отключаем входной сигнал с вероятностью 20%, отключаем рекуррентный сигнал с вероятностью 20%)
model.add(LSTM(100, dropout_W = 0.2, dropout_U = 0.2))
# Добавляем полносвязный слой из 1 элемента для классификации, в качестве функции активации будем использовать сигмоидальную функцию
model.add(Dense(1, activation = "sigmoid"))

# Компилируем модель нейронной сети
model.compile(loss = 'binary_crossentropy',
optimizer = 'adam',
metrics = ['accuracy'])

# Обучаем нейронную сеть (данные для обучения, ответы к данным для обучения, количество рецензий после анализа которого будут изменены веса, число эпох обучения, тестовые данные, показывать progress bar или нет)
model.fit(X_train, y_train,
batch_size = 64,
nb_epoch = 7,
validation_data = (X_test, y_test),
verbose = 1)

# Проверяем качество обучения на тестовых данных (если есть данные, которые не участвовали в обучении, лучше использовать их, но в нашем случае таковых нет)
scores = model.evaluate(X_test, y_test, batch_size = 64)
print("Точность на тестовых данных: %.2f%%" % (scores[1] * 100))
</pre>

==См. также==
*[[:Сверточные_нейронные_сети|Сверточные нейронные сети]]
*[[:Нейронные_сети,_перцептрон|Нейронные сети, перцептрон]]
*[[:Рекурсивные нейронные сети|Рекурсивные нейронные сети]]

==Примечания==
<references/>

Файл:LSTM F4.png

2019-01-23T02:24:49Z

Adel:

Файл:LSTM F3.png

2019-01-23T02:24:39Z

Adel:

Файл:LSTM F2.png

2019-01-23T02:24:29Z

Adel:

Файл:LSTM F1.png

2019-01-23T02:23:46Z

Adel:

Файл:RNN layer.png

2019-01-23T02:10:05Z

Adel:

Файл:LSTM.png

2019-01-23T01:34:32Z

Adel:

Файл:Elman RNN.jpg

2019-01-23T01:28:33Z

Adel:

Файл:RNN BPTT.jpg

2019-01-23T01:13:17Z

Adel:

Файл:RNN BP.jpg

2019-01-23T01:07:54Z

Adel:

Файл:RNN.png

2019-01-23T01:04:19Z

Adel:

Физический уровень - Модуляции

2016-12-21T19:52:15Z

Adel: /* Аналоговая модуляция */

=Введение=
Для начала разберемся, зачем вообще нужна модуляция и что она из себя представляет.

==Зачем нужна модуляция?==
[[Файл:Modulation.gif|right|Модуляция]]В рамках одного устройства для передачи информации используются низкочастотные колебания, передача которых на расстояние свыше нескольких метров крайне затруднительна, в силу их быстрого ослабевания. Но нам все равно хочется передавать сигналы на большие расстояния, вот тут на помощь приходит модуляция.

==В чем суть модуляции?==
Возьмем высокочастотное колебание. Само по себе оно не несет никакой информации. Его мы будем использовать в качестве основного компонента передаваемого сигнала. Частоту этого колебания называют несущей.
Для того, чтобы начать передавать полезную информацию, нам нужно каким-нибудь образом видоизменить несущую частоту так, чтобы она повторяла закономерности сигнала, который мы хотим передать. Иными словами, нам нужно сделать так, чтобы она несла информацию о нашем полезном сигнале.
Это самое видоизменение называется модуляцией.
Модуляция осуществляется с помощью модулятора со стороны отправителя, а с помощью демодулятора на стороне получателя высокочастотный сигнал преобразуется обратно в низкочастотный. Они собраны в одно устройство под названием модем, которое получилось благодаря слиянию слов МОдулятор и ДЕМодулятор.
Есть разные принципы модуляции, некоторые из которых рассмотрим ниже.
Самым древним методом модуляции можно назвать прерывание несущей частоты, которое использовалось в телеграфах. Этот метод, конечно, нельзя назвать в полной мере модуляцией, но тем не менее о нем нельзя не упомянуть в данной теме.

=Виды модуляции=
Теперь рассмотрим более формальные определения.
{{Определение|definition =
'''Модуляцией''' называется процесс изменения одного или нескольких параметров высокочастотного несущего колебания по закону низкочастотного информационного сигнала.
}}{{Определение|definition =
'''Модулирующий сигнал''' - сигнал, хранящий передаваемую информацию.
}}{{Определение|definition =
'''Несущий сигнал''' - сигнал, выполняющий роль переносчика информации.
}}{{Определение|definition =
'''Модулированный сигнал''' - сигнал, получающийся после посадки модулирующего сигнала на несущий сигнал.
}}
[[Файл:Sygnal_types.png|Модулирующий, несущий и модулированный сигналы]]

[[Файл:Modulation_types.png|right|Типы модуляции в зависимости от несущего сигнала]]В зависимости от типа несущего сигнала используются разные виды модуляции. Ниже представлена таблица соответствия типа сигнала виду модуляции.
{| class="wikitable" style="text-align:center"
|+ Несущий сигнал
|-
! Фиксированный уровень !! Гармонический сигнал !! Импульсы
|-
| Прямая модуляция || Аналоговая модуляция || Импульсная модуляция
|-
| || Цифровая модуляция ||
|}

 
==Прямая модуляция==
[[Файл:Modulation_1.png|right|Прямая модуляция для последовательности 1010]]Это самый простой вид модуляции, при котором передача того или иного сигнала происходит путем изменения напряжения.
Зададим нормальное напряжение <math>U_H</math>, тогда при уменьшении нормального уровня напряжения на <math>\Delta U_M</math> передается двоичный 0, а при увеличении на ту же величину двоичная 1.
 Для кодирования нескольких одинаковых значений подряд зададим промежуток времени <math>\Delta t</math>, в течение которого передается одна цифра.

 
==Аналоговая модуляция==
[[Файл:Analog_modulation.png|right|Виды аналоговой модуляции]]Носителем этого типа модуляции является колебание.
В зависимости от того, какой параметр несущего колебания изменяется, различают 3 основных вида аналоговой модуляций:
* Амплитудная
* Фазовая
* Частотная
{| class="wikitable" style="text-align:center"
|+ Аналоговая модуляция
|-
! Амплитудная !! Фазовая !! Частотная
|-
| Меняется амплитуда импульсов
| Меняется фаза колебания
| Меняется частота колебания
|-
| С увеличением амплитуды модулирующего сигнала увеличивается амплитуда несущего сигнала
| С увеличением амплитуды модулирующего сигнала увеличивается сдвиг относительно такта времени
| С увеличением амплитуды модулирующего сигнала увеличивается частота несущего колебания
|}

 

==Цифровая модуляция (манипуляция)==
Тот самый вид модуляции, который используется для передачи данных в компьютерных сетях.
{{Определение|definition =
'''Цифровой модуляцией''' называется процесс преобразования битов в соответствующие аналоговые сигналы.
}}
Цифровую модуляцию принято называть манипуляцией, поэтому часто может встречаться именно этот термин. 
Носителем так же, как и в случае аналоговой модуляции является колебание.
===Основные методы цифровой модуляции===
[[Файл:Digital_modulation.png|right|Виды цифровой модуляции]]Так же, как и в других видах модуляции, цифровая делится на разные методы преобразования, в зависимости от того, какой параметр несущего колебания изменяется:
* Амплитудная
* Частотная
* Фазовая
* Квадратурная амплитудная (амплитудно-фазовая)
{| class="wikitable" style="text-align:center"
|+ Цифровая модуляция
|-
! Амплитудная (ASK - Amplitude Shift Keying) !! Частотная (FSK - Frequency Shift Keying) !! Фазовая (PSK - Phase Shift Keying) !! Квадратурная амплитудная (QAM - Quadrature Amplitude Modulation)
|-
| Меняется амплитуда импульсов
| Меняется частота импульсов
| Меняется фаза колебания
| Меняется одновременно и амплитуда, и фаза
|-
| Для передачи 1 используется большая амплитуда, для передачи 0 - малая, иногда нулю соответствует отсутствие колебания.
| Для передачи 1 используется высокая частота колебаний, для передачи 0 - низкая.
| Для передачи 1 используется сдвиг фазы на <math>\pi /2</math>.
| Для передачи 1 используется большая амплитуда и сдвиг фазы на <math>\pi /2</math>.
|}

===Многопозиционные методы===
Для разных видов манипуляции существуют методы, позволяющие передавать не только 0 и 1 в рамках одного сигнала, такие методы получили название многопозиционные.
Суть этих методов в том, что один элемент линейного сигнала несет информацию о большем числе битов, чем в обычных двухпозиционных методах.
Работает это очень просто. Например, в многопозиционной амплитудной манипуляции зададим не 2 амплитуды, которые будут кодировать 0 или 1, а 4, которые будут соответствовать 00, 01, 10, 11 по мере увеличения амплитуды. Для многопозиционной частотной манипуляции используется больше частот, а для многопозиционной фазовой манипуляции, соответственно, больше сдвигов.
Да, это действительно позволяет повысить удельную скорость передачи информации, но при этом начинают возникать ошибки, связанные с погрешностью передачи.

Рассмотрим самые распространенные методы:

====BPSK, QPSK, 8-PSK====
{| class="wikitable" style="text-align:center"
|+ Фазовые манипуляции
|-
! BPSK !! QPSK !! 8-PSK
|-
| Binary Phase Shift Keying является обычной бинарной фазовой манипуляцией, которую мы рассматривали выше в рамках основных методов, позволяет закодировать 1 бит информации за сигнал. Не является многопозиционным методом.
| Quadrature Phase Shift Keying переводится как квадратурная фазовая манипуляция и представляет собой разделение на 4 фазы, которые позволяют закодировать 2 бита за сигнал.
| 8 Phase Shift Keying представляет собой разделение на 8 фаз, которые позволяют закодировать 3 бита за сигнал.
|}
[[Файл:BPSK.png|Бинарная фазовая манипуляция BPSK]]
[[Файл:QPSK.png|Квадратурная фазовая манипуляция QPSK]]
[[Файл:8PSK.png|8 фазовая манипуляция 8-PSK]]

====QAM-16, QAM-64====
С простой квадратурной амплитудной манипуляцией мы уже знакомы, теперь посмотрим на 2 многопозиционные вариации. Напомню, что это комбинация амплитудной и фазовой манипуляций.
QAM-16 использует 16 комбинаций амплитудных и фазовых сдвигов, которые позволяют передавать 4 бита информации за 1 сигнал, а с помощью QAM-64, который использует 64 комбинации, можно передать целых 6 бит за сигнал.
Каждая комбинация задается углом, который соответствует фазе и расстоянием от начала координат, которое показывает величину амплитуды.
Ниже показана симуляция принципа работы квадратурной амплитудной манипуляции на примере QAM-16 и расположение точек для QAM-16 и QAM-64 соответственно.
[[Файл:QAM16.gif|Симуляция квадратурной амплитудной манипуляции QAM-16]][[Файл:QAM.png|Расположение точек QAM-16 и QAM-64 соответственно]]

 
==Импульсная модуляция==
[[Файл:Impuls_modulation.gif|right|Виды импульсной модуляции]]При импульсной модуляции носителем сигнала являются импульсы.
Импульсная модуляция делится на 4 основных вида:
* Амплитудно-импульсная
* Широтно-импульсная
* Частотно-импульсная
* Фазово-импульсная
{| class="wikitable" style="text-align:center"
|+ Импульсная модуляция
|-
! Амплитудо-импульсная !! Широтно-импульсная !! Частотно-импульсная !! Фазово-импульсная
|-
| Меняется амплитуда импульсов
| Меняется длительность (ширина) импульсов
| Меняется частота импульсов
| Меняется сдвиг импульсов относительно тактовых моментов времени
|-
| С увеличением напряжения модулирующего сигнала увеличивается амплитуда несущего сигнала
| С увеличением напряжения модулирующего сигнала увеличивается длительность импульсов
| С увеличением напряжения модулирующего сигнала увеличивается частота импульсов
| С увеличением напряжения модулирующего сигнала увеличивается сдвиг относительно такта времени
|}

=Мультиплексирование=
Сами по себе, схемы модуляции позволяют посылать только один сигнал, что достаточно плохо, учитывая количество пользователей сетями. Поэтому были разработаны схемы мультиплексирования, которые позволяют многим сигналам совместно использовать одни линии.

==Частотное уплотнение FDM==
Частотное уплотнение использует передачу в полосе пропускания, чтобы совместно использовать канал. Спектр делится на диапазоны частот, каждый пользователь получает владение некоторой полосой, в которой он может послать свой сигнал.
Наглядным примером частотного уплотнения служит AM-радиовещание. Его выделенный спектр составляет приблизительно 1 МГц, примерно от 500 до 1500 кГц. Другие частоты выделены другим логическим каналам (станциям), каждая станция действует в части спектра, с межканальным разделением, достаточно большим, чтобы предотвратить помехи.

На рисунке приведен пример объединения трех телефонных линий в одну. Можно заметить, что каждой линии выделяется полоса в 4000 Гц, хотя она занимает примерно 3100 Гц. Избыток в 900 Гц называется защитной полосой. Она сохраняет каналы хорошо отделенными друг от друга.

[[Файл:FDM.jpg|Частотное уплотнение FDM]]

==Мультиплексирование с ортогональным частотным разделением OFDM==
При отправке цифровых данных возможно эффективно разделить спектр, не используя защитные полосы. В OFDM полоса канала разделена на многие поднесущие, которые независимо передают данные (например, с квадратурной амплитудной модуляцией).
Поднесущие плотно упакованы вместе в частотной области, но из за того, что характеристика каждой поднесущей разработана так, чтобы в центре смежных поднесущих это был ноль, каждая из них может быть выбрана в своей центральной частоте без помех от соседних.

[[Файл:OFDM.jpg|Мультиплексирование с ортогональным частотным разделением ОFDM]]

==Мультиплексирование с разделением времени TDM==
Альтернатива частотному уплотнению FDM - временнОе уплотнение TDM.
В этом методе каждый пользователь получает в пользование всю полосу, но на небольшой отрезок времени. Чтобы все работало, потоки должны быть синхронизированы по времени. Чтобы компенсировать небольшие отклонения синхронизации, между блоками имеется небольшой промежуток времени, именуемый защитным интервалом.

[[Файл:TDM.png|Мультиплексирование с разделением времени TDM]]

==Мультиплексирование со статистическим временным разделением STDM==
Метод аналогичен предыдущему, только отдельные потоки поступают в мультиплексный поток не по фиксированному распорядку, а согласно статистике их запросов.

==Кодовое разделение каналов CDM==
В кодовом разделении каналов, в отличии от FDM и TDM, для каждого узла выделяется весь спектр частот и всё время. CDM использует специальные коды для идентификации соединений. При таком способе разделения среды каналы трафика создаются посредством применения широкополосного кодо-модулированного радиосигнала — шумоподобного сигнала, передаваемого в общий для других аналогичных передатчиков канал в едином широком частотном диапазоне. Эфир в данном частотном диапазоне в результате работы нескольких передатчиков становится ещё более шумоподобным. Каждый передатчик модулирует сигнал с применением присвоенного в данный момент каждому пользователю отдельного числового кода, а приёмник, настроенный на аналогичный код, может вычленять из общей кучи радиосигналов ту часть сигнала, которая предназначена данному приёмнику.

[[Файл:CDM.png|Кодовое разделение каналов CDM]]

Физический уровень - Модуляции

2016-12-21T19:45:55Z

Adel: Мультиплексирование

=Введение=
Для начала разберемся, зачем вообще нужна модуляция и что она из себя представляет.

==Зачем нужна модуляция?==
[[Файл:Modulation.gif|right|Модуляция]]В рамках одного устройства для передачи информации используются низкочастотные колебания, передача которых на расстояние свыше нескольких метров крайне затруднительна, в силу их быстрого ослабевания. Но нам все равно хочется передавать сигналы на большие расстояния, вот тут на помощь приходит модуляция.

==В чем суть модуляции?==
Возьмем высокочастотное колебание. Само по себе оно не несет никакой информации. Его мы будем использовать в качестве основного компонента передаваемого сигнала. Частоту этого колебания называют несущей.
Для того, чтобы начать передавать полезную информацию, нам нужно каким-нибудь образом видоизменить несущую частоту так, чтобы она повторяла закономерности сигнала, который мы хотим передать. Иными словами, нам нужно сделать так, чтобы она несла информацию о нашем полезном сигнале.
Это самое видоизменение называется модуляцией.
Модуляция осуществляется с помощью модулятора со стороны отправителя, а с помощью демодулятора на стороне получателя высокочастотный сигнал преобразуется обратно в низкочастотный. Они собраны в одно устройство под названием модем, которое получилось благодаря слиянию слов МОдулятор и ДЕМодулятор.
Есть разные принципы модуляции, некоторые из которых рассмотрим ниже.
Самым древним методом модуляции можно назвать прерывание несущей частоты, которое использовалось в телеграфах. Этот метод, конечно, нельзя назвать в полной мере модуляцией, но тем не менее о нем нельзя не упомянуть в данной теме.

=Виды модуляции=
Теперь рассмотрим более формальные определения.
{{Определение|definition =
'''Модуляцией''' называется процесс изменения одного или нескольких параметров высокочастотного несущего колебания по закону низкочастотного информационного сигнала.
}}{{Определение|definition =
'''Модулирующий сигнал''' - сигнал, хранящий передаваемую информацию.
}}{{Определение|definition =
'''Несущий сигнал''' - сигнал, выполняющий роль переносчика информации.
}}{{Определение|definition =
'''Модулированный сигнал''' - сигнал, получающийся после посадки модулирующего сигнала на несущий сигнал.
}}
[[Файл:Sygnal_types.png|Модулирующий, несущий и модулированный сигналы]]

[[Файл:Modulation_types.png|right|Типы модуляции в зависимости от несущего сигнала]]В зависимости от типа несущего сигнала используются разные виды модуляции. Ниже представлена таблица соответствия типа сигнала виду модуляции.
{| class="wikitable" style="text-align:center"
|+ Несущий сигнал
|-
! Фиксированный уровень !! Гармонический сигнал !! Импульсы
|-
| Прямая модуляция || Аналоговая модуляция || Импульсная модуляция
|-
| || Цифровая модуляция ||
|}

 
==Прямая модуляция==
[[Файл:Modulation_1.png|right|Прямая модуляция для последовательности 1010]]Это самый простой вид модуляции, при котором передача того или иного сигнала происходит путем изменения напряжения.
Зададим нормальное напряжение <math>U_H</math>, тогда при уменьшении нормального уровня напряжения на <math>\Delta U_M</math> передается двоичный 0, а при увеличении на ту же величину двоичная 1.
 Для кодирования нескольких одинаковых значений подряд зададим промежуток времени <math>\Delta t</math>, в течение которого передается одна цифра.

 
==Аналоговая модуляция==
[[Файл:Analog_modulation.png|right|Виды аналоговой модуляции]]Носителем этого типа модуляции является колебание.
В зависимости от того, какой параметр несущего колебания изменяется, различают 3 основных вида аналоговой модуляций:
* Амплитудная
* Фазовая
* Частотная
{| class="wikitable" style="text-align:center"
|+ Аналоговая модуляция
|-
! Амплитудная !! Фазовая !! Частотная
|-
| Меняется амплитуда импульсов
| Меняется фаза колебания
| Меняется частота импульсов
|-
| С увеличением амплитуды модулирующего сигнала увеличивается амплитуда несущего сигнала
| С увеличением амплитуды модулирующего сигнала увеличивается сдвиг относительно такта времени
| С увеличением амплитуды модулирующего сигнала изменяется фаза несущего колебания
|}

 
==Цифровая модуляция (манипуляция)==
Тот самый вид модуляции, который используется для передачи данных в компьютерных сетях.
{{Определение|definition =
'''Цифровой модуляцией''' называется процесс преобразования битов в соответствующие аналоговые сигналы.
}}
Цифровую модуляцию принято называть манипуляцией, поэтому часто может встречаться именно этот термин. 
Носителем так же, как и в случае аналоговой модуляции является колебание.
===Основные методы цифровой модуляции===
[[Файл:Digital_modulation.png|right|Виды цифровой модуляции]]Так же, как и в других видах модуляции, цифровая делится на разные методы преобразования, в зависимости от того, какой параметр несущего колебания изменяется:
* Амплитудная
* Частотная
* Фазовая
* Квадратурная амплитудная (амплитудно-фазовая)
{| class="wikitable" style="text-align:center"
|+ Цифровая модуляция
|-
! Амплитудная (ASK - Amplitude Shift Keying) !! Частотная (FSK - Frequency Shift Keying) !! Фазовая (PSK - Phase Shift Keying) !! Квадратурная амплитудная (QAM - Quadrature Amplitude Modulation)
|-
| Меняется амплитуда импульсов
| Меняется частота импульсов
| Меняется фаза колебания
| Меняется одновременно и амплитуда, и фаза
|-
| Для передачи 1 используется большая амплитуда, для передачи 0 - малая, иногда нулю соответствует отсутствие колебания.
| Для передачи 1 используется высокая частота колебаний, для передачи 0 - низкая.
| Для передачи 1 используется сдвиг фазы на <math>\pi /2</math>.
| Для передачи 1 используется большая амплитуда и сдвиг фазы на <math>\pi /2</math>.
|}

===Многопозиционные методы===
Для разных видов манипуляции существуют методы, позволяющие передавать не только 0 и 1 в рамках одного сигнала, такие методы получили название многопозиционные.
Суть этих методов в том, что один элемент линейного сигнала несет информацию о большем числе битов, чем в обычных двухпозиционных методах.
Работает это очень просто. Например, в многопозиционной амплитудной манипуляции зададим не 2 амплитуды, которые будут кодировать 0 или 1, а 4, которые будут соответствовать 00, 01, 10, 11 по мере увеличения амплитуды. Для многопозиционной частотной манипуляции используется больше частот, а для многопозиционной фазовой манипуляции, соответственно, больше сдвигов.
Да, это действительно позволяет повысить удельную скорость передачи информации, но при этом начинают возникать ошибки, связанные с погрешностью передачи.

Рассмотрим самые распространенные методы:

====BPSK, QPSK, 8-PSK====
{| class="wikitable" style="text-align:center"
|+ Фазовые манипуляции
|-
! BPSK !! QPSK !! 8-PSK
|-
| Binary Phase Shift Keying является обычной бинарной фазовой манипуляцией, которую мы рассматривали выше в рамках основных методов, позволяет закодировать 1 бит информации за сигнал. Не является многопозиционным методом.
| Quadrature Phase Shift Keying переводится как квадратурная фазовая манипуляция и представляет собой разделение на 4 фазы, которые позволяют закодировать 2 бита за сигнал.
| 8 Phase Shift Keying представляет собой разделение на 8 фаз, которые позволяют закодировать 3 бита за сигнал.
|}
[[Файл:BPSK.png|Бинарная фазовая манипуляция BPSK]]
[[Файл:QPSK.png|Квадратурная фазовая манипуляция QPSK]]
[[Файл:8PSK.png|8 фазовая манипуляция 8-PSK]]

====QAM-16, QAM-64====
С простой квадратурной амплитудной манипуляцией мы уже знакомы, теперь посмотрим на 2 многопозиционные вариации. Напомню, что это комбинация амплитудной и фазовой манипуляций.
QAM-16 использует 16 комбинаций амплитудных и фазовых сдвигов, которые позволяют передавать 4 бита информации за 1 сигнал, а с помощью QAM-64, который использует 64 комбинации, можно передать целых 6 бит за сигнал.
Каждая комбинация задается углом, который соответствует фазе и расстоянием от начала координат, которое показывает величину амплитуды.
Ниже показана симуляция принципа работы квадратурной амплитудной манипуляции на примере QAM-16 и расположение точек для QAM-16 и QAM-64 соответственно.
[[Файл:QAM16.gif|Симуляция квадратурной амплитудной манипуляции QAM-16]][[Файл:QAM.png|Расположение точек QAM-16 и QAM-64 соответственно]]

 
==Импульсная модуляция==
[[Файл:Impuls_modulation.gif|right|Виды импульсной модуляции]]При импульсной модуляции носителем сигнала являются импульсы.
Импульсная модуляция делится на 4 основных вида:
* Амплитудно-импульсная
* Широтно-импульсная
* Частотно-импульсная
* Фазово-импульсная
{| class="wikitable" style="text-align:center"
|+ Импульсная модуляция
|-
! Амплитудо-импульсная !! Широтно-импульсная !! Частотно-импульсная !! Фазово-импульсная
|-
| Меняется амплитуда импульсов
| Меняется длительность (ширина) импульсов
| Меняется частота импульсов
| Меняется сдвиг импульсов относительно тактовых моментов времени
|-
| С увеличением напряжения модулирующего сигнала увеличивается амплитуда несущего сигнала
| С увеличением напряжения модулирующего сигнала увеличивается длительность импульсов
| С увеличением напряжения модулирующего сигнала увеличивается частота импульсов
| С увеличением напряжения модулирующего сигнала увеличивается сдвиг относительно такта времени
|}

=Мультиплексирование=
Сами по себе, схемы модуляции позволяют посылать только один сигнал, что достаточно плохо, учитывая количество пользователей сетями. Поэтому были разработаны схемы мультиплексирования, которые позволяют многим сигналам совместно использовать одни линии.

==Частотное уплотнение FDM==
Частотное уплотнение использует передачу в полосе пропускания, чтобы совместно использовать канал. Спектр делится на диапазоны частот, каждый пользователь получает владение некоторой полосой, в которой он может послать свой сигнал.
Наглядным примером частотного уплотнения служит AM-радиовещание. Его выделенный спектр составляет приблизительно 1 МГц, примерно от 500 до 1500 кГц. Другие частоты выделены другим логическим каналам (станциям), каждая станция действует в части спектра, с межканальным разделением, достаточно большим, чтобы предотвратить помехи.

На рисунке приведен пример объединения трех телефонных линий в одну. Можно заметить, что каждой линии выделяется полоса в 4000 Гц, хотя она занимает примерно 3100 Гц. Избыток в 900 Гц называется защитной полосой. Она сохраняет каналы хорошо отделенными друг от друга.

[[Файл:FDM.jpg|Частотное уплотнение FDM]]

==Мультиплексирование с ортогональным частотным разделением OFDM==
При отправке цифровых данных возможно эффективно разделить спектр, не используя защитные полосы. В OFDM полоса канала разделена на многие поднесущие, которые независимо передают данные (например, с квадратурной амплитудной модуляцией).
Поднесущие плотно упакованы вместе в частотной области, но из за того, что характеристика каждой поднесущей разработана так, чтобы в центре смежных поднесущих это был ноль, каждая из них может быть выбрана в своей центральной частоте без помех от соседних.

[[Файл:OFDM.jpg|Мультиплексирование с ортогональным частотным разделением ОFDM]]

==Мультиплексирование с разделением времени TDM==
Альтернатива частотному уплотнению FDM - временнОе уплотнение TDM.
В этом методе каждый пользователь получает в пользование всю полосу, но на небольшой отрезок времени. Чтобы все работало, потоки должны быть синхронизированы по времени. Чтобы компенсировать небольшие отклонения синхронизации, между блоками имеется небольшой промежуток времени, именуемый защитным интервалом.

[[Файл:TDM.png|Мультиплексирование с разделением времени TDM]]

==Мультиплексирование со статистическим временным разделением STDM==
Метод аналогичен предыдущему, только отдельные потоки поступают в мультиплексный поток не по фиксированному распорядку, а согласно статистике их запросов.

==Кодовое разделение каналов CDM==
В кодовом разделении каналов, в отличии от FDM и TDM, для каждого узла выделяется весь спектр частот и всё время. CDM использует специальные коды для идентификации соединений. При таком способе разделения среды каналы трафика создаются посредством применения широкополосного кодо-модулированного радиосигнала — шумоподобного сигнала, передаваемого в общий для других аналогичных передатчиков канал в едином широком частотном диапазоне. Эфир в данном частотном диапазоне в результате работы нескольких передатчиков становится ещё более шумоподобным. Каждый передатчик модулирует сигнал с применением присвоенного в данный момент каждому пользователю отдельного числового кода, а приёмник, настроенный на аналогичный код, может вычленять из общей кучи радиосигналов ту часть сигнала, которая предназначена данному приёмнику.

[[Файл:CDM.png|Кодовое разделение каналов CDM]]

Файл:CDM.png

2016-12-21T19:41:40Z

Adel:

Файл:TDM.png

2016-12-21T19:27:52Z

Adel:

Файл:OFDM.jpg

2016-12-21T19:20:04Z

Adel:

Файл:FDM.jpg

2016-12-21T19:04:14Z

Adel:

Файл:QAM.png

2016-12-21T18:27:25Z

Adel:

Файл:BPSK.png

2016-12-21T18:08:49Z

Adel: загружена новая версия «Файл:BPSK.png»

Файл:QPSK.png

2016-12-21T18:07:21Z

Adel: загружена новая версия «Файл:QPSK.png»

Файл:8PSK.png

2016-12-21T18:06:18Z

Adel: загружена новая версия «Файл:8PSK.png»

Файл:8PSK.png

2016-12-21T17:59:46Z

Adel:

Файл:QPSK.png

2016-12-21T17:57:49Z

Adel:

Файл:BPSK.png

2016-12-21T17:56:23Z

Adel:

Файл:QAM16.gif

2016-12-21T17:42:36Z

Adel:

Файл:Modulation.gif

2016-12-21T17:02:52Z

Adel:

Файл:Digital modulation.png

2016-12-21T13:10:36Z

Adel: загружена новая версия «Файл:Digital modulation.png»

Файл:Digital modulation.png

2016-12-21T12:44:20Z

Adel:

Физический уровень - Модуляции

2016-12-20T23:29:28Z

Adel: Виды модуляции

==Введение==
Для начала разберемся, зачем вообще нужна модуляция и что она из себя представляет.

===Зачем нужна модуляция?===
В рамках одного устройства для передачи информации используются низкочастотные колебания, передача которых на расстояние свыше нескольких метров крайне затруднительна, в силу их быстрого ослабевания. Но нам все равно хочется передавать сигналы на большие расстояния, вот тут на помощь приходит модуляция.

===В чем суть модуляции?===
Возьмем высокочастотное колебание. Само по себе оно не несет никакой информации. Его мы будем использовать в качестве основного компонента передаваемого сигнала. Частоту этого колебания называют несущей.
Для того, чтобы начать передавать полезную информацию, нам нужно каким-нибудь образом видоизменить несущую частоту так, чтобы она повторяла закономерности сигнала, который мы хотим передать. Иными словами, нам нужно сделать так, чтобы она несла информацию о нашем полезном сигнале.
Это самое видоизменение называется модуляцией.
Модуляция осуществляется с помощью модулятора со стороны отправителя, а с помощью демодулятора на стороне получателя высокочастотный сигнал преобразуется обратно в низкочастотный. Они собраны в одно устройство под названием модем, которое получилось благодаря слиянию слов МОдулятор и ДЕМодулятор.
Есть разные принципы модуляции, некоторые из которых рассмотрим ниже.
Самым древним методом модуляции можно назвать прерывание несущей частоты, которое использовалось в телеграфах. Этот метод, конечно, нельзя назвать в полной мере модуляцией, но тем не менее о нем нельзя не упомянуть в данной теме.

==Виды модуляции==
Теперь рассмотрим более формальные определения.
{{Определение|definition =
'''Модуляцией''' называется процесс изменения одного или нескольких параметров высокочастотного несущего колебания по закону низкочастотного информационного сигнала.
}}{{Определение|definition =
'''Модулирующий сигнал''' - сигнал, хранящий передаваемую информацию.
}}{{Определение|definition =
'''Несущий сигнал''' - сигнал, выполняющий роль переносчика информации.
}}{{Определение|definition =
'''Модулированный сигнал''' - сигнал, получающийся после посадки модулирующего сигнала на несущий сигнал.
}}
[[Файл:Sygnal_types.png|Модулирующий, несущий и модулированный сигналы]]

[[Файл:Modulation_types.png|right|Типы модуляции в зависимости от несущего сигнала]]В зависимости от типа несущего сигнала используются разные виды модуляции. Ниже представлена таблица соответствия типа сигнала виду модуляции.
{| class="wikitable" style="text-align:center"
|+ Несущий сигнал
|-
! Фиксированный уровень !! Гармонический сигнал !! Импульсы
|-
| Прямая модуляция || Аналоговая модуляция || Импульсная модуляция
|-
| || Цифровая модуляция ||
|}
 
===Прямая модуляция===
[[Файл:Modulation_1.png|right|Прямая модуляция для последовательности 1010]]Это самый простой вид модуляции, при котором передача того или иного сигнала происходит путем изменения напряжения.
Зададим нормальное напряжение <math>U_H</math>, тогда при уменьшении нормального уровня напряжения на <math>\Delta U_M</math> передается двоичный 0, а при увеличении на ту же величину двоичная 1.
 Для кодирования нескольких одинаковых значений подряд зададим промежуток времени <math>\Delta t</math>, в течение которого передается одна цифра.

 
===Аналоговая модуляция===
[[Файл:Analog_modulation.png|right|Виды аналоговой модуляции]]Носителем этого типа модуляции является колебание.
В зависимости от того, какой параметр несущего колебания изменяется, различают 3 основных вида аналоговой модуляций:
* Амплитудная
* Фазовая
* Частотная
{| class="wikitable" style="text-align:center"
|+ Аналоговая модуляция
|-
! Амплитудная !! Фазовая !! Частотная
|-
| Меняется амплитуда импульсов
| Меняется фаза колебания
| Меняется частота импульсов
|-
| С увеличением напряжения модулирующего сигнала увеличивается амплитуда несущего сигнала
| С увеличением напряжения модулирующего сигнала увеличивается сдвиг относительно такта времени
| С увеличением напряжения модулирующего сигнала изменяется фаза несущего колебания
|}
 
===Цифровая модуляция (манипуляция)===
Тот самый тип модуляции, который используется для передачи данных в компьютерных сетях.
{{Определение|definition =
'''Цифровой модуляцией''' называется процесс преобразования битов в соответствующие аналоговые сигналы.
}}
Носителем так же, как и в случае аналоговой модуляции является колебание, но состояний у него всего два, поскольку передача идет только двух сигналов 0 и 1.
В зависимости от того, какой параметр несущего колебания изменяется, различают несколько видов цифровой модуляций:

 
===Импульсная модуляция===
[[Файл:Impuls_modulation.gif|right|Виды импульсной модуляции]]При импульсной модуляции носителем сигнала являются импульсы.
Импульсная модуляция делится на 4 основных вида:
* Амплитудно-импульсная
* Широтно-импульсная
* Частотно-импульсная
* Фазово-импульсная
{| class="wikitable" style="text-align:center"
|+ Импульсная модуляция
|-
! Амплитудо-импульсная !! Широтно-импульсная !! Частотно-импульсная !! Фазово-импульсная
|-
| Меняется амплитуда импульсов
| Меняется длительность (ширина) импульсов
| Меняется частота импульсов
| Меняется сдвиг импульсов относительно тактовых моментов времени
|-
| С увеличением напряжения модулирующего сигнала увеличивается амплитуда несущего сигнала
| С увеличением напряжения модулирующего сигнала увеличивается длительность импульсов
| С увеличением напряжения модулирующего сигнала увеличивается частота импульсов
| С увеличением напряжения модулирующего сигнала увеличивается сдвиг относительно такта времени
|}

Файл:Modulation 1.png

2016-12-20T18:54:38Z

Adel: загружена новая версия «Файл:Modulation 1.png»

Файл:Analog modulation.png

2016-12-20T18:48:37Z

Adel: загружена новая версия «Файл:Analog modulation.png»

Файл:Analog modulation.png

2016-12-20T18:24:20Z

Adel:

Файл:Impuls modulation.gif

2016-12-20T17:55:23Z

Adel:

Физический уровень - Модуляции

2016-12-12T18:53:31Z

Adel: Виды модуляции

Файл:Modulation 1.png

2016-12-12T17:11:43Z

Adel: загружена новая версия «Файл:Modulation 1.png»

Файл:Modulation 1.png

2016-12-12T17:07:32Z

Adel: