PixelRNN и PixelCNN

Рисунок 1. Пример использования PixelRNN/PixelCNN сетей

PixelRNN и PixelCNN — алгоритмы машинного обучения, входящие в семейство авторегрессивных моделей и использующиеся для генерации и дополнения изображений. Алгоритмы были представлены в 2016 году компанией DeepMind^[1] и являются предшественниками алгоритма WaveNet^[2], который используется в голосовом помощнике Google.

Основным преимуществом PixelRNN и PixelCNN является уменьшение времени обучения, по сравнению с наивными способами попиксельной генерации изображений.

Постановка задачи

Пусть дано черно-белое изображение [math]X[/math] размером [math]N\times N[/math]. Построчно преобразуем картинку в вектор , соединяя конец текущей строки с началом следующей. При таком представлении изображения можно предположить, что значение любого пикселя [math]x_i\in V_X[/math] может зависеть от значений предыдущих пикселей [math]x_j, j = 1,2,\dots i-1[/math].

Тогда значение пикселя [math]x_i\in V_X[/math] можно выразить через условную вероятность и цепное правило для вероятностей^[3]. Оценка совместного распределения всех пикселей будет записываться в следующем виде: .

Задача алгоритма — восстановить данное распределение. Учитывая тот факт, что любой пиксель принимает значение [math]0\lt =x_i\lt =255[/math], необходимо восстановить лишь дискретное распределение.

Идея

Так как утверждается, что значение текущего пикселя зависит от значения предыдущего, то уместно использовать рекуррентные нейронные сети (RNN), а точнее долгую краткосрочную память (LSTM). В ранних работах^[4] уже использовался данный подход, и вычисление скрытого состояния происходило следующим образом: , т.е. для того, чтобы вычислить текущее скрытое состояние, нужно было подсчитать все предыдущие, что занимает достаточно много времени.

У алгоритма LSTM существует две модификации: RowLSTM и Diagonal BiLSTM. Основным преимуществом модификаций является возможность проводить вычисления параллельно, что ускоряет общее время обучения модели.

RowLSTM

Рисунок 2. Визуализация работы модификаций LSTM. Снизу кружками обозначены пиксели, сверху — состояния на каждом пикселе. Синим обозначено то, что влияет на текущее скрытое состояние. Пустые кружки не принимают участие в вычислениях для данного скрытого состояния

В данной модификации LSTM скрытое состояние считается по формуле: .

Как видно из формулы и Рисунка 2, значение текущего скрытого состояния не зависит от предыдущего слева, а зависит только от предыдущих сверху, которые считаются параллельно.

Таким образом, главным преимуществом алгоритма перед наивным LSTM является более быстрое обучение модели, однако качество получаемых изображений ухудшается. Это связанно как минимум с тем, что мы используем контекст пикселей с предыдущей строки, но никак не используем контекст соседнего слева пикселя, которые является достаточно важным, т.к. является ближайшим с точки зрения построчной генерации изображения. Значит надо научиться находить скрытое состояние слева, но делать это эффективно.

Diagonal BiLSTM

Рисунок 3. Операция сдвига в Diagonal BiLSTM. Параллелизация происходит по диагоналям.

В данной версии скрытое состояние считается таким же образом, как и в наивном подходе: , но использует следующую хитрость в самом вычислении — построчно сдвинем строки вправо на один пиксель относительно предыдущей, а затем вычислим скрытые состояния в каждом столбце, как показано на Рисунке 3. Как следствие, контекст учитывается более качественно, что повышает качество изображения, однако такая модификация замедляет модель по сравнению с подходом RowLSTM.

PixelCNN

Идея в том, что наиболее важные данные для пикселя содержатся в соседних пикселях (в рамках ядра 9x9), поэтому предлагается просто использовать известные пиксели для вычисления нового, как показано на рисунке 2.

Архитектура

В алгоритмах PixelRNN и PixelCNN используются несколько архитектурных трюков, позволяющих производить вычисления быстро и надежно.

Рисунок 4. MaskA и MaskB.

Маскированные сверточные слои

В описаниях алгоритмов фигурируют два типа маскированных сверточных слоя — MaskA, MaskB. Они необходимы для сокрытия от алгоритма лишней информации и учета контекста — чтобы ускорить обработку изображения после каждого подсчета, предлагается вместо удаления значения пикселей применять маску к изображению, что является более быстрой операцией.

Для каждого пикселя в цветном изображении в порядке очереди существуют три контекста: красный канал, зеленый и синий. В данном алгоритме очередь важна, т.е. если сейчас обрабатывается красный канал, то контекст только от предыдущих значений красного канала, если зеленый — то от всех значений на красном канале и предыдущих значениях на зеленом и т.д.

MaskA используется для того, чтобы учитывать контекст предыдущих каналов, но при этом не учитывать контекст от предыдущих значений текущего канала и следующих каналов. MaskB выполняет ту же функцию, что и MaskA, но при этом учитывает контекст от предыдущих значений текущего канала.

Уменьшение размерности

Рисунок 5. Блоки уменьшения размерности. Слева — блок для PixelCNN, справа — PixelRNN.

На вход в любой их указанных выше алгоритмов (PixelCNN, RowLSTM, Diagonal BiLSTM) подается большое количество объектов, поэтому внутри каждого из них сначала происходит уменьшение их количества в два раза, а затем обратное увеличение до исходного размера. Структура алгоритма с учетом уменьшения размерности показана на рисунке 4.

Рисунок 6. Простой LSTM-блок с тремя вентилями: входным, выходным и забывания.

Внутреннее устройство LSTM

Внутреннее устройство RowLSTM и Diagonal BiLSTM блоков одинаково, за исключением того, что во втором случае добавляется операция сдвига в начале и возврат к исходной структуре изображения в конце.

Структура LSTM блока:

MaskB слой input-to-state [math]K_{is}[/math] учитывает контекст из входа.
Сверточный слой state-to-state [math]K_{ss}[/math] учитывает контекст из предыдущих скрытых слоев.

Используя эти два сверточных слоя формально вычисление LSTM блока можно записать следующим образом:

где [math]\sigma[/math] — функция активации,

[math]\circledast[/math] — операция свертки,

[math]\odot[/math] — поэлементное умножение,

[math]f_i[/math] — вектор вентиля забывания, вес запоминания старой информации,

[math]i_i[/math] — вектор входного вентиля, вес получения новой информации,

[math]o_i[/math] — вектор выходного вентиля, кандидат на выход,

[math]g_i[/math] — вектор вентиля данных,

[math]x_i[/math] — строка [math]i[/math] входных данных,

[math]h_i[/math] — вектор краткосрочной памяти,

[math]c_i[/math] — вектор долгосрочной памяти,

[math]K_{is}[/math] и [math]K_{ss}[/math] — ядерные веса компонент input-to-state и state-to-state соответственно.

Архитектура PixelRNN

MaskA размером [math]7\times 7[/math].
Блоки уменьшения размеренности с RowLSTM блоком, в котором [math]K_{is}[/math] имеет размер [math]3\times 1[/math], [math]K_{ss}[/math] — [math]3\times 2[/math]. Для Diagonal BiLSTM [math]K_{is}[/math] имеет размер.[math]1\times 1[/math], [math]K_{ss}[/math] — [math]1\times 2[/math]. Количество блоков варьируется.
ReLU активация.
Сверточный слой размером [math]1\times 1[/math].
Softmax слой.

Рисунок 7. Лица, сгенерированные с помощью PixelCNN сетей ^[5]

Архитектура PixelCNN

MaskA размером [math]7\times 7[/math].
Блоки уменьшения размеренности для PixelCNN.
ReLU активация.
Сверточный слой размером [math]1\times 1[/math].
Softmax слой.

Сравнение подходов

Рисунок 8. Лица, сгенерированные с помощью GAN ^[6]

Кек

Критерий\название	PixelCNN	PixelRNN(Row LSTM)	PixelRNN(Diagonal BiLSTM)	GAN
Время обучения	Быстрый	Средний	Медленный	Медленный
Качество генерируемых изображений	Наихудшее	Средне-низкое	Средне-высокое	Высокое

Примеры реализации

См. также

Примечания

Источники информации

[PixelNet-1] Pixel Recurrent Neural Networks

[WaveNet-2] WaveNet: A generative model for raw audio

[ChainRule-3] Chain rule (probability)

[SpatialLSTM-4] Generative Image Modeling Using Spatial LSTMs

[NaturalModeling-5] Natural Modeling

[ForwardScience-6] Towards data science

[1]

[2]

[3]

[4]

[5]

[6]