Generative Adversarial Nets (GAN) — различия между версиями

Версия 22:18, 13 ноября 2018

Оригинальная архитектура GAN

Порождающие состязательные сети (англ. Generative Adversarial Nets, GAN) — это алгоритм машинного обучения, входящий в семейство порождающих моделей и построенный на комбинации из двух нейронных сетей, одна из которых генерирует образцы, а другая же пытается отличить настоящие образцы от сгенерированных. Впервые такие сети были представлены Иэном Гудфеллоу в 2014 году.

Постановка задачи и метод

Имеется множество образцов [math]X[/math] из распределения [math]p_{data}[/math], заданного на [math] \mathbb R^n [/math], а также некоторое пространство латентных факторов [math]Z[/math] из распределения [math]p_{z}[/math], например, случайные вектора из равномерного распределения [math] \mathbb U^p(0,1) [/math].

Рассмотрим две нейронные сети: первая — генератор с параметрами [math]\theta[/math], цель которой сгенерировать похожий образец из [math]p_{data}[/math], и вторая — дискриминатор с параметрами [math]\gamma[/math], цель которой выдавать максимальную оценку на образцах из [math]X[/math] и минимальную на сгенерированных образцах из [math]G[/math]. Распределение, порождаемое генератором будем обозначать [math]p_{gen}[/math]. Так же заметим, что в текущем изложении не принципиальны архитектуры нейронных сетей, поэтому можно считать, что параметры [math]\theta[/math] и [math]\gamma[/math] являются просто параметрами многослойных персептронов.

В качестве примера можно рассматривать генерацию реалистичных фотографий: в этом случае, входом для генератора может быть случайный многомерный шум, а выходом генератора (и входом для дискриминатора) RGB-изображение; выходом же для дискриминатора будет вероятность, что фотография настоящая, т.е число от 0 до 1.

Наша задача выучить распределение [math]p_{gen}[/math] так, чтобы оно как можно лучше описывало [math]p_{data}[/math]. Зададим функцию ошибки для получившейся модели. Со стороны дискриминатора мы хотим распознавать образцы из [math]X[/math] как правильные, т.е в сторону единицы, и образцы из [math]G[/math] как неправильные, т.е в сторону нуля, таким образом нужно максимизировать следующую величину:

, где

Со стороны же генератора требуется научиться "обманывать" дискриминатор, т.е минимизировать по [math]p_{gen}[/math] второе слагаемое предыдущего выражения. Другими словами, [math]G[/math] и [math]D[/math] играют в так называемую минимаксную игру, решая следующую задачу оптимизации:

Теоретическое обоснование того, что такой метод заставляет [math]p_{gen}[/math] сходится к [math]p_{data}[/math] описано в исходной статье. ^[1]

Оригинальный алгоритм обучения GAN

В процессе обучения требуется делать два шага оптимизации поочередно: сначала обновлять веса генератора [math]\theta[/math] при фиксированном [math]\gamma[/math], а затем веса дискриминатора [math]\gamma[/math] при фиксированном [math]\theta[/math]. На практике дискриминатор обновляется [math]k[/math] раз вместо одного; [math]k[/math] является гиперпараметром.

// num_iteration — число итераций обучения 
for i = 1..num_iteration do
  for j = 1..k do
    Сэмплируем мини-батч $\{z_1, . . . , z_m\}$ из распределения $p_z$.
    Сэмплируем мини-батч $\{x_1, . . . , x_m\}$ из распределения $p_{data}$.
    Обновляем дискриминатор в сторону возрастания его градиента:
    [math]\mathop{\nabla}_{\gamma} { \frac{1}{m} \sum_{t = 1}^m \limits} [logD(x_t)]  + [log(1-D(G(z_t))] [/math]
  end for 
  Сэмплируем мини-батч $\{z_1, . . . , z_m\}$ из распределения $p_z$.  
  Обновляем генератор в сторону убывания его градиента:
  [math]\mathop{\nabla}_{\theta}  { \frac{1}{m} \sum_{t = 1}^m \limits} [log(1-D(G(z_t))] [/math]
end for

Обновления на основе градиента могут быть сделаны любым стандартным способом, например, стохастическим градиентным спуском (SGD). В оригинальной статье использовался SGD с импульсом.

Улучшение обучения GAN

Большинство GAN'ов подвержено следующим проблемам:

Несходимость (non-convergence): параметры модели дестабилизируются и не сходятся,
Схлопывание мод распределения (mode collapse): генератор коллапсирует, т.е выдает ограниченное количество разных образцов,
Исчезающий градиент (diminished gradient): дискриминатор становится слишком "сильным", а градиент генератора исчезает и обучение не происходит,
Высокая чувствительность к гиперпараметрам.

Универсального подхода к их решению нет, но существуют практические советы^[2], которые могут помочь. Основными из них являются:

Нормализация данных. Все признаки в диапазоне $[-1; 1]$.
Замена функции ошибки для $G$ с $\min log (1-D)$ на $\max log D$, потому что исходный вариант имеет маленький градиент на раннем этапе обучения и большой градиент при сходимости, а предложенный наоборот.
Сэмплирование из многомерного нормального распределения вместо равномерного.
Использование батч нормализационный слой (batch normalization layer) в $G$ и $D$.
Использовать метки для данных, если они имеются, т.е обучать дискриминатор еще и классифицировать образцы.^[3]

Применение

Чаще всего GAN'ы используются для генерации реалистичных изображений, однако существуют достаточно необычные применения, дающие впечатляющие результаты. Рассмотрим несколько из них:

CycleGAN^[4]: меняет изображения из одного домена в другой. Например, меняет на фотографии лошадей на зебр,
SRGAN^[5]: создает изображения с высоким разрешением из более низкого разрешения,
Pix2Pix^[6]: создает изображения по семантической окраске,
StackGAN^[7]: создает изображения по заданному тексту,
MidiNet^[8]: генерирует последовательность нот, таким образом, создает мелодию.

См. также

Примечания

Источники информации

Сергей Николенко, Артур Кадурин, Екатерина Архангельская. Глубокое обучение. Погружение в мир нейронных сетей. — «Питер», 2018. — С. 348-360.
Medium | GAN — Why it is so hard to train Generative Adversarial Networks!

[1] Ian J. Goodfellow — Generative Adversarial Nets

[2] How to Train a GAN? Tips and tricks to make GANs work

[3] Augustus Odena — Conditional Image Synthesis with Auxiliary Classifier GANs

[4] Jun-Yan Zhu & Taesung Park — Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

[5] Christian Ledig — Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network

[6] Phillip Isola — Image-to-Image Translation with Conditional Adversarial Nets

[7] Han Zhang — StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks

[8] Li-Chia Yang — MIDINET: A CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORK FOR SYMBOLIC-DOMAIN MUSIC GENERATION

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

Generative Adversarial Nets (GAN) — различия между версиями

Версия 22:18, 13 ноября 2018

Содержание

Постановка задачи и метод

Оригинальный алгоритм обучения GAN

Улучшение обучения GAN

Применение

См. также

Примечания

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты