Генерация изображения по тексту — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
м (FusedGAN)
м (Обзор генеративных моделей)
Строка 8: Строка 8:
 
=== DCGAN ===
 
=== DCGAN ===
 
'''Глубокая сверточная генеративная состязательная сеть''' (англ. ''Deep Convolutional Generative Adversarial Network, DCGAN'') {{---}} обусловлена текстовыми признаками, кодируемыми гибридной сверточно-рекуррентной
 
'''Глубокая сверточная генеративная состязательная сеть''' (англ. ''Deep Convolutional Generative Adversarial Network, DCGAN'') {{---}} обусловлена текстовыми признаками, кодируемыми гибридной сверточно-рекуррентной
нейронной сетью на уровне символов. DCGAN имеет эффективную архитектуру и обучающую структуру, которая позволяет синтезировать изображения птиц и цветов из текстовых описаний, предоставленных человеком.
+
нейронной сетью на уровне символов. DCGAN имеет эффективную архитектуру и обучающую структуру, которая позволяет синтезировать изображения птиц и цветов из текстовых описаний.
  
 
Для обучения такой модели для птиц был использован набор данных Caltech-UCSD<ref name="caltech">[http://www.vision.caltech.edu/visipedia/CUB-200.html Caltech-UCSD Birds 200 dataset]</ref>, а для цветов {{---}} Oxford-102<ref name="oxford">[https://www.robots.ox.ac.uk/~vgg/data/flowers/102/  Oxford Flowers 102 dataset]</ref>. Наряду с этим было собрано по пять текстовых описаний на изображение, которые были использованы в качестве параметров оценки.
 
Для обучения такой модели для птиц был использован набор данных Caltech-UCSD<ref name="caltech">[http://www.vision.caltech.edu/visipedia/CUB-200.html Caltech-UCSD Birds 200 dataset]</ref>, а для цветов {{---}} Oxford-102<ref name="oxford">[https://www.robots.ox.ac.uk/~vgg/data/flowers/102/  Oxford Flowers 102 dataset]</ref>. Наряду с этим было собрано по пять текстовых описаний на изображение, которые были использованы в качестве параметров оценки.
Строка 14: Строка 14:
 
DCGAN во многих случаях может генерировать на основе текста визуально-правдоподобные изображения размером ​64×64, а также отличается тем, что сама модель является генеративной состязательней сетью, а не только использует ее для постобработки. Текстовые запросы кодируются с помощью текстового кодировщика <tex>\varphi</tex>. Описание, внедренное в <tex>\varphi(t)</tex> сначала сжимается с помощью полностью связанного слоя до небольшого размера (на практике было использовано 128), затем применяется функция активации [[Практики реализации нейронных сетей|Leaky ReLU]] и результат конкатенируется с вектором шума <tex>z</tex>.
 
DCGAN во многих случаях может генерировать на основе текста визуально-правдоподобные изображения размером ​64×64, а также отличается тем, что сама модель является генеративной состязательней сетью, а не только использует ее для постобработки. Текстовые запросы кодируются с помощью текстового кодировщика <tex>\varphi</tex>. Описание, внедренное в <tex>\varphi(t)</tex> сначала сжимается с помощью полностью связанного слоя до небольшого размера (на практике было использовано 128), затем применяется функция активации [[Практики реализации нейронных сетей|Leaky ReLU]] и результат конкатенируется с вектором шума <tex>z</tex>.
  
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:DCGAN-1.png|thumb|alt=Архитектура DCGAN|x350px|center|Архитектура DCGAN]]</div>
+
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:DCGAN-1.png|thumb|alt=Архитектура DCGAN|x350px|center|Рисунок 1.<ref name="DCGAN">[https://arxiv.org/abs/1605.05396 Scott R. {{---}} Generative Adversarial Text to Image Synthesis, 2016]</ref> Архитектура DCGAN]]</div>
  
 
Как только модель научилась генерировать правдоподобные изображения, она должна также научиться согласовывать их с текстовым описанием, и было бы неплохо, если бы она научилась оценивать, соответствуют ли изображения
 
Как только модель научилась генерировать правдоподобные изображения, она должна также научиться согласовывать их с текстовым описанием, и было бы неплохо, если бы она научилась оценивать, соответствуют ли изображения
 
заданному описанию или нет. Модель должна неявно разделять два источника ошибок: нереалистичные образы (для любого текста) и реалистичные образы неправильного класса, которые не соответствуют текстовым признакам. Алгоритм обучения GAN был модифицирован таким образом, чтобы разделять эти источники ошибок. В дополнение к реальным/поддельным входным данным в дискриминатор во время обучения был добавлен третий тип входных данных, состоящий из реальных изображений с несовпадающим текстовым описанием, на которых дискриминатор должен обучиться оценивать поддельные изображения.
 
заданному описанию или нет. Модель должна неявно разделять два источника ошибок: нереалистичные образы (для любого текста) и реалистичные образы неправильного класса, которые не соответствуют текстовым признакам. Алгоритм обучения GAN был модифицирован таким образом, чтобы разделять эти источники ошибок. В дополнение к реальным/поддельным входным данным в дискриминатор во время обучения был добавлен третий тип входных данных, состоящий из реальных изображений с несовпадающим текстовым описанием, на которых дискриминатор должен обучиться оценивать поддельные изображения.
  
<gallery mode="slideshow" caption="Пример результата работы DCGAN">
+
<gallery mode="slideshow" caption="Рисунок 2. Пример результата работы DCGAN">
Файл:DCGAN-2.png||alt=Сгенерированные изображения птиц
+
Файл:DCGAN-2.png|Сравнение DCGAN<ref name="DCGAN"/>|alt=Сгенерированные изображения птиц
Файл:DCGAN-3.png||alt=Сгенерированные изображения цветов
+
Файл:DCGAN-3.png|Сравнение DCGAN<ref name="DCGAN"/>|alt=Сгенерированные изображения цветов
 
</gallery>
 
</gallery>
  
 
=== Attribute2Image ===
 
=== Attribute2Image ===
[[Файл: Attribute2Image-2.png|400px|thumb|right|Пример результата работы Attribute2Image]]'''Условная генерация изображений из визуальных атрибутов''' (англ. ''Conditional Image Generation from Visual Attributes, Attribute2Image'') {{---}} это еще один способ создания изображений из визуальных атрибутов. Attribute2Image моделирует изображение как смесь переднего и заднего планов и разрабатывает многоуровневую генеративную модель с выделенными скрытыми переменными, которые можно изучать от начала до конца с помощью [[Вариационный автокодировщик| вариационного автокодировщика]] (англ. ''Variational Autoencoder, VAE''). Экспериментируя с естественными изображениями лиц и птиц Attribute2|Image демонстрирует, что способен генерировать реалистичные и разнообразные изображения с распутанными скрытыми представлениями. Модель использует общий алгоритм минимизации энергии для апостериорного вывода скрытых переменных с учетом новых изображений. Таким образом, изученные генеративные модели показывают отличные количественные и визуальные результаты в задачах реконструкции и завершения изображения, обусловленного атрибутами.
+
[[Файл: Attribute2Image-2.png|400px|thumb|right|Рисунок 3.<ref name="Attribute2Image"/> Пример результата работы Attribute2Image]]'''Условная генерация изображений из визуальных атрибутов''' (англ. ''Conditional Image Generation from Visual Attributes, Attribute2Image''<ref name="Attribute2Image">[https://arxiv.org/abs/1512.00570 Xinchen Y. {{---}} Conditional Image Generation from Visual Attributes, 2015]</ref>) {{---}} это еще один способ создания изображений из визуальных атрибутов. Attribute2Image моделирует изображение как смесь переднего и заднего планов и разрабатывает многоуровневую генеративную модель с выделенными скрытыми переменными, которые можно изучать от начала до конца с помощью [[Вариационный автокодировщик| вариационного автокодировщика]] (англ. ''Variational Autoencoder, VAE''). Экспериментируя с естественными изображениями лиц и птиц Attribute2|Image демонстрирует, что способен генерировать реалистичные и разнообразные изображения с распутанными скрытыми представлениями. Модель использует общий алгоритм минимизации энергии для апостериорного вывода скрытых переменных с учетом новых изображений. Таким образом, изученные генеративные модели показывают отличные количественные и визуальные результаты в задачах реконструкции и завершения изображения, обусловленного атрибутами.
  
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:Attribute2Image-1.png|thumb|alt=Архитектура Attribute2Image|x350px|center|Архитектура Attribute2Image]]</div>
+
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:Attribute2Image-1.png|thumb|alt=Архитектура Attribute2Image|x350px|center|Рисунок 4.<ref name="Attribute2Image"/> Архитектура Attribute2Image]]</div>
  
 
=== StackGAN ===
 
=== StackGAN ===
'''Составные генеративные состязательные сети''' (англ. ''Stacked Generative Adversarial Networks, StackGAN'') {{---}} служат для генерации фотореалистичных изображений размера 256x256, заданных текстовыми описаниями. В данной модели трудная задача генерации изображения разлагается на более решаемые подзадачи с помощью процесса эскиз-уточнения (англ. ''sketch-refinement process''). Таким образом, Stage-I GAN рисует примитивную форму и цвета объекта на основе данного текстового описания, получая изображения Stage-I с низким разрешением. Stage-II GAN принимает результаты Stage-I и текстовые описания в качестве входных данных и генерирует изображения высокого разрешения с фотореалистичными деталями. Он способен исправлять дефекты в результатах этапа I и добавлять привлекательные детали в процессе уточнения (англ. ''refinement process''). Чтобы улучшить разнообразие синтезированных изображений и стабилизировать обучение CGAN<ref name="CGAN">[https://arxiv.org/abs/1411.1784 Mirza M. and Osindero S. {{---}} Conditional Generative Adversarial Nets (CGAN) 2014]</ref> вводится техника условно-когнитивной регуляции (англ. ''Conditioning Augmentation''), которая способствует плавности в обусловливающем многообразии.
+
'''Составные генеративные состязательные сети''' (англ. ''Stacked Generative Adversarial Networks, StackGAN''<ref name="StackGAN>[https://arxiv.org/abs/1612.03242 Han Z., Tao X. {{---}} Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks, 2017]</ref>) {{---}} служат для генерации фотореалистичных изображений размера 256x256, заданных текстовыми описаниями. В данной модели трудная задача генерации изображения разлагается на более решаемые подзадачи с помощью процесса эскиз-уточнения (англ. ''sketch-refinement process''). Таким образом, Stage-I GAN рисует примитивную форму и цвета объекта на основе данного текстового описания, получая изображения Stage-I с низким разрешением. Stage-II GAN принимает результаты Stage-I и текстовые описания в качестве входных данных и генерирует изображения высокого разрешения с фотореалистичными деталями. Он способен исправлять дефекты в результатах этапа I и добавлять привлекательные детали в процессе уточнения (англ. ''refinement process''). Чтобы улучшить разнообразие синтезированных изображений и стабилизировать обучение CGAN<ref name="CGAN">[https://arxiv.org/abs/1411.1784 Mirza M. and Osindero S. {{---}} Conditional Generative Adversarial Nets (CGAN) 2014]</ref> вводится техника условно-когнитивной регуляции (англ. ''Conditioning Augmentation''), которая способствует плавности в обусловливающем многообразии.
  
 
{| class="wikitable"
 
{| class="wikitable"
Строка 49: Строка 49:
 
* Обширные качественные и количественные эксперименты демонстрируют эффективность дизайна модели в целом, а также влияние отдельных компонентов, которые предоставляют полезную информацию для разработки будущих условных моделей GAN.
 
* Обширные качественные и количественные эксперименты демонстрируют эффективность дизайна модели в целом, а также влияние отдельных компонентов, которые предоставляют полезную информацию для разработки будущих условных моделей GAN.
  
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:StackGAN-1.png|thumb|alt=Архитектура StackGAN|x350px|center|Архитектура StackGAN]]</div>
+
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:StackGAN-1.png|thumb|alt=Архитектура StackGAN|x350px|center|Рисунок 5.<ref name="StackGAN/> Архитектура StackGAN.]]</div>
  
 
Генератор Stage-II проектируется как сеть кодировщик-декодировщик с остаточными блоками. Что касается дискриминатора, его структура аналогична структуре дискриминатора Stage-I только с дополнительными блоками понижающей дискретизации, поскольку на этом этапе размер изображения больше.
 
Генератор Stage-II проектируется как сеть кодировщик-декодировщик с остаточными блоками. Что касается дискриминатора, его структура аналогична структуре дискриминатора Stage-I только с дополнительными блоками понижающей дискретизации, поскольку на этом этапе размер изображения больше.
Строка 55: Строка 55:
 
Для проверки метода были проведены обширные количественные и качественные оценки. Сравниваются два современных метода синтеза текста в изображение, GAN-INT-CLS<ref name="scott">[http://proceedings.mlr.press/v48/reed16.pdf Scott R. {{---}} Generative Adversarial Text to Image Synthesis]</ref> и GAWWN<ref name="scott"/>.
 
Для проверки метода были проведены обширные количественные и качественные оценки. Сравниваются два современных метода синтеза текста в изображение, GAN-INT-CLS<ref name="scott">[http://proceedings.mlr.press/v48/reed16.pdf Scott R. {{---}} Generative Adversarial Text to Image Synthesis]</ref> и GAWWN<ref name="scott"/>.
  
<gallery mode="slideshow" caption="Пример результата работы StackGAN">
+
<gallery mode="slideshow" caption="Рисунок 6. Пример результата работы StackGAN">
Файл:StackGAN-2.png||alt=Сгенерированные изображения птиц
+
Файл:StackGAN-2.png|Сравнение StackGAN<ref name="StackGAN/>.|alt=Сгенерированные изображения птиц
Файл:StackGAN-3.png||alt=Сгенерированные изображения цветов
+
Файл:StackGAN-3.png|Сравнение StackGAN<ref name="StackGAN/>.|alt=Сгенерированные изображения цветов
 
</gallery>
 
</gallery>
 
=== StackGAN++ ===
 
=== StackGAN++ ===
Хотя генерирующие состязательные сети (GAN) показали замечательный успех в различных задачах, они все еще сталкиваются с проблемами при создании изображений высокого качества. В данном разделе предлагаются составные генеративные состязательные сети, предназначенные для создания фотореалистичных изображений с высоким разрешением. Во-первых, предлагается двухэтапная генеративная состязательная сетевая архитектура StackGAN-v1 для синтеза текста в изображение. Stage-I по-прежнему рисует примитивную форму и цвета сцены на основе заданного текстового описания, что дает изображения с низким разрешением. Stage-II все также принимает результаты этапа I и текстовое описание в качестве входных данных и генерирует изображения высокого разрешения с фотореалистичными деталями. Во-вторых, усовершенствованная многоэтапная генеративно-состязательная сетевая архитектура StackGAN-v2 предлагается как для условных, так и для безусловных генеративных задач. StackGAN-v2 состоит из нескольких генераторов и нескольких дискриминаторов, организованных в древовидную структуру; изображения в нескольких масштабах, соответствующие одной и той же сцене, генерируются из разных ветвей дерева. StackGAN-v2 демонстрирует более стабильное поведение при обучении, чем StackGAN-v1, за счет совместной аппроксимации нескольких распределений.
+
Хотя генерирующие состязательные сети (GAN) показали замечательный успех в различных задачах, они все еще сталкиваются с проблемами при создании изображений высокого качества. В данном разделе предлагаются<ref name="StackGAN++">[https://arxiv.org/abs/1710.10916 Han Z., Tao X. {{---}} Realistic Image Synthesis with Stacked Generative Adversarial Networks, 2018]</ref> составные генеративные состязательные сети, предназначенные для создания фотореалистичных изображений с высоким разрешением. Во-первых, предлагается двухэтапная генеративная состязательная сетевая архитектура StackGAN-v1 для синтеза текста в изображение. Stage-I по-прежнему рисует примитивную форму и цвета сцены на основе заданного текстового описания, что дает изображения с низким разрешением. Stage-II все также принимает результаты этапа I и текстовое описание в качестве входных данных и генерирует изображения высокого разрешения с фотореалистичными деталями. Во-вторых, усовершенствованная многоэтапная генеративно-состязательная сетевая архитектура StackGAN-v2 предлагается как для условных, так и для безусловных генеративных задач. StackGAN-v2 состоит из нескольких генераторов и нескольких дискриминаторов, организованных в древовидную структуру; изображения в нескольких масштабах, соответствующие одной и той же сцене, генерируются из разных ветвей дерева. StackGAN-v2 демонстрирует более стабильное поведение при обучении, чем StackGAN-v1, за счет совместной аппроксимации нескольких распределений.
  
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:StackGAN++-1.png|thumb|alt=Архитектура StackGAN++|x350px|center|Архитектура StackGAN++]]</div>
+
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:StackGAN++-1.png|thumb|alt=Архитектура StackGAN++|x350px|center|Рисунок 6.<ref name="StackGAN++"/> Архитектура StackGAN++.]]</div>
  
 
Несмотря на успех, GAN, как известно, сложно обучить. Тренировочный процесс обычно нестабилен и чувствителен к выбору [[Настройка гиперпараметров | гиперпараметров]]. В нескольких статьях утверждалось, что нестабильность частично связана с несвязными носителями распределения данных и подразумеваемого модельного распределения. Эта проблема становится более серьезной при обучении GAN генерировать изображения с высоким разрешением (например, 256x256), потому что вероятность того, что распределение изображений и распределение моделей будет совместно использовать один и тот же носитель в многомерном пространстве, очень мала. Более того, обычным явлением сбоя при обучении GAN является свертывание режима, когда многие из сгенерированных выборок содержат одинаковый цвет или узор текстуры. Чтобы стабилизировать процесс обучения GAN и улучшить разнообразие выборок, несколько методов пытались решить проблемы, предлагая новые сетевые архитектуры, вводя эвристические приемы или изменяя цели обучения.
 
Несмотря на успех, GAN, как известно, сложно обучить. Тренировочный процесс обычно нестабилен и чувствителен к выбору [[Настройка гиперпараметров | гиперпараметров]]. В нескольких статьях утверждалось, что нестабильность частично связана с несвязными носителями распределения данных и подразумеваемого модельного распределения. Эта проблема становится более серьезной при обучении GAN генерировать изображения с высоким разрешением (например, 256x256), потому что вероятность того, что распределение изображений и распределение моделей будет совместно использовать один и тот же носитель в многомерном пространстве, очень мала. Более того, обычным явлением сбоя при обучении GAN является свертывание режима, когда многие из сгенерированных выборок содержат одинаковый цвет или узор текстуры. Чтобы стабилизировать процесс обучения GAN и улучшить разнообразие выборок, несколько методов пытались решить проблемы, предлагая новые сетевые архитектуры, вводя эвристические приемы или изменяя цели обучения.
Строка 84: Строка 84:
 
Введен термин регуляризации согласованности цвета, чтобы образцы, сгенерированные с одного и того же входа на разных генераторах, были более согласованными по цвету и, таким образом, улучшили качество сгенерированных изображений.
 
Введен термин регуляризации согласованности цвета, чтобы образцы, сгенерированные с одного и того же входа на разных генераторах, были более согласованными по цвету и, таким образом, улучшили качество сгенерированных изображений.
  
<gallery mode="slideshow" caption="Пример результата работы StackGAN++">
+
<gallery mode="slideshow" caption="Рисунок 7. Пример результата работы StackGAN++">
Файл:StackGAN++-2.png||alt=Сгенерированные изображения цветов
+
Файл:StackGAN++-2.png|Сравнение StackGAN++<ref name="StackGAN++"/>.|alt=Сгенерированные изображения цветов
Файл:StackGAN++-3.png||alt=Сгенерированные изображения интерьера
+
Файл:StackGAN++-3.png|Сравнение StackGAN++<ref name="StackGAN++"/>.|alt=Сгенерированные изображения интерьера
Файл:StackGAN++-4.png||alt=Сгенерированные изображения собак и кошек
+
Файл:StackGAN++-4.png|Сравнение StackGAN++<ref name="StackGAN++"/>.|alt=Сгенерированные изображения собак и кошек
 
</gallery>  
 
</gallery>  
  
 
=== HTIS ===
 
=== HTIS ===
В данном разделе предлагается новый '''иерархический подход к синтезу текста''' (''Hierarchical Text-to-Image Synthesis, HTIS'') в изображение путем определения семантического макета. Вместо того, чтобы изучать прямое отображение текста в изображение, алгоритм разбивает процесс генерации на несколько шагов, на которых он сначала создает семантический макет из текста с помощью генератора макета и преобразует макет в изображение с помощью генератора изображений. Предлагаемый генератор компоновки постепенно создает семантическую компоновку от грубого к точному, генерируя '''ограничивающие рамки''' (англ. ''bounding box'') объекта и уточняя каждую рамку, оценивая формы объектов внутри нее. Генератор изображений синтезирует изображение, обусловленное предполагаемым семантическим макетом, что обеспечивает полезную семантическую структуру изображения, совпадающего с текстовым описанием.  
+
В данном разделе предлагается новый '''иерархический подход к синтезу текста''' (''Hierarchical Text-to-Image Synthesis, HTIS''<ref name="HTIS">[https://arxiv.org/abs/1801.05091 Seunghoon H., Dingdong Y. {{---}} Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis, 2018]</ref>) в изображение путем определения семантического макета. Вместо того, чтобы изучать прямое отображение текста в изображение, алгоритм разбивает процесс генерации на несколько шагов, на которых он сначала создает семантический макет из текста с помощью генератора макета и преобразует макет в изображение с помощью генератора изображений. Предлагаемый генератор компоновки постепенно создает семантическую компоновку от грубого к точному, генерируя '''ограничивающие рамки''' (англ. ''bounding box'') объекта и уточняя каждую рамку, оценивая формы объектов внутри нее. Генератор изображений синтезирует изображение, обусловленное предполагаемым семантическим макетом, что обеспечивает полезную семантическую структуру изображения, совпадающего с текстовым описанием.  
  
 
Модель не только генерирует семантически более значимые изображения, но также позволяет автоматически аннотировать генерируемые изображения. Созданные изображения и процесс генерации под управлением пользователя путем изменения сгенерированного макета сцены.
 
Модель не только генерирует семантически более значимые изображения, но также позволяет автоматически аннотировать генерируемые изображения. Созданные изображения и процесс генерации под управлением пользователя путем изменения сгенерированного макета сцены.
Строка 111: Строка 111:
 
Поэтому вместо того, чтобы изучать прямое отображение текста в изображение, был предложен альтернативный подход, который строит семантический макет как промежуточное представление между текстом и изображением. Семантический макет определяет структуру сцены на основе экземпляров объектов и предоставляет детальную информацию о сцене, такую ​​как количество объектов, категорию объекта, расположение, размер, форму.
 
Поэтому вместо того, чтобы изучать прямое отображение текста в изображение, был предложен альтернативный подход, который строит семантический макет как промежуточное представление между текстом и изображением. Семантический макет определяет структуру сцены на основе экземпляров объектов и предоставляет детальную информацию о сцене, такую ​​как количество объектов, категорию объекта, расположение, размер, форму.
  
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:Semantic-1.png|thumb|alt=Архитектура|x350px|center|Архитектура]]</div>
+
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:Semantic-1.png|thumb|alt=Архитектура|x350px|center|Рисунок 9.<ref name="HTIS"/> Архитектура HTIS.]]</div>
  
 
* '''Генератор рамок''' (англ. ''Box Generator'') принимает в качестве входных данных вложения текста и генерирует грубую компоновку, композируя экземпляры объектов в изображении. Выходные данные генератора представляют собой набор ограничивающих рамок <tex>B_1: T = \{B_1, ..., B_T\}</tex>, где каждая ограничивающая рамка <tex>B_t</tex> определяет местоположение, размер и метку категории <tex>t</tex>-го объекта.
 
* '''Генератор рамок''' (англ. ''Box Generator'') принимает в качестве входных данных вложения текста и генерирует грубую компоновку, композируя экземпляры объектов в изображении. Выходные данные генератора представляют собой набор ограничивающих рамок <tex>B_1: T = \{B_1, ..., B_T\}</tex>, где каждая ограничивающая рамка <tex>B_t</tex> определяет местоположение, размер и метку категории <tex>t</tex>-го объекта.
Строка 117: Строка 117:
 
* '''Генератор изображений''' (англ. ''Image Generator'') принимает карту семантических меток <tex>M</tex>, полученную путем агрегирования масок по экземплярам, и текстовое описание в качестве входных данных, и генерирует изображение, переводя семантический макет в пиксели, соответствующие текстовому описанию.
 
* '''Генератор изображений''' (англ. ''Image Generator'') принимает карту семантических меток <tex>M</tex>, полученную путем агрегирования масок по экземплярам, и текстовое описание в качестве входных данных, и генерирует изображение, переводя семантический макет в пиксели, соответствующие текстовому описанию.
  
<gallery mode="slideshow" caption="Пример результата работы">
+
<gallery mode="slideshow" caption="Рисунок 10. Пример результата работы">
Файл:Semantic-2.png||alt=Сгенерированные изображения, 1
+
Файл:Semantic-2.png|Сравнение HTIS<ref name="HTIS"/>.|alt=Сгенерированные изображения, 1
Файл:Semantic-3.png||alt=Сгенерированные изображения, 2
+
Файл:Semantic-3.png|Сравнение HTIS<ref name="HTIS"/>.|alt=Сгенерированные изображения, 2
 
</gallery>
 
</gallery>
  
Строка 127: Строка 127:
 
В качестве решения данной проблемы была предложена<ref name="AttnGan">[https://openaccess.thecvf.com/content_cvpr_2018/papers/Xu_AttnGAN_Fine-Grained_Text_CVPR_2018_paper.pdf Tao X., Pengchuan Z. {{---}} AttnGAN: Fine-Grained Text to Image Generationwith Attentional Generative Adversarial Networks, 2018] </ref> новая '''[[Generative Adversarial Nets (GAN)|генеративно-состязательная нейросеть]] с вниманием''' (англ. ''Attentional Generative Adversarial Network, AttnGAN''), которая относится к вниманию как к фактору обучения, что позволяет выделять слова для генерации фрагментов изображения.
 
В качестве решения данной проблемы была предложена<ref name="AttnGan">[https://openaccess.thecvf.com/content_cvpr_2018/papers/Xu_AttnGAN_Fine-Grained_Text_CVPR_2018_paper.pdf Tao X., Pengchuan Z. {{---}} AttnGAN: Fine-Grained Text to Image Generationwith Attentional Generative Adversarial Networks, 2018] </ref> новая '''[[Generative Adversarial Nets (GAN)|генеративно-состязательная нейросеть]] с вниманием''' (англ. ''Attentional Generative Adversarial Network, AttnGAN''), которая относится к вниманию как к фактору обучения, что позволяет выделять слова для генерации фрагментов изображения.
  
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:AttnGanNetwork.png|thumb|alt=Архитектура AttnGAN|x350px|center|Рисунок 11. Архитектура AttnGAN<ref name="AttnGan"/>.]]</div>
+
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:AttnGanNetwork.png|thumb|alt=Архитектура AttnGAN|x350px|center|Рисунок 11.<ref name="AttnGan"/> Архитектура AttnGAN.]]</div>
  
 
Модель состоит из нескольких взаимодействующих нейросетей (Рисунок 11):
 
Модель состоит из нескольких взаимодействующих нейросетей (Рисунок 11):
Строка 145: Строка 145:
 
Большинство существующих методов генерации изображения по тексту нацелены на создание целостных изображений, которые не разделяют передний и задний план изображений, в результате чего объекты искажаются фоном. Более того, они обычно игнорируют взаимодополняемость различных видов генеративных моделей. Данное решение<ref name="CVAE&GAN">[https://ieeexplore.ieee.org/document/8499439 Chenrui Z., Yuxin P. {{---}} Stacking VAE and GAN for Context-awareText-to-Image Generation, 2018]</ref> предлагает контекстно-зависимый подход к генерации изображения, который разделяет фон и передний план. Для этого используется взаимодополняющая связка [[Вариационный автокодировщик| вариационного автокодировщика]] и [[Generative Adversarial Nets (GAN)|генеративно-состязательной нейросети]].
 
Большинство существующих методов генерации изображения по тексту нацелены на создание целостных изображений, которые не разделяют передний и задний план изображений, в результате чего объекты искажаются фоном. Более того, они обычно игнорируют взаимодополняемость различных видов генеративных моделей. Данное решение<ref name="CVAE&GAN">[https://ieeexplore.ieee.org/document/8499439 Chenrui Z., Yuxin P. {{---}} Stacking VAE and GAN for Context-awareText-to-Image Generation, 2018]</ref> предлагает контекстно-зависимый подход к генерации изображения, который разделяет фон и передний план. Для этого используется взаимодополняющая связка [[Вариационный автокодировщик| вариационного автокодировщика]] и [[Generative Adversarial Nets (GAN)|генеративно-состязательной нейросети]].
  
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:Stacking_VAE&GAN.png|thumb|alt=Архитектура Stacking VAE and GAN|x350px|center|Рисунок 13. Архитектура Stacking VAE and GAN<ref name="CVAE&GAN"/>.]]</div>
+
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:Stacking_VAE&GAN.png|thumb|alt=Архитектура Stacking VAE and GAN|x350px|center|Рисунок 13.<ref name="CVAE&GAN"/> Архитектура Stacking VAE and GAN.]]</div>
  
 
[[Вариационный автокодировщик| VAE]] считается более устойчивым чем GAN, это можно использовать для достоверной подборки распределения и выявления разнообразия исходного изображения. Однако он не подходит для генерации изображений высокого качества, т. к. генерируемые VAE изображения легко размываются. Чтобы исправить данный недостаток архитектура включает два компонента (рис. 13):
 
[[Вариационный автокодировщик| VAE]] считается более устойчивым чем GAN, это можно использовать для достоверной подборки распределения и выявления разнообразия исходного изображения. Однако он не подходит для генерации изображений высокого качества, т. к. генерируемые VAE изображения легко размываются. Чтобы исправить данный недостаток архитектура включает два компонента (рис. 13):
Строка 152: Строка 152:
 
Полученные результаты проверки (рис.14) на 2 наборах данных (Caltech-UCSD<ref name="caltech"/> и Oxford-102<ref name="oxford"/>) эмпирически подтверждают эффективность предложенного метода.
 
Полученные результаты проверки (рис.14) на 2 наборах данных (Caltech-UCSD<ref name="caltech"/> и Oxford-102<ref name="oxford"/>) эмпирически подтверждают эффективность предложенного метода.
 
<gallery mode="slideshow" caption="Рисунок 14. Сравнение CVAE&GAN, StackGan и GAN-INT-CLS ">
 
<gallery mode="slideshow" caption="Рисунок 14. Сравнение CVAE&GAN, StackGan и GAN-INT-CLS ">
Файл:CVAE&GAN_example_flowers.png|Сравнение CVAE&GAN, [[#StackGAN]] и GAN-INT-CLS<ref name="scott"/>.<ref name="CVAE&GAN"/>|alt=Пример результата работы CVAE&GAN (flowers)
+
Файл:CVAE&GAN_example_flowers.png|Сравнение CVAE&GAN, [[#StackGAN|StackGAN]] и GAN-INT-CLS<ref name="scott"/>.<ref name="CVAE&GAN"/>|alt=Пример результата работы CVAE&GAN (flowers)
Файл:CVAE&GAN_example_bird.png|Сверху вниз начиная со второй строки: CVAE&GAN, [[#StackGAN]] и GAN-INT-CLS<ref name="scott"/>. <ref name="CVAE&GAN"/>|alt=Пример результата работы CVAE&GAN (birds)
+
Файл:CVAE&GAN_example_bird.png|Сверху вниз начиная со второй строки: CVAE&GAN, [[#StackGAN|StackGAN]] и GAN-INT-CLS<ref name="scott"/>. <ref name="CVAE&GAN"/>|alt=Пример результата работы CVAE&GAN (birds)
 
</gallery>
 
</gallery>
  
Строка 165: Строка 165:
 
[[Файл:SurfBoard-questions.png|alt=Изображение, сгенерированное моделью ChatPainter для данного описания и диалога|thumb|x200px|right|Рисунок 16.<ref name="ChatPainter"/> Пример работы ChatPainter.]]
 
[[Файл:SurfBoard-questions.png|alt=Изображение, сгенерированное моделью ChatPainter для данного описания и диалога|thumb|x200px|right|Рисунок 16.<ref name="ChatPainter"/> Пример работы ChatPainter.]]
  
Данная архитектура (рис. 15) опирается на модель [[#StackGAN]]. StackGAN генерирует изображение в два этапа: на первом этапе генерируется грубое изображение 64×64, а на втором генерируется уже улучшенное изображение 256×256.
+
Данная архитектура (рис. 15) опирается на модель [[#StackGAN|StackGAN]]. StackGAN генерирует изображение в два этапа: на первом этапе генерируется грубое изображение 64×64, а на втором генерируется уже улучшенное изображение 256×256.
  
 
Формирование вектора текстовых описаний <tex>\phi_{t}</tex> происходит путем кодирования подписей с помощью предварительно обученного кодировщика<ref>[https://github.com/reedscot/icml2016 Pre-trained encoder for ICML 2016 paper]</ref>. Для генерации диалоговых вложений <tex>\zeta_{d}</tex> используется два метода:
 
Формирование вектора текстовых описаний <tex>\phi_{t}</tex> происходит путем кодирования подписей с помощью предварительно обученного кодировщика<ref>[https://github.com/reedscot/icml2016 Pre-trained encoder for ICML 2016 paper]</ref>. Для генерации диалоговых вложений <tex>\zeta_{d}</tex> используется два метода:
Строка 183: Строка 183:
 
! Модель !! Inception Score
 
! Модель !! Inception Score
 
|-
 
|-
| style = "text-align: right" | [[#StackGAN]] || style = "text-align: center" | <tex>8.45 \pm 0.03</tex>
+
| style = "text-align: right" | [[#StackGAN|StackGAN]] || style = "text-align: center" | <tex>8.45 \pm 0.03</tex>
 
|-
 
|-
 
| style = "text-align: right" | ChatPainter (non-recurrent)|| style = "text-align: center" | '''<tex>9.43 \pm 0.04</tex>'''   
 
| style = "text-align: right" | ChatPainter (non-recurrent)|| style = "text-align: center" | '''<tex>9.43 \pm 0.04</tex>'''   
Строка 240: Строка 240:
  
 
=== MirrorGAN ===
 
=== MirrorGAN ===
Генерация изображения из заданного текстового описания преследует две главные цели: визуальный реализм и семантическое постоянство. Несмотря на то, что существует колоссальный прогресс в создании визуально реалистичных изображений высокого качества посредством [[Generative Adversarial Nets (GAN) | генеративных состязательных сетей]], обеспечение вышепоставленных целей все еще является категорически сложной задачей. Для осуществления попытки их реализации рассмотрим фреймворк text-to-image-to-text, сохраняющий семантику с вниманием под названием <b>MirrorGAN</b>. Данный фреймворк, который из текстового описания генерирует изображение, использует идею обучения с помощью переописания и состоит из трёх модулей:
+
Генерация изображения из заданного текстового описания преследует две главные цели: визуальный реализм и семантическое постоянство. Несмотря на то, что существует колоссальный прогресс в создании визуально реалистичных изображений высокого качества посредством [[Generative Adversarial Nets (GAN) | генеративных состязательных сетей]], обеспечение вышепоставленных целей все еще является категорически сложной задачей. Для осуществления попытки их реализации рассмотрим фреймворк text-to-image-to-text, сохраняющий семантику с вниманием под названием <b>MirrorGAN</b><ref name="MirrorGAN">[https://arxiv.org/abs/1903.05854 Tingting Q., Jing Z. {{---}} MirrorGAN: Learning Text-to-image Generation by Redescription, 2019]</ref>. Данный фреймворк, который из текстового описания генерирует изображение, использует идею обучения с помощью переописания и состоит из трёх модулей:
 
* модуль встраивания семантического текста (англ. ''semantic text embedding module, <b>STEM</b>'');
 
* модуль встраивания семантического текста (англ. ''semantic text embedding module, <b>STEM</b>'');
 
* глобально-локальный совместный модуль с вниманием для создания каскадных изображений (англ. ''global-local collaborative attentive module for cascaded image generation, <b>GLAM</b>'');
 
* глобально-локальный совместный модуль с вниманием для создания каскадных изображений (англ. ''global-local collaborative attentive module for cascaded image generation, <b>GLAM</b>'');
Строка 250: Строка 250:
 
Чтобы обучать модель сквозным методом, будем использовать две состязательные функции потерь: в визуальном реализме и в семантическом постоянстве. Вдобавок, для эффективного использования двойного регулирования T2I и I2T, применим текстово-семантическую реконструированную функцию потерь, основанную на перекрёстной энтропии.
 
Чтобы обучать модель сквозным методом, будем использовать две состязательные функции потерь: в визуальном реализме и в семантическом постоянстве. Вдобавок, для эффективного использования двойного регулирования T2I и I2T, применим текстово-семантическую реконструированную функцию потерь, основанную на перекрёстной энтропии.
  
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:MirrorGAN.png|thumb|center|x350px|Архитектура MirrorGAN]]</div>
+
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:MirrorGAN.png|thumb|center|x350px|Рисунок 21.<ref name="MirrorGAN"/> Архитектура MirrorGAN.]]</div>
  
 
MirrorGan представляет собой зеркальную структуру, объединяя T2I и I2T. Она состоит из трех генераторов. Чтобы сконструировать многоэтапный каскадный генератор, нужно совместить все три сети генерации изображений последовательно. В качестве архитектуры STREAM будем использовать довольно распространенный фреймворк захвата изображения, базирующийся на кодировании и декодировании. Кодировщик изображений есть [[Сверточные нейронные сети | свёрточная нейронная сеть]], предварительно обученная на ImageNet, а декодировщик есть [[Рекуррентные нейронные сети | рекуррентная нейронная сеть]]. Предварительное обучение STREAM помогло MirrorGAN достичь более стабильного процесса обучения и более быстрой сходимости, в то время, как их совместная оптимизация довольно нестабильна и с точки зрения занимаемого места и времени очень дорога. Структура кодировщик-декодировщик и соответствующие ей параметры фиксированы во время обучения других модулей MirrorGAN.
 
MirrorGan представляет собой зеркальную структуру, объединяя T2I и I2T. Она состоит из трех генераторов. Чтобы сконструировать многоэтапный каскадный генератор, нужно совместить все три сети генерации изображений последовательно. В качестве архитектуры STREAM будем использовать довольно распространенный фреймворк захвата изображения, базирующийся на кодировании и декодировании. Кодировщик изображений есть [[Сверточные нейронные сети | свёрточная нейронная сеть]], предварительно обученная на ImageNet, а декодировщик есть [[Рекуррентные нейронные сети | рекуррентная нейронная сеть]]. Предварительное обучение STREAM помогло MirrorGAN достичь более стабильного процесса обучения и более быстрой сходимости, в то время, как их совместная оптимизация довольно нестабильна и с точки зрения занимаемого места и времени очень дорога. Структура кодировщик-декодировщик и соответствующие ей параметры фиксированы во время обучения других модулей MirrorGAN.
Строка 262: Строка 262:
 
Показатель Inception был использован для измерения как объективности, так и разнообразия сгенерированных изображений. R-precision был использован для вычисления визуально-семантической схожести между сгенерированными изображениями и их соответствующими текстовыми описаниями.
 
Показатель Inception был использован для измерения как объективности, так и разнообразия сгенерированных изображений. R-precision был использован для вычисления визуально-семантической схожести между сгенерированными изображениями и их соответствующими текстовыми описаниями.
  
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:MirrorGAN&Co.jpg|thumb|center|x500px|Сравнение MirrorGAN и других генеративных состязательных сетей.]]</div>
+
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:MirrorGAN&Co.jpg|thumb|center|x500px|Рисунок 22.<ref name="MirrorGAN"/> Сравнение MirrorGAN, [[#AttnGAN|AttnGAN]] и других генеративных состязательных сетей.]]</div>
  
 
=== Obj-GAN ===
 
=== Obj-GAN ===
'''Объектно-управляемая [[Generative Adversarial Nets (GAN)| генеративная состязательная сеть]] с вниманием''' (англ. ''Object-Driven Attentive Generative Adversarial Network, Obj-GAN'') позволяет создавать изображения по описанию с учётом объектной компоновки. Объектно-управляемый генератор изображений, создаёт изображения на основе двухэтапной генерации. Сначала создаётся макет по наиболее значимым словам в текстовом описании, после этого генерируется изображение с полученной компоновкой объектов. А для сопоставления синтезируемых объектов с текстовым описанием и сгенерированным макетом, предлагается<ref>[https://openaccess.thecvf.com/content_CVPR_2019/papers/Li_Object-Driven_Text-To-Image_Synthesis_via_Adversarial_Training_CVPR_2019_paper.pdf Wendo L., Pengchuan Z. {{---}} Object-driven Text-to-Image Synthesis via Adversarial Training 2019]</ref> новый объектный дискриминатор, базирующийся на Fast R-CNN<ref>[https://arxiv.org/abs/1504.08083 Ross Girshick {{---}} Fast R-CNN, 2015]</ref>. В результате модификаций Obj-GAN значительно превосходит по производительности другие модели на наборе данных COCO<ref name="COCO" />, увеличивая показатель Inception score<ref name="inception"/> на 11% и уменьшая показатель FID (Fréchet inception distance)<ref>[https://en.wikipedia.org/wiki/Fréchet_inception_distance Fréchet inception distance, FID]</ref> на 27%.
+
'''Объектно-управляемая [[Generative Adversarial Nets (GAN)| генеративная состязательная сеть]] с вниманием''' (англ. ''Object-Driven Attentive Generative Adversarial Network, Obj-GAN'') позволяет создавать изображения по описанию с учётом объектной компоновки. Объектно-управляемый генератор изображений, создаёт изображения на основе двухэтапной генерации. Сначала создаётся макет по наиболее значимым словам в текстовом описании, после этого генерируется изображение с полученной компоновкой объектов. А для сопоставления синтезируемых объектов с текстовым описанием и сгенерированным макетом, предлагается<ref name="Obj-GAN">[https://openaccess.thecvf.com/content_CVPR_2019/papers/Li_Object-Driven_Text-To-Image_Synthesis_via_Adversarial_Training_CVPR_2019_paper.pdf Wendo L., Pengchuan Z. {{---}} Object-driven Text-to-Image Synthesis via Adversarial Training 2019]</ref> новый объектный дискриминатор, базирующийся на Fast R-CNN<ref>[https://arxiv.org/abs/1504.08083 Ross Girshick {{---}} Fast R-CNN, 2015]</ref>. В результате модификаций Obj-GAN значительно превосходит по производительности другие модели на наборе данных COCO<ref name="COCO" />, увеличивая показатель Inception score<ref name="inception"/> на 11% и уменьшая показатель FID (Fréchet inception distance)<ref>[https://en.wikipedia.org/wiki/Fréchet_inception_distance Fréchet inception distance, FID]</ref> на 27%.
  
 
{| class="wikitable" style="float:right; margin-left: 10px;"
 
{| class="wikitable" style="float:right; margin-left: 10px;"
Строка 279: Строка 279:
 
|}
 
|}
  
[[Файл:Obj-GAN.png|thumb|alt=Архитектура Obj-GAN|x300px|thumb|right|Архитектура Obj-GAN]]
+
[[Файл:Obj-GAN.png|thumb|alt=Архитектура Obj-GAN|x300px|thumb|right|Рисунок 23.<ref name="Obj-GAN"/> Архитектура Obj-GAN.]]
  
 
Основная цель Obj-GAN {{---}} генерация качественных изображений с семантически значимым макетом и реалистическими объектами. Obj-GAN состоит из пары генератора изображений, управляемый объектами, с вниманием и пообъектного дискриминатора. Генератор изображений в качестве входных данных принимает текстовое описание и предварительно сгенерированный семантический макет, по которым создаёт изображение с помощью многоэтапного процесса coarse-to-fine. На каждом этапе генератор синтезирует фрагмент изображений внутри ограничивающей рамки (англ. ''bounding box''), фокусируясь на наиболее релевантных объекту словах.
 
Основная цель Obj-GAN {{---}} генерация качественных изображений с семантически значимым макетом и реалистическими объектами. Obj-GAN состоит из пары генератора изображений, управляемый объектами, с вниманием и пообъектного дискриминатора. Генератор изображений в качестве входных данных принимает текстовое описание и предварительно сгенерированный семантический макет, по которым создаёт изображение с помощью многоэтапного процесса coarse-to-fine. На каждом этапе генератор синтезирует фрагмент изображений внутри ограничивающей рамки (англ. ''bounding box''), фокусируясь на наиболее релевантных объекту словах.
Строка 288: Строка 288:
 
Рассмотрим архитектуру Obj-GAN. Первым этапом, генеративная состязательная сеть принимает текстовое предложение и генерирует <b>семантический макет</b> {{---}} последовательность объектов специфицированных соответствующими ограничивающими рамками (наряду с метками классов) и фигурами. <b>Генератор рамок</b> (англ. ''Box generator'') и <b>генератор фигур</b> работают соответствующим образом, сначала создавая последовательность ограничивающих рамок, а затем {{---}} фигуру для каждой. Поскольку большинству рамок сопоставлены слова из данного текстового предложения, модель seq2seq с вниманием охватывает это соответствие. Далее конструируется <tex>G_{shape}</tex>, базированный на двунаправленной [[Сверточные нейронные сети | свёрточной]] [[Долгая краткосрочная память|долгой краткосрочной памяти ]] (англ. ''bidirectional convolutional long short-term memory, [[Долгая краткосрочная память|LSTM]]''). Обучение <tex>G_{shape}</tex> основывается на фреймворке генеративной состязательной сети, в которой потеря восприятия используется для ограничения генерируемых фигур и стабилизирования обучения.
 
Рассмотрим архитектуру Obj-GAN. Первым этапом, генеративная состязательная сеть принимает текстовое предложение и генерирует <b>семантический макет</b> {{---}} последовательность объектов специфицированных соответствующими ограничивающими рамками (наряду с метками классов) и фигурами. <b>Генератор рамок</b> (англ. ''Box generator'') и <b>генератор фигур</b> работают соответствующим образом, сначала создавая последовательность ограничивающих рамок, а затем {{---}} фигуру для каждой. Поскольку большинству рамок сопоставлены слова из данного текстового предложения, модель seq2seq с вниманием охватывает это соответствие. Далее конструируется <tex>G_{shape}</tex>, базированный на двунаправленной [[Сверточные нейронные сети | свёрточной]] [[Долгая краткосрочная память|долгой краткосрочной памяти ]] (англ. ''bidirectional convolutional long short-term memory, [[Долгая краткосрочная память|LSTM]]''). Обучение <tex>G_{shape}</tex> основывается на фреймворке генеративной состязательной сети, в которой потеря восприятия используется для ограничения генерируемых фигур и стабилизирования обучения.
  
<gallery class="center" mode="slideshow" caption="Сравнение результатов Obj-GAN с другими генеративными состязательными сетями.">
+
<gallery class="center" mode="slideshow" caption="Рисунок 24. Сравнение результатов Obj-GAN с другими генеративными состязательными сетями.">
Файл:Obj-GAN_ex1.png
+
Файл:Obj-GAN_ex1.png|Сравнение Obj-GAN<ref name="Obj-GAN"/>
Файл:Obj-GAN_ex2.png
+
Файл:Obj-GAN_ex2.png|Сравнение Obj-GAN<ref name="Obj-GAN"/>
 
</gallery>
 
</gallery>
  
Строка 305: Строка 305:
 
* экстремальная валидация моделей с использованием MNIST-макетов и наборов данных COCO<ref name="COCO" />, в которой содержатся сложные макеты сцен реального мира.
 
* экстремальная валидация моделей с использованием MNIST-макетов и наборов данных COCO<ref name="COCO" />, в которой содержатся сложные макеты сцен реального мира.
  
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:LayoutVAE.png|thumb|center|x350px|Архитектура LayoutVAE]]<div>
+
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:LayoutVAE.png|thumb|center|x350px|Рисунок 25.<ref name="LayoutVAE"/> Архитектура LayoutVAE.]]<div>
В статье<ref>[https://openaccess.thecvf.com/content_ICCV_2019/papers/Jyothi_LayoutVAE_Stochastic_Scene_Layout_Generation_From_a_Label_Set_ICCV_2019_paper.pdf LayoutVAE: Stochastic Scene Layout Generation From a Label Set]</ref> были предложены фреймворки и структуры моделей, взаимодействующие с LayoutVE, такие как: <b>PNP-Net</b> {{---}} фреймворк вариационного автокодировщика для генерации изображения абстрактной сцены из текстовой программы, полностью описывающей её (помимо того, что это {{---}} стохастическая модель для генерации, она была протестирована на синтетических наборах данных с малым числом классов); <b>LayoutGAN</b> {{---}} модель, основанная на [[Generative Adversarial Nets (GAN) | генеративных состязательных сетях]], генерирующая макеты графических элементов (прямоугольники, треугольники, и так далее); VAE-базированный фреймворк, кодирующий объект и информацию о макете 3D-сцен в помещении в скрытом коде и т.д..
+
В статье<ref name="LayoutVAE">[https://openaccess.thecvf.com/content_ICCV_2019/papers/Jyothi_LayoutVAE_Stochastic_Scene_Layout_Generation_From_a_Label_Set_ICCV_2019_paper.pdf LayoutVAE: Stochastic Scene Layout Generation From a Label Set]</ref> были предложены фреймворки и структуры моделей, взаимодействующие с LayoutVE, такие как: <b>PNP-Net</b> {{---}} фреймворк вариационного автокодировщика для генерации изображения абстрактной сцены из текстовой программы, полностью описывающей её (помимо того, что это {{---}} стохастическая модель для генерации, она была протестирована на синтетических наборах данных с малым числом классов); <b>LayoutGAN</b> {{---}} модель, основанная на [[Generative Adversarial Nets (GAN) | генеративных состязательных сетях]], генерирующая макеты графических элементов (прямоугольники, треугольники, и так далее); VAE-базированный фреймворк, кодирующий объект и информацию о макете 3D-сцен в помещении в скрытом коде и т.д..
  
 
Обучение генеративных моделей нужно, чтобы предсказать разнообразные, но правдоподобные наборы ограничивающих рамок, учитывая набор меток в качестве входных данных. Рамки в наборе представлены верхними левыми координатами, шириной и высотой <tex>i</tex>-й ограничивающей рамки категории <tex>k</tex>. LayoutVAE естественным образом декомпозируется на модель для предсказания количества для каждой заданной метки {{---}} <b>CountVAE</b> {{---}} и другая для предсказания местоположения и размера каждого объекта {{---}} <b>BBoxVAE</b>.
 
Обучение генеративных моделей нужно, чтобы предсказать разнообразные, но правдоподобные наборы ограничивающих рамок, учитывая набор меток в качестве входных данных. Рамки в наборе представлены верхними левыми координатами, шириной и высотой <tex>i</tex>-й ограничивающей рамки категории <tex>k</tex>. LayoutVAE естественным образом декомпозируется на модель для предсказания количества для каждой заданной метки {{---}} <b>CountVAE</b> {{---}} и другая для предсказания местоположения и размера каждого объекта {{---}} <b>BBoxVAE</b>.
Строка 313: Строка 313:
  
  
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:LayoutVAEGeneration.png|thumb|center|x350px|Генерация по множеству меток <tex>\{person, sea, surfboard\}</tex>]]</div>
+
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:LayoutVAEGeneration.png|thumb|center|x350px|Рисунок 26.<ref name="LayoutVAE"/> Генерация по множеству меток <tex>\{person, sea, surfboard\}</tex>.]]</div>
  
 
=== TextKD-GAN ===
 
=== TextKD-GAN ===
Генерация текста представляет особый интерес во многих приложениях [https://en.wikipedia.org/wiki/Neuro-linguistic_programming нейролингвистического программирования] (англ. ''neuro-linguistic programming, NLP''), таких как [https://en.wikipedia.org/wiki/Machine_translation машинный перевод], моделирование языка и обобщение текста. [[Generative Adversarial Nets (GAN) | Генеративные состязательные сети]] достигли замечательного успеха в создании высококачественных изображений в [[Компьютерное зрение | компьютерном зрении]], и в последнее время GANs также вызвали большой интерес со стороны сообщества NLP. Однако достижение подобного успеха в NLP было бы более сложным из-за дискретности текста. В данной статье<ref>[https://arxiv.org/abs/1905.01976 Md. Akmal H. and Mehdi R.{{---}} TextKD-GAN: Text Generation using KnowledgeDistillation and Generative Adversarial Networks, 2019]</ref> вводится метод, использующий дистилляцию знаний для эффективного использования настройку GAN для генерации текста. Также показываются, как [[Автокодировщик | автокодировщики]] (англ. ''autoencoders, AEs'') могут быть использованы для обеспечения непрерывного представления предложений, которое в свою очередь представляет собой гладкое представление, присваивающее ненулевые вероятности более чем одному слову.
+
Генерация текста представляет особый интерес во многих приложениях [https://en.wikipedia.org/wiki/Neuro-linguistic_programming нейролингвистического программирования] (англ. ''neuro-linguistic programming, NLP''), таких как [https://en.wikipedia.org/wiki/Machine_translation машинный перевод], моделирование языка и обобщение текста. [[Generative Adversarial Nets (GAN) | Генеративные состязательные сети]] достигли замечательного успеха в создании высококачественных изображений в [[Компьютерное зрение | компьютерном зрении]], и в последнее время GANs также вызвали большой интерес со стороны сообщества NLP. Однако достижение подобного успеха в NLP было бы более сложным из-за дискретности текста. В данной статье<ref name="TextKD-GAN"/>[https://arxiv.org/abs/1905.01976 Md. Akmal H. and Mehdi R.{{---}} TextKD-GAN: Text Generation using KnowledgeDistillation and Generative Adversarial Networks, 2019]</ref> вводится метод, использующий дистилляцию знаний для эффективного использования настройку GAN для генерации текста. Также показываются, как [[Автокодировщик | автокодировщики]] (англ. ''autoencoders, AEs'') могут быть использованы для обеспечения непрерывного представления предложений, которое в свою очередь представляет собой гладкое представление, присваивающее ненулевые вероятности более чем одному слову.
  
 
TextKD-GAN представляет из себя решение для основного узкого места использования генеративных состязательных сетей для генерации текста с дистилляцией знаний: метод, переносящий знания смягченного вывода модели преподавателя в модель студента. Решение основано на AE (учителе), чтобы получить гладкое представление реального текста. Это гладкое представление подается в дискриминатор TextKD-GAN вместо обычного однократного представления. Генератор (студент) пытается изучить многообразие смягченного гладкого представления AE. TextKD-GAN, в конечном итоге, будет превосходить обычный генератор текста на основе GAN, который не нуждается в предварительной подготовке.
 
TextKD-GAN представляет из себя решение для основного узкого места использования генеративных состязательных сетей для генерации текста с дистилляцией знаний: метод, переносящий знания смягченного вывода модели преподавателя в модель студента. Решение основано на AE (учителе), чтобы получить гладкое представление реального текста. Это гладкое представление подается в дискриминатор TextKD-GAN вместо обычного однократного представления. Генератор (студент) пытается изучить многообразие смягченного гладкого представления AE. TextKD-GAN, в конечном итоге, будет превосходить обычный генератор текста на основе GAN, который не нуждается в предварительной подготовке.
  
[[Файл:TextKD-GAN_Model.png|thumb|right|x400px|Модель TextKD-GAN для генерации текста.]]
+
[[Файл:TextKD-GAN_Model.png|thumb|right|x400px|Рисунок 27.<ref name="TextKD-GAN"/> Модель TextKD-GAN для генерации текста.]]
  
 
В общепринятом текстовом подходе к распознавании, реальные и сгенерированные входные данные дискриминатора будут иметь разные типы ([https://en.wikipedia.org/wiki/One-hot one-hot] и [https://en.wikipedia.org/wiki/Softmax_function softmax]), и он может обыкновенно отличить их друг от друга. Один из способов избежать этой проблемы состоит в получении непрерывно гладкого представление слов (а не one-hot представления), и обучении дискриминатора различать их. Здесь используется общепринятый атокодировщик(учитель), чтобы заменить one-hot представление softmax-реконструированным выходом, который является гладким представлением, дающим меньшую дисперсию градиентов. Предложенная модель изображена на рисунке справа. Как видно, вместо one-hot представления реальных слов смягченный реконструированный выход атокодировщика подается на вход дискриминатору. Эта техника значительно усложняет различение для самого дискриминатора. Генератор GAN с softmax выходом пытается имитировать распределение выходного сигнала атокодировщика вместо общепринятого one-hot представления.
 
В общепринятом текстовом подходе к распознавании, реальные и сгенерированные входные данные дискриминатора будут иметь разные типы ([https://en.wikipedia.org/wiki/One-hot one-hot] и [https://en.wikipedia.org/wiki/Softmax_function softmax]), и он может обыкновенно отличить их друг от друга. Один из способов избежать этой проблемы состоит в получении непрерывно гладкого представление слов (а не one-hot представления), и обучении дискриминатора различать их. Здесь используется общепринятый атокодировщик(учитель), чтобы заменить one-hot представление softmax-реконструированным выходом, который является гладким представлением, дающим меньшую дисперсию градиентов. Предложенная модель изображена на рисунке справа. Как видно, вместо one-hot представления реальных слов смягченный реконструированный выход атокодировщика подается на вход дискриминатору. Эта техника значительно усложняет различение для самого дискриминатора. Генератор GAN с softmax выходом пытается имитировать распределение выходного сигнала атокодировщика вместо общепринятого one-hot представления.
Строка 331: Строка 331:
 
Эти функции потерь обучаются поочередно, чтобы оптимизировать различные части модели. В члене штрафа градиента необходимо посчитать норму градиента случайных выборок <tex>\hat{x} \sim P_{\hat{x}}</tex>.
 
Эти функции потерь обучаются поочередно, чтобы оптимизировать различные части модели. В члене штрафа градиента необходимо посчитать норму градиента случайных выборок <tex>\hat{x} \sim P_{\hat{x}}</tex>.
  
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:TextKD-GAN&Co.png|thumb|center|x500px|Дивергенция Дженсена-Шеннона (англ. ''Jensen-Shannon divergence, JSD'') между сгенерированным и обучающимся предложениями (n-граммами) полученных из эксперимента SNLI (Stanford Natural Language Inference, Стэнфордский Вывод Естественного Языка).]]</div>
+
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:TextKD-GAN&Co.png|thumb|center|x500px|Рисунок 28.<ref name="TextKD-GAN"/> Дивергенция Дженсена-Шеннона (англ. ''Jensen-Shannon divergence, JSD'') между сгенерированным и обучающимся предложениями (n-граммами) полученных из эксперимента SNLI (Stanford Natural Language Inference, Стэнфордский Вывод Естественного Языка).]]</div>
  
 
=== MCA-GAN ===
 
=== MCA-GAN ===
Преобразование изображений перекрестным видом проблематично, поскольку оно включает в себя изображения со значительно отличающимися видами и жесточайшей деформацией. В статье<ref>[https://arxiv.org/pdf/1904.06807.pdf Multi-Channel Attention Selection GAN with Cascaded Semantic Guidancefor Cross-View Image Translation]</ref> о выборочной [[Generative Adversarial Nets (GAN) | генеративной состязательной сети]] с мультиканальным вниманием (англ. ''Multi-Channel Attention Selection GAN, MCA-GAN'') рассматривается подход, позволяющий делать возможным генерацию изображения, максимально приближенной к реальной, с произвольных точек зрения, основывающийся на семантическом отображении. Работа сети происходит в два этапа:
+
Преобразование изображений перекрестным видом проблематично, поскольку оно включает в себя изображения со значительно отличающимися видами и жесточайшей деформацией. В статье<ref name="MCA-GAN">[https://arxiv.org/pdf/1904.06807.pdf Multi-Channel Attention Selection GAN with Cascaded Semantic Guidancefor Cross-View Image Translation]</ref> о выборочной [[Generative Adversarial Nets (GAN) | генеративной состязательной сети]] с мультиканальным вниманием (англ. ''Multi-Channel Attention Selection GAN, MCA-GAN'') рассматривается подход, позволяющий делать возможным генерацию изображения, максимально приближенной к реальной, с произвольных точек зрения, основывающийся на семантическом отображении. Работа сети происходит в два этапа:
 
# изображение и целевое семантическое отображение подаются на вход циклической семантически-управляемой генерационной сети для получения начальных результатов;
 
# изображение и целевое семантическое отображение подаются на вход циклической семантически-управляемой генерационной сети для получения начальных результатов;
 
# начальные результаты уточняются, используя механизм мультиканального выделения внимания.
 
# начальные результаты уточняются, используя механизм мультиканального выделения внимания.
 
Обширные эксперименты на наборах данных Dayton, CVUSA и Ego2Top показывают, что данная модель способна генерировать значительно более качественные результаты, чем другие современные методы.
 
Обширные эксперименты на наборах данных Dayton, CVUSA и Ego2Top показывают, что данная модель способна генерировать значительно более качественные результаты, чем другие современные методы.
  
[[Файл:MCA-GAD.png|thumb|left|x300px|Архитектура MCA-GAD.]]
+
[[Файл:MCA-GAD.png|thumb|left|x300px|Рисунок 29.<ref name="MCA-GAN"/> Архитектура MCA-GAD.]]
  
 
На картинке слева проиллюстрирована структура сети. Первый этап, как было описано выше, состоит из каскадной семантически-управляемой генерацинной подсети, использующая изображения с одном представлении и условные семантические отображения в другом представлении в качестве входных данных и реконструирующая эти изображения в другом представлении. Результирующие изображения далее подаются на вход семантическому генератору для восстановления исходного семантического отображения, формируя генерационный цикл. Второй этап заключается в том, что отличительные характеристики и грубый синтез объединяются и передаются в модуль культиканального выделения внимания, направленный на получение более детализированного синтеза из большего пространства генерации и создание отображений неопределенности для управления множественными оптимизационными потерями.
 
На картинке слева проиллюстрирована структура сети. Первый этап, как было описано выше, состоит из каскадной семантически-управляемой генерацинной подсети, использующая изображения с одном представлении и условные семантические отображения в другом представлении в качестве входных данных и реконструирующая эти изображения в другом представлении. Результирующие изображения далее подаются на вход семантическому генератору для восстановления исходного семантического отображения, формируя генерационный цикл. Второй этап заключается в том, что отличительные характеристики и грубый синтез объединяются и передаются в модуль культиканального выделения внимания, направленный на получение более детализированного синтеза из большего пространства генерации и создание отображений неопределенности для управления множественными оптимизационными потерями.
Строка 347: Строка 347:
 
Поскольку между изначальной точкой зрения и результирующей существует объемная деформация объекта и/или сцены, одномасштабная компонента вряд ли сможет захватить всю необходимую пространственную информацию для детализированной генерации. Многомасштабный пространственный пулинг оперирует же другими значениями размера ядра и шага для выполнения глобального среднего пулинга на одних и тех же входных характеристиках, тем самым получая многомасштабные характеристики с отличающимися рецептивными полями для восприятия, соответственно, различных пространственных контекстов. Механизм мультиканального внимания позволяет осуществлять выполнение пространственного и временного отбора, чтобы синтезировать конечный детализированный результат.
 
Поскольку между изначальной точкой зрения и результирующей существует объемная деформация объекта и/или сцены, одномасштабная компонента вряд ли сможет захватить всю необходимую пространственную информацию для детализированной генерации. Многомасштабный пространственный пулинг оперирует же другими значениями размера ядра и шага для выполнения глобального среднего пулинга на одних и тех же входных характеристиках, тем самым получая многомасштабные характеристики с отличающимися рецептивными полями для восприятия, соответственно, различных пространственных контекстов. Механизм мультиканального внимания позволяет осуществлять выполнение пространственного и временного отбора, чтобы синтезировать конечный детализированный результат.
  
[[Файл:MCA-GAN_Module.png|thumb|center|x400px|Архитектура модуля мультиканального выделения внимания (англ. ''multi-channel attention selection module'').]]
+
[[Файл:MCA-GAN_Module.png|thumb|center|x400px|Рисунок 30.<ref name="MCA-GAN"/> Архитектура модуля мультиканального выделения внимания (англ. ''multi-channel attention selection module'').]]
  
[[Файл:MCA-GAN_CrossviewImageTranslation.png|thumb|center|x500px|Преобразование изображения перекрестным видом.]]
+
[[Файл:MCA-GAN_CrossviewImageTranslation.png|thumb|center|x500px|Рисунок 31.<ref name="MCA-GAN"/> Преобразование изображения перекрестным видом.]]
  
 
== Области применения ==
 
== Области применения ==

Версия 15:47, 14 января 2021

Эта статья находится в разработке!

Автоматический синтез реалистичных высококачественных изображений из текстовых описаний был бы интересен и довольно полезен, так как имеет множество практических применений., но современные системы искусственного интеллекта все еще далеки от этой цели, так как это является довольно сложной задачей в области компьютерного зрения. Однако в последние годы были разработаны универсальные и мощные рекуррентные архитектуры нейронных сетей для изучения различных представлений текстовых признаков. Между тем, глубокие сверточные генеративные состязательные сети (англ. Generative Adversarial Nets, GANs) начали генерировать весьма убедительные изображения определенных категорий, таких как лица, обложки альбомов и интерьеры комнат. Образцы, генерируемые существующими подходами "текст-изображение", могут приблизительно отражать смысл данных описаний, но они не содержат необходимых деталей и ярких частей объекта. Мы рассмотрим глубокую архитектуру и формулировку GAN, объединим достижения в моделировании текста и изображений, переводя визуальные концепции из символов в пиксели.

Обзор генеративных моделей

Сообщество глубокого обучения быстро совершенствует генеративные модели. Среди них можно выделить три перспективных типа: авторегрессионные модели (англ. Autoregressive model, AR-model), вариационные автокодировщики (англ. Variational Autoencoder, VAE) и генеративные состязательные сети. На данный момент самые качественные изображения генерируют сети GAN (фотореалистичные и разнообразные, с убедительными деталями в высоком разрешении). Поэтому в данной статье мы сосредоточимся на моделях GAN.

DCGAN

Глубокая сверточная генеративная состязательная сеть (англ. Deep Convolutional Generative Adversarial Network, DCGAN) — обусловлена текстовыми признаками, кодируемыми гибридной сверточно-рекуррентной нейронной сетью на уровне символов. DCGAN имеет эффективную архитектуру и обучающую структуру, которая позволяет синтезировать изображения птиц и цветов из текстовых описаний.

Для обучения такой модели для птиц был использован набор данных Caltech-UCSD[1], а для цветов — Oxford-102[2]. Наряду с этим было собрано по пять текстовых описаний на изображение, которые были использованы в качестве параметров оценки.

DCGAN во многих случаях может генерировать на основе текста визуально-правдоподобные изображения размером ​64×64, а также отличается тем, что сама модель является генеративной состязательней сетью, а не только использует ее для постобработки. Текстовые запросы кодируются с помощью текстового кодировщика [math]\varphi[/math]. Описание, внедренное в [math]\varphi(t)[/math] сначала сжимается с помощью полностью связанного слоя до небольшого размера (на практике было использовано 128), затем применяется функция активации Leaky ReLU и результат конкатенируется с вектором шума [math]z[/math].

Архитектура DCGAN
Рисунок 1.[3] Архитектура DCGAN

Как только модель научилась генерировать правдоподобные изображения, она должна также научиться согласовывать их с текстовым описанием, и было бы неплохо, если бы она научилась оценивать, соответствуют ли изображения заданному описанию или нет. Модель должна неявно разделять два источника ошибок: нереалистичные образы (для любого текста) и реалистичные образы неправильного класса, которые не соответствуют текстовым признакам. Алгоритм обучения GAN был модифицирован таким образом, чтобы разделять эти источники ошибок. В дополнение к реальным/поддельным входным данным в дискриминатор во время обучения был добавлен третий тип входных данных, состоящий из реальных изображений с несовпадающим текстовым описанием, на которых дискриминатор должен обучиться оценивать поддельные изображения.

Attribute2Image

Рисунок 3.[4] Пример результата работы Attribute2Image
Условная генерация изображений из визуальных атрибутов (англ. Conditional Image Generation from Visual Attributes, Attribute2Image[4]) — это еще один способ создания изображений из визуальных атрибутов. Attribute2Image моделирует изображение как смесь переднего и заднего планов и разрабатывает многоуровневую генеративную модель с выделенными скрытыми переменными, которые можно изучать от начала до конца с помощью вариационного автокодировщика (англ. Variational Autoencoder, VAE). Экспериментируя с естественными изображениями лиц и птиц Attribute2|Image демонстрирует, что способен генерировать реалистичные и разнообразные изображения с распутанными скрытыми представлениями. Модель использует общий алгоритм минимизации энергии для апостериорного вывода скрытых переменных с учетом новых изображений. Таким образом, изученные генеративные модели показывают отличные количественные и визуальные результаты в задачах реконструкции и завершения изображения, обусловленного атрибутами.
Архитектура Attribute2Image
Рисунок 4.[4] Архитектура Attribute2Image

StackGAN

Составные генеративные состязательные сети (англ. Stacked Generative Adversarial Networks, StackGAN[5]) — служат для генерации фотореалистичных изображений размера 256x256, заданных текстовыми описаниями. В данной модели трудная задача генерации изображения разлагается на более решаемые подзадачи с помощью процесса эскиз-уточнения (англ. sketch-refinement process). Таким образом, Stage-I GAN рисует примитивную форму и цвета объекта на основе данного текстового описания, получая изображения Stage-I с низким разрешением. Stage-II GAN принимает результаты Stage-I и текстовые описания в качестве входных данных и генерирует изображения высокого разрешения с фотореалистичными деталями. Он способен исправлять дефекты в результатах этапа I и добавлять привлекательные детали в процессе уточнения (англ. refinement process). Чтобы улучшить разнообразие синтезированных изображений и стабилизировать обучение CGAN[6] вводится техника условно-когнитивной регуляции (англ. Conditioning Augmentation), которая способствует плавности в обусловливающем многообразии.

Inception scores для сгенерированных изображений в тестовых наборах Caltech-UCSD[1], Oxford-102[2] и COCO[7]
Набор данных Inception Score
Caltech-UCSD [math]3.70 \pm 0.04[/math]
Oxford-102 [math]3.20 \pm 0.01[/math]
COCO [math]8.45 \pm 0.03[/math]

Вклад предлагаемого метода состоит из трех частей:

  • Предлагается новая составная генеративная состязательная сеть для синтеза фотореалистичных изображений из текстовых описаний. Он разбивает сложную задачу генерации изображений с высоким разрешением на более решаемые подзадачи и значительно улучшает состояние дел. StackGAN впервые генерирует изображения с разрешением 256х256 пикселей с фотореалистичными деталями из текстовых описаний.
  • Предлагается техника Condition Augmentation для стабилизации обучения CGAN[6], а также для улучшения разнообразия генерируемых выборок.
  • Обширные качественные и количественные эксперименты демонстрируют эффективность дизайна модели в целом, а также влияние отдельных компонентов, которые предоставляют полезную информацию для разработки будущих условных моделей GAN.
Архитектура StackGAN
Рисунок 5.[5] Архитектура StackGAN.

Генератор Stage-II проектируется как сеть кодировщик-декодировщик с остаточными блоками. Что касается дискриминатора, его структура аналогична структуре дискриминатора Stage-I только с дополнительными блоками понижающей дискретизации, поскольку на этом этапе размер изображения больше.

Для проверки метода были проведены обширные количественные и качественные оценки. Сравниваются два современных метода синтеза текста в изображение, GAN-INT-CLS[8] и GAWWN[8].

StackGAN++

Хотя генерирующие состязательные сети (GAN) показали замечательный успех в различных задачах, они все еще сталкиваются с проблемами при создании изображений высокого качества. В данном разделе предлагаются[9] составные генеративные состязательные сети, предназначенные для создания фотореалистичных изображений с высоким разрешением. Во-первых, предлагается двухэтапная генеративная состязательная сетевая архитектура StackGAN-v1 для синтеза текста в изображение. Stage-I по-прежнему рисует примитивную форму и цвета сцены на основе заданного текстового описания, что дает изображения с низким разрешением. Stage-II все также принимает результаты этапа I и текстовое описание в качестве входных данных и генерирует изображения высокого разрешения с фотореалистичными деталями. Во-вторых, усовершенствованная многоэтапная генеративно-состязательная сетевая архитектура StackGAN-v2 предлагается как для условных, так и для безусловных генеративных задач. StackGAN-v2 состоит из нескольких генераторов и нескольких дискриминаторов, организованных в древовидную структуру; изображения в нескольких масштабах, соответствующие одной и той же сцене, генерируются из разных ветвей дерева. StackGAN-v2 демонстрирует более стабильное поведение при обучении, чем StackGAN-v1, за счет совместной аппроксимации нескольких распределений.

Архитектура StackGAN++
Рисунок 6.[9] Архитектура StackGAN++.

Несмотря на успех, GAN, как известно, сложно обучить. Тренировочный процесс обычно нестабилен и чувствителен к выбору гиперпараметров. В нескольких статьях утверждалось, что нестабильность частично связана с несвязными носителями распределения данных и подразумеваемого модельного распределения. Эта проблема становится более серьезной при обучении GAN генерировать изображения с высоким разрешением (например, 256x256), потому что вероятность того, что распределение изображений и распределение моделей будет совместно использовать один и тот же носитель в многомерном пространстве, очень мала. Более того, обычным явлением сбоя при обучении GAN является свертывание режима, когда многие из сгенерированных выборок содержат одинаковый цвет или узор текстуры. Чтобы стабилизировать процесс обучения GAN и улучшить разнообразие выборок, несколько методов пытались решить проблемы, предлагая новые сетевые архитектуры, вводя эвристические приемы или изменяя цели обучения.

Предлагается продвинутая многоэтапная генеративно-состязательная сетевая архитектура StackGAN-v2 как для условных, так и для безусловных генеративных задач. StackGAN-v2 имеет несколько генераторов, которые разделяют между собой большинство своих параметров в древовидной структуре. Входные данные сети можно рассматривать как корень дерева, а изображения разного масштаба генерируются из разных ветвей дерева. Конечная цель генератора на самой глубокой ветви — создание фотореалистичных изображений с высоким разрешением. Генераторы в промежуточных ветвях имеют прогрессивную цель создания изображений от малых до больших для достижения конечной цели. Вся сеть совместно обучается аппроксимировать различные, но сильно взаимосвязанные распределения изображений в разных ветвях. Кроме того, предлагается термин регуляризации согласованности цвета, чтобы генераторы могли генерировать более согласованные образцы для разных масштабов.

Inception scores для сгенерированных изображений в тестовых наборах Caltech-UCSD[1], Oxford-102[2] и COCO[7]
Набор данных StackGAN-v1 StackGAN-v2
Caltech-UCSD [math]3.70 \pm 0.04[/math] [math]4.04 \pm 0.05[/math]
Oxford-102 [math]3.20 \pm 0.01[/math] [math]3.26 \pm 0.01[/math]
COCO [math]8.45 \pm 0.03[/math] [math]8.30 \pm 0.10[/math]

На основе этих генеративных моделей также изучалась условная генерация изображений. В большинстве методов используются простые условные переменные, такие как атрибуты или метки классов. Существуют также работы с изображениями для создания изображений, включая редактирование фотографий, перенос области и сверхвысокое разрешение. Однако методы сверхвысокого разрешения могут добавлять только ограниченное количество деталей к изображениям с низким разрешением и не могут исправить большие дефекты.

Введен термин регуляризации согласованности цвета, чтобы образцы, сгенерированные с одного и того же входа на разных генераторах, были более согласованными по цвету и, таким образом, улучшили качество сгенерированных изображений.

HTIS

В данном разделе предлагается новый иерархический подход к синтезу текста (Hierarchical Text-to-Image Synthesis, HTIS[10]) в изображение путем определения семантического макета. Вместо того, чтобы изучать прямое отображение текста в изображение, алгоритм разбивает процесс генерации на несколько шагов, на которых он сначала создает семантический макет из текста с помощью генератора макета и преобразует макет в изображение с помощью генератора изображений. Предлагаемый генератор компоновки постепенно создает семантическую компоновку от грубого к точному, генерируя ограничивающие рамки (англ. bounding box) объекта и уточняя каждую рамку, оценивая формы объектов внутри нее. Генератор изображений синтезирует изображение, обусловленное предполагаемым семантическим макетом, что обеспечивает полезную семантическую структуру изображения, совпадающего с текстовым описанием.

Модель не только генерирует семантически более значимые изображения, но также позволяет автоматически аннотировать генерируемые изображения. Созданные изображения и процесс генерации под управлением пользователя путем изменения сгенерированного макета сцены.

Возможности предложенной модели были продемонстрированы на сложном наборе данных MS COCO dataset[11]. Оказывается, модель может существенно улучшить качество изображения, интерпретируемость вывода и семантическое выравнивание вводимого текста по сравнению с существующими подходами.

Inception scores для сгенерированных изображений в тестовом наборе MS COCO[11]
Модель Inception Score
StackGAN [math]8.45 \pm 0.03[/math]
Рассматриваемая модель [math]11.46 \pm 0.09[/math]

Создание изображения из общего предложения «люди, едущие на слонах, идущих по реке» требует множества рассуждений о различных визуальных концепциях, таких как категория объекта (люди и слоны), пространственные конфигурации объектов (верховая езда), контекст сцены (прогулка по реке) и т. д., что намного сложнее, чем создание одного большого объекта, как в более простых наборах данных. Существующие подходы не привели к успеху в создании разумных изображений для таких сложных текстовых описаний из-за сложности обучения прямому преобразованию текста в пиксель из обычных изображений.

Поэтому вместо того, чтобы изучать прямое отображение текста в изображение, был предложен альтернативный подход, который строит семантический макет как промежуточное представление между текстом и изображением. Семантический макет определяет структуру сцены на основе экземпляров объектов и предоставляет детальную информацию о сцене, такую ​​как количество объектов, категорию объекта, расположение, размер, форму.

Архитектура
Рисунок 9.[10] Архитектура HTIS.
  • Генератор рамок (англ. Box Generator) принимает в качестве входных данных вложения текста и генерирует грубую компоновку, композируя экземпляры объектов в изображении. Выходные данные генератора представляют собой набор ограничивающих рамок [math]B_1: T = \{B_1, ..., B_T\}[/math], где каждая ограничивающая рамка [math]B_t[/math] определяет местоположение, размер и метку категории [math]t[/math]-го объекта.
  • Генератор фигур (англ. Shape Generator) берет набор ограничивающих рамок, созданных на предыдущем шаге, и предсказывает формы объектов внутри рамок. Результатом является набор двоичных масок [math]M_1: T = \{M_1, ..., M_T\}[/math], где каждая маска [math]M_t[/math] определяет форму переднего плана [math]t[/math]-го объекта.
  • Генератор изображений (англ. Image Generator) принимает карту семантических меток [math]M[/math], полученную путем агрегирования масок по экземплярам, и текстовое описание в качестве входных данных, и генерирует изображение, переводя семантический макет в пиксели, соответствующие текстовому описанию.

AttnGAN

Последние разработки исследователей в области автоматического создания изображений по текстовому описанию, основаны на генеративных состязательных сетях (GANs).Общепринятый подход заключается в кодировании всего текстового описания в глобальное векторное пространство предложений (англ. global sentence vector). Такой подход демонстрирует ряд впечатляющих результатов, но у него есть главные недостатки: отсутствие чёткой детализации на уровне слов и невозможность генерации изображений высокого разрешения. Эта проблема становится еще более серьезной при генерации сложных кадров, таких как в наборе данных COCO[7].

В качестве решения данной проблемы была предложена[12] новая генеративно-состязательная нейросеть с вниманием (англ. Attentional Generative Adversarial Network, AttnGAN), которая относится к вниманию как к фактору обучения, что позволяет выделять слова для генерации фрагментов изображения.

Архитектура AttnGAN
Рисунок 11.[12] Архитектура AttnGAN.

Модель состоит из нескольких взаимодействующих нейросетей (Рисунок 11):

  • Кодировщики текста (англ. Text Encoder) и изображения (англ. Image Encoder) векторизуют исходное текстовое описания и реальные изображения. В данном случае текст рассматривается в виде последовательности отдельных слов, представление которых обрабатывается совместно с представлением изображения, что позволяет сопоставить отдельные слова отдельным частям изображения. Таким образом реализуется механизм внимания (англ. Deep Attentional Multimodal Similarity Model, DAMSM).
  • [math]F^{ca}[/math] — создает сжатое представление об общей сцене на изображении, исходя из всего текстового описания. Значение [math]C[/math] на выходе конкатенируется с вектором из нормального распределения [math]Z[/math], который задает вариативность сцены. Эта информация является основой для работы генератора.
  • Attentional Generative Network — самая большая сеть, состоящая из трех уровней. Каждый уровень порождает изображения все большего разрешения, от 64x64 до 256x256 пикселей, и результат работы на каждом уровне корректируется с помощью сетей внимания [math]F^{attn}[/math], которые несут в себе информацию о правильном расположении отдельных объектов сцены. Кроме того, результаты на каждом уровне проверяются тремя отдельно работающими дискриминаторами, которые оценивают реалистичность изображения и соответствие его общему представлению о сцене.

Благодаря модификациям нейросеть AttnGAN показывает значительно лучшие результаты, чем традиционные системы GAN. В частности, максимальный из известных показателей inception score[13] для существующих нейросетей улучшен на 14,14% (с 3,82 до 4,36) на наборе данных Caltech-UCSD[1] и улучшен на целых 170,25% (с 9,58 до 25,89)[14] на более сложном наборе данных COCO[7].

Stacking VAE and GAN

Большинство существующих методов генерации изображения по тексту нацелены на создание целостных изображений, которые не разделяют передний и задний план изображений, в результате чего объекты искажаются фоном. Более того, они обычно игнорируют взаимодополняемость различных видов генеративных моделей. Данное решение[15] предлагает контекстно-зависимый подход к генерации изображения, который разделяет фон и передний план. Для этого используется взаимодополняющая связка вариационного автокодировщика и генеративно-состязательной нейросети.

Архитектура Stacking VAE and GAN
Рисунок 13.[15] Архитектура Stacking VAE and GAN.

VAE считается более устойчивым чем GAN, это можно использовать для достоверной подборки распределения и выявления разнообразия исходного изображения. Однако он не подходит для генерации изображений высокого качества, т. к. генерируемые VAE изображения легко размываются. Чтобы исправить данный недостаток архитектура включает два компонента (рис. 13):

  • Контекстно-зависимый вариационный кодировщик (англ. conditional VAE, CVAE) используется для захвата основной компоновки и цвета, разделяя фон и передний план изображения.
  • GAN уточняет вывод CVAE с помощью состязательного обучения, которое восстанавливает потерянные детали и исправляет дефекты для создания реалистичного изображения.

Полученные результаты проверки (рис.14) на 2 наборах данных (Caltech-UCSD[1] и Oxford-102[2]) эмпирически подтверждают эффективность предложенного метода.

ChatPainter

В предыдущих и последующих моделях для создания изображений используются текстовые описания. Однако они могут быть недостаточно информативными, чтобы охватить все представленные изображения, и модели будет недостаточно данных для того чтобы сопоставить объекты на изображениях со словами в описании. Поэтому в качестве дополнительных данных в модели ChatPainter предлагается[16] использовать диалоги, которые дополнительно описывают сцены (пример рис. 16). Это приводит к значительному улучшению Inception score[13] и качества генерируемых изображений в наборе данных MS COCO (Microsoft COCO dataset)[11]. Для создания нового набора данных с диалогами, были объединены описания представленные в наборе данных MS COCO[11], с данными из Visual Dialog dataset (VisDial)[17].

Архитектура ChatPainter
Рисунок 15.[16] Архитектура ChatPainter:
  1. Этап 1: модель генерирует изображение 64×64, по описанию и диалогу.
  2. Этап 2: модель генерирует изображение размером 256×256, на основе изображения сгенерированного на 1 этапе, а также описанию и диалогу
Изображение, сгенерированное моделью ChatPainter для данного описания и диалога
Рисунок 16.[16] Пример работы ChatPainter.

Данная архитектура (рис. 15) опирается на модель StackGAN. StackGAN генерирует изображение в два этапа: на первом этапе генерируется грубое изображение 64×64, а на втором генерируется уже улучшенное изображение 256×256.

Формирование вектора текстовых описаний [math]\phi_{t}[/math] происходит путем кодирования подписей с помощью предварительно обученного кодировщика[18]. Для генерации диалоговых вложений [math]\zeta_{d}[/math] используется два метода:

  • Нерекурсивный кодировщик — сжимает весь диалог в одну строку и кодирует его с помощью предварительно обученного кодировщика Skip-Thought[19].
  • Рекурсивный кодировщик — генерирует Skip-Thought векторы (англ. Skip-Thought Vectors)[20] для каждого сообщения в диалоге, а затем кодирует их двунаправленной рекуррентной нейронной сетью c LSTM

Затем выходы описаний и диалогов объединяются и передаются в качестве входных данных в модуль аугментации данных (англ. Conditioning Augmentation, CA). Модуль CA нужен для получения скрытых условных переменных, которые передаются на вход генератору. Архитектура блоков (рис. 15) upsample, downsample и residual blocks сохраняется такой же, как и у исходного StackGAN

Результаты тестирования и сравнение модели ChatPainter с другими приведены в таблице. Из неё видно, что модель ChatPainter, которая получает дополнительную диалоговую информацию, имеет более высокий Inception score[13], в отличии от модели StackGAN. Кроме того, рекурсивная версия ChatPainter получилась лучше, чем нерекурсивная версия. Вероятно, это связано с тем, что в нерекурсивной версии кодировщик не обучается на длинных предложениях сворачивая весь диалог в одну строку.

Inception scores для сгенерированных изображений в тестовом наборе MS COCO[11]
Модель Inception Score
StackGAN [math]8.45 \pm 0.03[/math]
ChatPainter (non-recurrent) [math]9.43 \pm 0.04[/math]
ChatPainter (recurrent) [math]9.74 \pm 0.02[/math]
#AttnGAN [math]25.89 \pm 0.47[/math]

MMVR

Архитектура MMVR
Рисунок 17.[21] Архитектура MMVR.

Модель мультимодальной векторной сети (англ. Multi-Modal Vector Representation, MMVR), впервые предложенная в статье[21], способна создавать изображения по описанию и генерировать описание исходя из предоставленного изображения. Она включает несколько модификаций для улучшения генерации изображений и описаний, а именно: вводится функция потерь на основе метрики N-грамм, которая обобщает описание относительно изображения; так же для генерации вместо одного используется несколько семантически сходных предложений, что так же улучшает создаваемые изображения.

Модель может быть разделена на два взаимозависимых модуля (рис. 17):

  • Генератор изображений на основе GAN с DeePSiM[22].
  • Генератор описаний изображений на основе Long-term Recurrent Convolutional Networks (LRCNs)[23].

Прямое распространение (англ. forward pass) инициируется путем передачи случайного скрытого вектора (англ. latent vector) [math]h_{t}[/math] в генератор изображений ([math]G[/math]), который генерирует изображение [math]\hat{x}[/math]. Затем по сгенерированной картинке генератор описаний создаёт подпись. Для определения ошибки между сгенерированным описанием [math]\hat{y}[/math] и исходным описанием [math]y[/math] используется перекрестная энтропия на уровне слов. Она используется для итеративного обновления [math]h_{t}[/math] (заодно и [math]\hat{x}[/math]), оставляя при этом все остальные компоненты фиксированными. С каждой итерацией [math]\hat{y}[/math] приближается к [math]y[/math], и сгенерированное изображение на каждом шаге [math]\hat{x}[/math] является временным представлением конечного изображения. Для улучшения реалистичности изображения используется кодировщик шумоподавления (англ. Denoising Autoencoder, DAE)[24] — в правило обновления добавляется ошибка восстановления изображения (англ. reconstruction error), вычисляемая как разница между [math]h_{t}[/math] и [math]\hat{h_{t}}[/math].

Рисунок 18.[21] Сравнение PPGN[24] и MMVR.

Обучение начинается с генерации случайного 4096-мерного вектора [math]h_{t}[/math], который передаётся в модель для последующего итеративного обновления. Процесс завершается после 200 итераций, и полученное изображение считается репрезентативным для данного описания.

Inception scores для сгенерированных изображений в тестовом наборе MS COCO[11]
Модель Inception Score
Plug and Play Generative Networks (PPGN)[24] [math]6.71 \pm 0.45[/math]
MMVR [math]7.22 \pm 0.81[/math]
MMVR ([math]N_{c}=5[/math]) [math]8.30 \pm 0.78[/math]
MMVR ([math]N_{c}[/math]) — модификация MMVR с несколькими текстовыми описаниями на изображение, где [math]N_{c}[/math] - количество описаний.

FusedGAN

Для улучшения генерации изображений по описанию и получения контролируемой выборки, некоторые модели разделяют процесс генерации на несколько этапов. Например, в модели Attribute2Image раздельная генерации фона и переднего плана позволила получить контролируемую выборку (фиксируя фон и пеняя основную сцену, и наоборот). В свою очередь модель FusedGAN[25] может выполнять контролируемую выборку различных изображений с очень высокой точностью, что так же достигается путём разбиения процесса генерации изображений на этапы. В данной модели в отличие от StackGAN, где несколько этапов GAN обучаются отдельно с полным контролем помеченных промежуточных изображений, FusedGAN имеет одноступенчатый конвейер со встроенным StackGAN.

Архитектура FusedGAN
Рисунок 19.[25] Архитектура FusedGAN

Контролируемая выборка относится к процессу выборки изображений путем изменения таких факторов как стиль, фон и другие детали. Например, можно генерировать разные изображения, оставляя постоянным фон, или генерировать изображения в различных стилях, сохраняя остальной контекст неизменным. Основное преимущество данной модели состоит в том, что для обучения она может использовать полу-размеченные данные. Это означает, что помимо размеченных данных (изображение и его описание) для генерации изображений, модель может использовать изображения без текстового описания. Модель состоит из двух взаимосвязанных этапов (рис. 19):

  • На первом этапе с помощью GAN выполняется генерация изображений из случайного вектора, а также создаются признаки для стиля, в котором будет оформлено сгенерированное изображение на втором шаге.
  • На втором этапе CGAN[26] генерирует окончательное изображение (то есть изображение, соответствующее описанию и стилю заданному на первом шаге), используя в качестве входных данных текстовое описание и данные полученные с первого шага.

[math]М_{s}[/math] выступает в роли шаблона подавая дополнительные признаки на второй шаг генерации. Вследствие чего изображения сгенерированных птиц не только соответствуют описанию, но также сохраняют информацию о стиле. Поэтому вместо того, чтобы учиться с нуля, [math]G_{c}[/math] строится поверх [math]М_{s}[/math], добавляя к нему стили с помощью текстового описания. Следует отметить, что в модели отсутствует явная иерархия, поэтому оба этапа могут обучаться одновременно, используя альтернативный метод оптимизации.

Пример работы FusedGAN
Рисунок 20.[25] Сравнение FusedGAN с другими моделями

Для оценки качества генерируемых изображений с помощью FusedGAN, были отобраны 30 тысяч изображений и посчитано inception scores, используя предварительно обученную модель на тестовом наборе Caltech-UCSD[1]. Данные сравнения приведены в таблице.

Модель Inception Score
GAN-INT-CLS [8] [math]2.88 \pm 0.04[/math]
StackGAN-I [math]2.95 \pm 0.02[/math]
FusedGAN [math]3.00 \pm 0.03[/math]

MirrorGAN

Генерация изображения из заданного текстового описания преследует две главные цели: визуальный реализм и семантическое постоянство. Несмотря на то, что существует колоссальный прогресс в создании визуально реалистичных изображений высокого качества посредством генеративных состязательных сетей, обеспечение вышепоставленных целей все еще является категорически сложной задачей. Для осуществления попытки их реализации рассмотрим фреймворк text-to-image-to-text, сохраняющий семантику с вниманием под названием MirrorGAN[27]. Данный фреймворк, который из текстового описания генерирует изображение, использует идею обучения с помощью переописания и состоит из трёх модулей:

  • модуль встраивания семантического текста (англ. semantic text embedding module, STEM);
  • глобально-локальный совместный модуль с вниманием для создания каскадных изображений (англ. global-local collaborative attentive module for cascaded image generation, GLAM);
  • модуль регенерации семантического текста и выравнивания (англ. semantic text regener-ation and alignment module, STREAM).

STEM создает встраивания на уровне слов и предложений, GLAM имеет каскадную архитектуру создания результирующих изображений от грубой шкалы до детализированной, используя как внимание к локальным словам, так и к глобальным предложениям, чтобы прогрессивно совершенствовать семантическое постоянство и разнообразие у сгенерированных изображений, а STREAM стремится к регенерации текстового описания исходя из созданного изображения, которое семантически выравнивается с заданным описанием.

Если изображение, сгенерированное с помощью T2I (text-to-image) семантически консистентно с заданным описанием, его описание посредством I2T (image-to-text) должно предоставлять аналогичную семантику с заданным.

Чтобы обучать модель сквозным методом, будем использовать две состязательные функции потерь: в визуальном реализме и в семантическом постоянстве. Вдобавок, для эффективного использования двойного регулирования T2I и I2T, применим текстово-семантическую реконструированную функцию потерь, основанную на перекрёстной энтропии.

Рисунок 21.[27] Архитектура MirrorGAN.

MirrorGan представляет собой зеркальную структуру, объединяя T2I и I2T. Она состоит из трех генераторов. Чтобы сконструировать многоэтапный каскадный генератор, нужно совместить все три сети генерации изображений последовательно. В качестве архитектуры STREAM будем использовать довольно распространенный фреймворк захвата изображения, базирующийся на кодировании и декодировании. Кодировщик изображений есть свёрточная нейронная сеть, предварительно обученная на ImageNet, а декодировщик есть рекуррентная нейронная сеть. Предварительное обучение STREAM помогло MirrorGAN достичь более стабильного процесса обучения и более быстрой сходимости, в то время, как их совместная оптимизация довольно нестабильна и с точки зрения занимаемого места и времени очень дорога. Структура кодировщик-декодировщик и соответствующие ей параметры фиксированы во время обучения других модулей MirrorGAN.

Обучая [math]G_i[/math], градиенты из [math]L_{stream}[/math] обратно распространяются через STREAM в [math]G_i[/math], чьи сети остаются фиксированными.

[math]\mathcal{L}_G = \displaystyle\sum_{i = 0}^{m - 1}{\mathcal{L}_{G_i} + \lambda \mathcal{L}_{stream}}[/math]

Для наилучшего качества генерации, поставим коэффициент [math]\lambda := 20[/math].

Показатель Inception был использован для измерения как объективности, так и разнообразия сгенерированных изображений. R-precision был использован для вычисления визуально-семантической схожести между сгенерированными изображениями и их соответствующими текстовыми описаниями.

Рисунок 22.[27] Сравнение MirrorGAN, AttnGAN и других генеративных состязательных сетей.

Obj-GAN

Объектно-управляемая генеративная состязательная сеть с вниманием (англ. Object-Driven Attentive Generative Adversarial Network, Obj-GAN) позволяет создавать изображения по описанию с учётом объектной компоновки. Объектно-управляемый генератор изображений, создаёт изображения на основе двухэтапной генерации. Сначала создаётся макет по наиболее значимым словам в текстовом описании, после этого генерируется изображение с полученной компоновкой объектов. А для сопоставления синтезируемых объектов с текстовым описанием и сгенерированным макетом, предлагается[28] новый объектный дискриминатор, базирующийся на Fast R-CNN[29]. В результате модификаций Obj-GAN значительно превосходит по производительности другие модели на наборе данных COCO[7], увеличивая показатель Inception score[13] на 11% и уменьшая показатель FID (Fréchet inception distance)[30] на 27%.

Inception score в тестовом наборе COCO[11]
Модель Inception Score FID
Obj-GAN (pred box & pred shp) [math]27.32 \pm 0.40[/math] 24.70
Obj-GAN (gt box & pred shp) [math]28.22 \pm 0.35[/math] 22.67
Obj-GAN (gt box & gt shp) [math]31.01 \pm 0.27[/math] 17.03
Архитектура Obj-GAN
Рисунок 23.[28] Архитектура Obj-GAN.

Основная цель Obj-GAN — генерация качественных изображений с семантически значимым макетом и реалистическими объектами. Obj-GAN состоит из пары генератора изображений, управляемый объектами, с вниманием и пообъектного дискриминатора. Генератор изображений в качестве входных данных принимает текстовое описание и предварительно сгенерированный семантический макет, по которым создаёт изображение с помощью многоэтапного процесса coarse-to-fine. На каждом этапе генератор синтезирует фрагмент изображений внутри ограничивающей рамки (англ. bounding box), фокусируясь на наиболее релевантных объекту словах.

Говоря более конкретно, он, с использованием управляемого объектами слоя внимания, оперирует метками класса, запрашивая слова в предложениях, чтобы сформировать вектор контекстов, и впоследствии синтезирует фрагмент изображения при условиях метки и вектора контекстов. Пообъектный дискриминатор проверяет каждую ограничивающую рамку, чтобы удостовериться в том, что сгенерированный объект действительно может быть сопоставлен с заранее сгенерированным макетом. Чтобы вычислить все потери при распознавании для всех заданных ограничивающих рамок одновременно и эффективно, дискриминатор базирован быстрой региональной свёрточной нейронной сетью (англ. Fast Region-based Convolutional Neural Network, Fast R-CNN) с двоичной функцией потерь перекрёстной энтропии для каждой рамки.


Рассмотрим архитектуру Obj-GAN. Первым этапом, генеративная состязательная сеть принимает текстовое предложение и генерирует семантический макет — последовательность объектов специфицированных соответствующими ограничивающими рамками (наряду с метками классов) и фигурами. Генератор рамок (англ. Box generator) и генератор фигур работают соответствующим образом, сначала создавая последовательность ограничивающих рамок, а затем — фигуру для каждой. Поскольку большинству рамок сопоставлены слова из данного текстового предложения, модель seq2seq с вниманием охватывает это соответствие. Далее конструируется [math]G_{shape}[/math], базированный на двунаправленной свёрточной долгой краткосрочной памяти (англ. bidirectional convolutional long short-term memory, LSTM). Обучение [math]G_{shape}[/math] основывается на фреймворке генеративной состязательной сети, в которой потеря восприятия используется для ограничения генерируемых фигур и стабилизирования обучения.

LayoutVAE

Модели, используемые для генерации макетов сцен из текстовых описаний по большей части игнорируют возможные визуальные вариации внутри структуры, описываемой самим текстом.

Макетный вариационный автокодировщик (англ. Layout variational autoencoder (LayoutVAE)) — фреймворк, базирующийся на вариационном автокодировщике для генерации стохастических макетов сцен — есть разносторонняя программная платформа моделирования, позволяющая генерировать полные макеты изображений с заданным набором меток или макеты меток для существующего изображения с заданной новой меткой. Вдобавок, она также способна обнаруживать необычные макеты, потенциально открывая пути к решению проблемы генерации макетов.

Будем рассматриватЬ задачу генерации сцен с описанием набора меток. Набор меток, представленный как более слабое описание, всего лишь предоставляет множество меток, присутствующих в данном изображении без дополнительного описания взаимосвязи, заставляя модель изучать пространственные и подсчитываемые отношения на основе визуальных данных.

Касательно описанных проблем предлагаются следующие решения:

  • модель стохастических генераций макетов сцен с заданным множеством меток, которая будет иметь две компоненты: моделирование распределений подсчитываемых отношений между объектами; моделирование распределений пространственных отношений между объектами;
  • синтетический набор данных, MNIST-макеты, отражающие стохастическую природу генерации макета сцен;
  • экстремальная валидация моделей с использованием MNIST-макетов и наборов данных COCO[7], в которой содержатся сложные макеты сцен реального мира.
Рисунок 25.[31] Архитектура LayoutVAE.

В статье[31] были предложены фреймворки и структуры моделей, взаимодействующие с LayoutVE, такие как: PNP-Net — фреймворк вариационного автокодировщика для генерации изображения абстрактной сцены из текстовой программы, полностью описывающей её (помимо того, что это — стохастическая модель для генерации, она была протестирована на синтетических наборах данных с малым числом классов); LayoutGAN — модель, основанная на генеративных состязательных сетях, генерирующая макеты графических элементов (прямоугольники, треугольники, и так далее); VAE-базированный фреймворк, кодирующий объект и информацию о макете 3D-сцен в помещении в скрытом коде и т.д..

Обучение генеративных моделей нужно, чтобы предсказать разнообразные, но правдоподобные наборы ограничивающих рамок, учитывая набор меток в качестве входных данных. Рамки в наборе представлены верхними левыми координатами, шириной и высотой [math]i[/math]-й ограничивающей рамки категории [math]k[/math]. LayoutVAE естественным образом декомпозируется на модель для предсказания количества для каждой заданной метки — CountVAE — и другая для предсказания местоположения и размера каждого объекта — BBoxVAE.

Имея набор меток [math]L[/math] и количество объектов в категории [math]\left\{ n_m : m \in L \right\}[/math], BBoxVAE предсказывает распределение координат для ограничивающих рамок авторегрессионно. Мы следуем тому же предопределенному порядку меток, что и в CountVAE, в пространстве меток, и упорядочиваем ограничивающие рамки слева направо для каждой метки; все ограничивающие рамки предсказываются перед переходом к следующей метке.


Рисунок 26.[31] Генерация по множеству меток [math]\{person, sea, surfboard\}[/math].

TextKD-GAN

Генерация текста представляет особый интерес во многих приложениях нейролингвистического программирования (англ. neuro-linguistic programming, NLP), таких как машинный перевод, моделирование языка и обобщение текста. Генеративные состязательные сети достигли замечательного успеха в создании высококачественных изображений в компьютерном зрении, и в последнее время GANs также вызвали большой интерес со стороны сообщества NLP. Однако достижение подобного успеха в NLP было бы более сложным из-за дискретности текста. В данной статье[32]Md. Akmal H. and Mehdi R.— TextKD-GAN: Text Generation using KnowledgeDistillation and Generative Adversarial Networks, 2019</ref> вводится метод, использующий дистилляцию знаний для эффективного использования настройку GAN для генерации текста. Также показываются, как автокодировщики (англ. autoencoders, AEs) могут быть использованы для обеспечения непрерывного представления предложений, которое в свою очередь представляет собой гладкое представление, присваивающее ненулевые вероятности более чем одному слову.

TextKD-GAN представляет из себя решение для основного узкого места использования генеративных состязательных сетей для генерации текста с дистилляцией знаний: метод, переносящий знания смягченного вывода модели преподавателя в модель студента. Решение основано на AE (учителе), чтобы получить гладкое представление реального текста. Это гладкое представление подается в дискриминатор TextKD-GAN вместо обычного однократного представления. Генератор (студент) пытается изучить многообразие смягченного гладкого представления AE. TextKD-GAN, в конечном итоге, будет превосходить обычный генератор текста на основе GAN, который не нуждается в предварительной подготовке.

Рисунок 27.[32] Модель TextKD-GAN для генерации текста.

В общепринятом текстовом подходе к распознавании, реальные и сгенерированные входные данные дискриминатора будут иметь разные типы (one-hot и softmax), и он может обыкновенно отличить их друг от друга. Один из способов избежать этой проблемы состоит в получении непрерывно гладкого представление слов (а не one-hot представления), и обучении дискриминатора различать их. Здесь используется общепринятый атокодировщик(учитель), чтобы заменить one-hot представление softmax-реконструированным выходом, который является гладким представлением, дающим меньшую дисперсию градиентов. Предложенная модель изображена на рисунке справа. Как видно, вместо one-hot представления реальных слов смягченный реконструированный выход атокодировщика подается на вход дискриминатору. Эта техника значительно усложняет различение для самого дискриминатора. Генератор GAN с softmax выходом пытается имитировать распределение выходного сигнала атокодировщика вместо общепринятого one-hot представления.

Обучение модели происходит следующим образом: AE и TextKD-GAN обучаются одновременно. Чтобы добиться этого, необходимо раздробить целевую функцию на три члена:

  1. реконструирующий член для автоэнкодера: [math]\min\limits_{(\varphi, \psi)} L_{AE}(\varphi, \psi) = \min\limits_{(\varphi, \psi)} \| x - \mathrm{softmax}(\mathrm{dec}_\psi(\mathrm{enc}_\varphi(x))) \| ^ 2[/math]
  2. функция потерь для дискриминатора с градиентным штрафом: [math]\min\limits_{w \in W} L_{discriminator}(w) = \min\limits_{w \in W} -E_{x \sim P_x} [f_w(\mathrm{dec}_\psi(\mathrm{enc}_\varphi(x)))] + E_{z \sim P_z} [f_w(G(z))] + \lambda_2 E_{\hat{x} \sim P_{\hat{x}}} [(\| \nabla_{\hat{x}} f_w(\hat{x}) \| _2 - 1)^2][/math]
  3. состязательная стоимость генератора: [math]\min\limits_\theta L_{Gen}(\theta) = -\min\limits_\theta E_{z \sim P_z} [f_w(G(z))][/math]

Эти функции потерь обучаются поочередно, чтобы оптимизировать различные части модели. В члене штрафа градиента необходимо посчитать норму градиента случайных выборок [math]\hat{x} \sim P_{\hat{x}}[/math].

Рисунок 28.[32] Дивергенция Дженсена-Шеннона (англ. Jensen-Shannon divergence, JSD) между сгенерированным и обучающимся предложениями (n-граммами) полученных из эксперимента SNLI (Stanford Natural Language Inference, Стэнфордский Вывод Естественного Языка).

MCA-GAN

Преобразование изображений перекрестным видом проблематично, поскольку оно включает в себя изображения со значительно отличающимися видами и жесточайшей деформацией. В статье[33] о выборочной генеративной состязательной сети с мультиканальным вниманием (англ. Multi-Channel Attention Selection GAN, MCA-GAN) рассматривается подход, позволяющий делать возможным генерацию изображения, максимально приближенной к реальной, с произвольных точек зрения, основывающийся на семантическом отображении. Работа сети происходит в два этапа:

  1. изображение и целевое семантическое отображение подаются на вход циклической семантически-управляемой генерационной сети для получения начальных результатов;
  2. начальные результаты уточняются, используя механизм мультиканального выделения внимания.

Обширные эксперименты на наборах данных Dayton, CVUSA и Ego2Top показывают, что данная модель способна генерировать значительно более качественные результаты, чем другие современные методы.

Рисунок 29.[33] Архитектура MCA-GAD.

На картинке слева проиллюстрирована структура сети. Первый этап, как было описано выше, состоит из каскадной семантически-управляемой генерацинной подсети, использующая изображения с одном представлении и условные семантические отображения в другом представлении в качестве входных данных и реконструирующая эти изображения в другом представлении. Результирующие изображения далее подаются на вход семантическому генератору для восстановления исходного семантического отображения, формируя генерационный цикл. Второй этап заключается в том, что отличительные характеристики и грубый синтез объединяются и передаются в модуль культиканального выделения внимания, направленный на получение более детализированного синтеза из большего пространства генерации и создание отображений неопределенности для управления множественными оптимизационными потерями.

Модуль мультиканального выделения внимания в свою очередь состоит из многомасштабного пространственного пулинга (англ. multiscale spatial pooling) и компоненты мультиканального выделения внимания (англ. multichannel attention selection component).

Поскольку между изначальной точкой зрения и результирующей существует объемная деформация объекта и/или сцены, одномасштабная компонента вряд ли сможет захватить всю необходимую пространственную информацию для детализированной генерации. Многомасштабный пространственный пулинг оперирует же другими значениями размера ядра и шага для выполнения глобального среднего пулинга на одних и тех же входных характеристиках, тем самым получая многомасштабные характеристики с отличающимися рецептивными полями для восприятия, соответственно, различных пространственных контекстов. Механизм мультиканального внимания позволяет осуществлять выполнение пространственного и временного отбора, чтобы синтезировать конечный детализированный результат.

Рисунок 30.[33] Архитектура модуля мультиканального выделения внимания (англ. multi-channel attention selection module).
Рисунок 31.[33] Преобразование изображения перекрестным видом.

Области применения

  • Создание контента и данных
    • Картинки для интернет-магазина
    • Аватары для игр
    • Видеоклипы, сгенерированные автоматически, исходя из музыкального бита произведения
    • Виртуальные ведущие[34]
  • Благодаря работе генеративных моделей возникает синтез данных, на которых потом могут обучаться другие системы
    • Генерации реалистичного видео городской среды[35]

См. также

Примечания

  1. 1,0 1,1 1,2 1,3 1,4 1,5 Caltech-UCSD Birds 200 dataset
  2. 2,0 2,1 2,2 2,3 Oxford Flowers 102 dataset
  3. 3,0 3,1 3,2 Scott R. — Generative Adversarial Text to Image Synthesis, 2016
  4. 4,0 4,1 4,2 Xinchen Y. — Conditional Image Generation from Visual Attributes, 2015
  5. 5,0 5,1 5,2 5,3 Han Z., Tao X. — Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks, 2017
  6. 6,0 6,1 Mirza M. and Osindero S. — Conditional Generative Adversarial Nets (CGAN) 2014
  7. 7,0 7,1 7,2 7,3 7,4 7,5 COCO dataset (Common Objects in Context)
  8. 8,0 8,1 8,2 8,3 8,4 Scott R. — Generative Adversarial Text to Image Synthesis
  9. 9,0 9,1 9,2 9,3 9,4 Han Z., Tao X. — Realistic Image Synthesis with Stacked Generative Adversarial Networks, 2018
  10. 10,0 10,1 10,2 10,3 Seunghoon H., Dingdong Y. — Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis, 2018
  11. 11,0 11,1 11,2 11,3 11,4 11,5 11,6 Microsoft COCO
  12. 12,0 12,1 12,2 12,3 12,4 Tao X., Pengchuan Z. — AttnGAN: Fine-Grained Text to Image Generationwith Attentional Generative Adversarial Networks, 2018
  13. 13,0 13,1 13,2 13,3 A Note on the Inception Score
  14. Test results — Text-to-Image Generation on COCO
  15. 15,0 15,1 15,2 15,3 Chenrui Z., Yuxin P. — Stacking VAE and GAN for Context-awareText-to-Image Generation, 2018
  16. 16,0 16,1 16,2 Shikhar S., Dendi S. — ChatPainter: Improving Text to Image Generation using Dialogue, 2018
  17. Visual Dialog
  18. Pre-trained encoder for ICML 2016 paper
  19. Skip-Thought encoder
  20. Skip-Thought Vectors
  21. 21,0 21,1 21,2 Shagan S., Dheeraj P. — SEMANTICALLY INVARIANT TEXT-TO-IMAGE GENERATION, 2018
  22. DeePSiM. Alexey D. and Thomas B. — Generating Images with Perceptual Similarity Metrics based on Deep Networks, 2016
  23. Jeff D., Lisa A. H. — Long-term Recurrent Convolutional Networks for Visual Recognition and Description, 2015
  24. 24,0 24,1 24,2 Anh N., Jeff C. — Plug & Play Generative Networks: Conditional Iterative Generation of Images in Latent Space,2017
  25. 25,0 25,1 25,2 Navaneeth B., Gang H. — Semi-supervised FusedGAN for ConditionalImage Generation, 2018
  26. Mirza M. and Osindero S. — Conditional Generative Adversarial Nets (CGAN) 2014
  27. 27,0 27,1 27,2 Tingting Q., Jing Z. — MirrorGAN: Learning Text-to-image Generation by Redescription, 2019
  28. 28,0 28,1 28,2 28,3 Wendo L., Pengchuan Z. — Object-driven Text-to-Image Synthesis via Adversarial Training 2019
  29. Ross Girshick — Fast R-CNN, 2015
  30. Fréchet inception distance, FID
  31. 31,0 31,1 31,2 LayoutVAE: Stochastic Scene Layout Generation From a Label Set
  32. 32,0 32,1 32,2 Ошибка цитирования Неверный тег <ref>; для сносок TextKD-GAN не указан текст
  33. 33,0 33,1 33,2 33,3 Multi-Channel Attention Selection GAN with Cascaded Semantic Guidancefor Cross-View Image Translation
  34. Виртуальный диктор
  35. NVIDIA Interactive Graphics

Источники информации