Изменения

Генерация изображения по тексту

493 байта убрано, 23:08, 23 января 2021

Remove category "В разработке"

~~{{В разработке}}~~Автоматическое создание реалистичных высококачественных изображений из текстовых описаний ~~был~~ было бы ~~интересен~~ интересно и довольно ~~полезен~~полезно, так как имеет множество практических применений, но современные системы искусственного интеллекта все еще далеки от этой цели, так как это является довольно сложной задачей в области компьютерного зрения. Однако в последние годы были разработаны универсальные и мощные рекуррентные архитектуры нейронных сетей для изучения различных представлений текстовых признаков. Между тем, глубокие сверточные [[Generative Adversarial Nets (GAN)| генеративные состязательные сети]] (англ. ''Generative Adversarial Nets, GANs'') начали генерировать весьма убедительные изображения определенных категорий, таких как лица, обложки альбомов и интерьеры комнат. Образцы, генерируемые существующими подходами "текст-изображение", могут приблизительно отражать смысл данных описаний, но они не содержат необходимых деталей и ярких частей объекта. В данной статье рассмотрены формулировка и глубокая архитектура GAN, а также объединены достижения в генерации изображений по тексту.

== Обзор генеративных моделей ==

| style = "text-align: center" | [[Известные наборы данных#Caltech-UCSD Birds 200 (CUB)|Caltech-UCSD]]

|-

| style = "text-align: center" | [[#Attribute2Image|Attribute2Image, 2015]]

| style = "text-align: center" | <tex>14.30 \pm 0.10</tex>

| style = "text-align: center" | {{---}}

|-

| style = "text-align: center" | [[#GAN-INT-CLS|GAN-INT-CLS, 2016]]

| style = "text-align: center" | <tex>7.88 \pm 0.07</tex>

| style = "text-align: center" | <tex>2.88 \pm 0.04</tex>

|-

| style = "text-align: center" | [[#StackGAN|StackGAN, 2017]]

| style = "text-align: center" | <tex>8.45 \pm 0.03</tex>

| style = "text-align: center" | <tex>3.70 \pm 0.04</tex>

|-

| style = "text-align: center" | [[#FusedGAN|FusedGAN, 2018]]

| style = "text-align: center" | {{---}}

| style = "text-align: center" | <tex>3.00 \pm 0.03</tex>

| style = "text-align: center" | {{---}}

| style = "text-align: center" | <tex>~~256~~ 64 \times ~~256~~64</tex>

| style = "text-align: center" | нет

| Генерация изображения в два этапа, на первом задаются признаки стиля, на втором генерируется изображение.

|-

| style = "text-align: center" | [[#ChatPainter|ChatPainter, 2018]]

| style = "text-align: center" | <tex>9.74 \pm 0.02</tex>

| style = "text-align: center"| {{---}}

|-

| style = "text-align: center" | [[#StackGAN++|StackGAN++, 2018]]

| style = "text-align: center" | <tex>8.30 \pm 0.10</tex>

| style = "text-align: center" | <tex>3.84 \pm 0.06</tex>

|-

| style = "text-align: center" | [[#HTIS|HTIS, 2018]]

| style = "text-align: center" | <tex>11.46 \pm 0.09</tex>

| style = "text-align: center" | {{---}}

|-

| style = "text-align: center" | [[#AttnGAN | AttnGAN, 2018]]

| style = "text-align: center" | <tex>25.89 \pm 0.47</tex>

| style = "text-align: center" | <tex>4.36 \pm 0.03</tex>

|-

| style = "text-align: center" | [[#CVAE&GAN|CVAE&GAN, 2018]]

| style = "text-align: center" | {{---}}

|-

| style = "text-align: center" | [[#MMVR|MMVR, 2018]]

| style = "text-align: center" | <tex>8.30 \pm 0.78</tex>

| style = "text-align: center" | {{---}}

|-

| style = "text-align: center" | [[#MirrorGAN|MirrorGAN, 2019]]

| style = "text-align: center" | <tex>26.47 \pm 0.41</tex>

| style = "text-align: center" | <tex>4.56 \pm 0.05</tex>

|-

| style = "text-align: center" | [[#Obj-GAN|Obj-GAN, 2019]]

| style = "text-align: center" | <tex>31.01 \pm 0.27</tex>

| style = "text-align: center" | {{---}}

|-

| style = "text-align: center" | [[#LayoutVAE|LayoutVAE, 2019]]

| style = "text-align: center" | {{---}}

|-

| style = "text-align: center" | [[#MCA-GAN|MCA-GAN, 2019]]

| style = "text-align: center" | {{---}}

| style = "text-align: center" | <tex>256 \times 256</tex>

| style = "text-align: center" | нет

| ~~Генерацию~~ Генерация изображения с произвольных ~~перспективах~~ракурсов, основывающаяся на семантическом отображении (англ. ''semantic mapping'').

| [[Файл:MCA-GANExample.png|128px|thumb|center]]

|}

заданному описанию или нет. Модель должна неявно разделять два источника ошибок: нереалистичные образы (для любого текста) и реалистичные образы неправильного класса, которые не соответствуют текстовым признакам. Алгоритм обучения GAN был модифицирован таким образом, чтобы разделять эти источники ошибок. В дополнение к реальным/поддельным входным данным в дискриминатор во время обучения был добавлен третий тип входных данных, состоящий из реальных изображений с несовпадающим текстовым описанием, на которых дискриминатор должен обучиться оценивать поддельные изображения.

Файл:DCGAN-2.png|Сгенерированные изображения птиц<ref name="DCGAN"/>.|alt=Сгенерированные изображения птиц

Файл:DCGAN-3.png|Сгенерированные изображения цветов<ref name="DCGAN"/>.|alt=Сгенерированные изображения цветов

Для проверки метода были проведены обширные количественные и качественные оценки. Результаты работы модели сравниваются с двумя современными методами синтеза текста в изображение {{---}} [[#GAN-INT-CLS|GAN-INT-CLS]] и [[#GAN-INT-CLS|GAWWN]] (рис. 6).

Файл:StackGAN-2.png|Сгенерированные изображения птиц<ref name="StackGAN/>.|alt=Сгенерированные изображения птиц

Файл:StackGAN-3.png|Сгенерированные изображения цветов<ref name="StackGAN/>.|alt=Сгенерированные изображения цветов

<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:StackGAN++-1.png|thumb|alt=Архитектура StackGAN++|x350px|center|Рисунок 7.<ref name="StackGAN++"/> Архитектура StackGAN++.]]</div>

Несмотря на успех, GAN, как известно, сложно обучить. Тренировочный процесс обычно нестабилен и чувствителен к выбору [[Настройка гиперпараметров | гиперпараметров]]. При обучении GAN генерировать изображения с высоким разрешением (например, 256x256), вероятность того, что распределение изображений и распределение моделей будет совместно использовать один и тот же носитель в многомерном пространстве, очень мала. Более того, обычным явлением сбоя при обучении GAN является ~~'''коллапс режима'''~~ [[Generative_Adversarial_Nets_(GAN)#Mode_Collapse|схлопывание мод распределения]] (англ. ''mode collapse''), когда многие из сгенерированных выборок содержат одинаковый цвет или узор текстуры.

Предлагается продвинутая многоэтапная генеративно-состязательная сетевая архитектура StackGAN-v2 как для условных, так и для безусловных генеративных задач. StackGAN-v2 имеет несколько генераторов, которые разделяют между собой большинство своих параметров в древовидной структуре. Входные данные сети можно рассматривать как корень дерева, а изображения разного масштаба генерируются из разных ветвей дерева. Конечная цель генератора на самой глубокой ветви {{---}} создание фотореалистичных изображений с высоким разрешением. Генераторы в промежуточных ветвях имеют прогрессивную цель создания изображений от малых до больших для достижения конечной цели. Вся сеть совместно обучается аппроксимировать различные, но сильно взаимосвязанные распределения изображений в разных ветвях. Кроме того, используется '''регуляризация согласованности цвета''' (англ. ''color-consistency regularization''), чтобы генераторы могли генерировать более согласованные образцы для разных масштабов.

<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:Stacking_VAE&GAN.png|thumb|alt=Архитектура Stacking VAE and GAN|x350px|center|Рисунок 13.<ref name="CVAE&GAN"/> Архитектура Stacking VAE and GAN.]]</div>

[[Вариационный автокодировщик| VAE]] имеет более стабильный выход чем GAN без [[~~Generative Adversarial Nets~~ Generative_Adversarial_Nets_(GAN)#~~Улучшение обучения GAN~~Mode_Collapse|схлопывания мод распределения]] (англ. ''mode collapse''), это можно использовать для достоверной подборки распределения и выявления разнообразия исходного изображения. Однако он не подходит для генерации изображений высокого качества, т. к. генерируемые VAE изображения легко размываются. Чтобы исправить данный недостаток архитектура включает два компонента (рис. 13):

*Контекстно-зависимый вариационный кодировщик (англ. ''conditional [[Вариационный автокодировщик| VAE]], CVAE'') используется для захвата основной компоновки и цвета, разделяя фон и передний план изображения.

*[[Generative Adversarial Nets (GAN)|GAN]] уточняет вывод CVAE с помощью состязательного обучения, которое восстанавливает потерянные детали и исправляет дефекты для создания реалистичного изображения.

! Модель !! Inception Score ([[Известные наборы данных#Caltech-UCSD Birds 200 (CUB)|Caltech-UCSD]]) !! Inception Score ([[Известные наборы данных#COCO|COCO]])

|-

| style = "text-align: right" | [[#GAN-INT-CLS|GAN-INT-CLS]] ~~GAN-INT-CLS~~ || style = "text-align: center" | <tex>2.88 \pm 0.04</tex> || style = "text-align: center" | <tex>7.88 \pm 0.07</tex>

|-

| style = "text-align: right" | [[#GAN-INT-CLS|GAWWN]] || style = "text-align: center" | <tex>3.70 \pm 0.04</tex> || style = "text-align: center" | <tex>-</tex>

=== TextKD-GAN ===

Генерация текста представляет особый интерес во многих приложениях [https://en.wikipedia.org/wiki/Neuro-linguistic_programming нейролингвистического программирования] (англ. ''neuro-linguistic programming, NLP''), таких как [https://en.wikipedia.org/wiki/Machine_translation машинный перевод], моделирование языка и обобщение текста. [[Generative Adversarial Nets (GAN) | Генеративные состязательные сети]] достигли замечательного успеха в создании высококачественных изображений в [[Компьютерное зрение | компьютерном зрении]], и в последнее время ~~GANs~~ они также вызвали большой интерес со стороны сообщества NLP. Однако достижение подобного успеха в NLP было бы более сложным из-за дискретности текста. В данной статье<ref name="TextKD-GAN">[https://arxiv.org/abs/1905.01976 Md. Akmal H. and Mehdi R.{{---}} TextKD-GAN: Text Generation using KnowledgeDistillation and Generative Adversarial Networks, 2019]</ref> вводится метод, использующий дистилляцию знаний ~~для эффективного использования настройку GAN для генерации текста. Также показываются~~(перенос знаний, ~~как [[Автокодировщик | автокодировщики]]~~ усвоенных большой моделью (~~англ. ''autoencoders~~учителем), ~~AEs''~~на меньшую модель (ученика)) ~~могут быть использованы~~ для обеспечения непрерывного представления предложений, которое в свою очередь представляет собой гладкое представление, присваивающее ненулевые вероятности более чем одному словуэффективного оперирования настройками сети.

TextKD-GAN представляет из себя решение для основного узкого места использования генеративных состязательных сетей для генерации текста с <b>дистилляцией знаний~~: метод~~</b> {{---}} методом, ~~переносящий~~ переносящим знания смягченного вывода модели ~~преподавателя~~ (учителя) в меньшую модель ~~студента~~(ученика). Решение основано на AE автокодировщике (учителе), чтобы получить гладкое представление ~~реального~~ настоящего текста. Это ~~гладкое~~ представление затем подается в дискриминатор TextKD-GAN вместо обычного ~~однократного~~ one-hot представления. Генератор (студент) пытается изучить многообразие смягченного гладкого представления AEавтокодировщика. TextKD-GAN, в конечном итоге, будет превосходить обычный генератор текста на основе ~~GAN~~генеративных состязательных сетей, который не нуждается в ~~предварительной подготовке~~предварительном обучении.

<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:TextKD-GAN_Model.png|thumb|center|x400px|Рисунок 27.<ref name="TextKD-GAN"/> Модель TextKD-GAN для генерации текста.]]</div>

В общепринятом текстовом ~~подходе к~~ распознавании, реальные и сгенерированные входные данные дискриминатора будут иметь разные типы ([https://en.wikipedia.org/wiki/One-hot one-hot] и [https://en.wikipedia.org/wiki/Softmax_function softmax])~~, и он может обыкновенно отличить их друг от друга~~. Один из способов избежать этой проблемы состоит в получении непрерывно гладкого представление слов, а не one-hot представления, и обучении дискриминатора различать их. ~~Здесь~~ На рисунке 27 проиллюстрирована модель, в которой используется ~~общепринятый атокодировщик~~ стандартный автокодировщик (учитель), чтобы заменить one-hot представление выходом, перестроенным softmax-функцией, который является представлением, дающим меньшую дисперсию градиентов~~. Предложенная модель изображена на рисунке 27~~. Как видно, вместо one-hot представления реальных слов смягченный ~~реконструированный~~ преобразованный выход автокодировщика подается на вход дискриминатору. Эта техника значительно усложняет распознавание для самого дискриминатора. Генератор ~~GAN~~ с softmax выходом пытается имитировать распределение выходного сигнала автокодировщика вместо ~~общепринятого~~ обычного one-hot представления.

Обучение автокодировщика и TextKD-GAN происходит одновременно. Чтобы добиться этого, необходимо раздробить целевую функцию на три члена:

=== LayoutVAE ===

Модели, используемые для ~~генерации~~ создания макетов сцен из текстовых описаний по большей части игнорируют возможные визуальные вариации внутри структуры, описываемой самим текстом.

'''Макетный вариационный автокодировщик''' (англ. ''Layout variational autoencoder (, LayoutVAE)'') {{---}} фреймворк, базирующийся на [[Вариационный автокодировщик | вариационном автокодировщике]] для генерации стохастических макетов сцен (англ. ''stochastic scene layouts'') {{---}} ~~есть разносторонняя~~ это программная платформа моделирования, позволяющая генерировать либо полные макеты изображений с заданным набором меток, либо макеты меток для существующего изображения с новой заданной ~~новой~~ меткой. Вдобавок, она также способна обнаруживать необычные макеты, потенциально открывая пути к решению проблемы генерации макетов.

~~Будем рассматривать~~ Рассмотрим задачу генерации сцен с описанием набора меток. ~~Набор меток, представленный как более слабое описание,~~ Этот набор всего лишь предоставляет множество меток, присутствующих в данном изображении (без дополнительного описания взаимосвязи), заставляя модель изучать пространственные и подсчитываемые отношения (англ. ''spatial and count relationships'') на основе визуальных данных.

Касательно ~~описанных проблем~~ вышеописанной задачи предлагаются следующие решения:

* Модель стохастических генераций макетов сцен с заданным множеством меток, которая будет иметь две компоненты: моделирование распределений подсчитываемых отношений между объектами; моделирование распределений пространственных отношений между объектами.

* Синтетический набор данных, MNIST-макеты, отражающие стохастическую природу генерации макета сцен.

<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:LayoutVAE.png|thumb|center|x350px|Рисунок 25.<ref name="LayoutVAE"/> Архитектура LayoutVAE.]]</div>

В статье<ref name="LayoutVAE">[https://openaccess.thecvf.com/content_ICCV_2019/papers/Jyothi_LayoutVAE_Stochastic_Scene_Layout_Generation_From_a_Label_Set_ICCV_2019_paper.pdf LayoutVAE: Stochastic Scene Layout Generation From a Label Set]</ref> были предложены фреймворки и структуры моделей, взаимодействующие с LayoutVE, такие как: <b>PNP-Net</b> {{---}} фреймворк вариационного автокодировщика для ~~генерации~~ создания изображения ~~абстрактной сцены~~ из текстовой программы, которая полностью ~~описывающей~~ её описывает (помимо того, что это ~~{{---}}~~ стохастическая модель для генерации, она была протестирована на синтетических наборах данных с малым числом классов); <b>LayoutGAN</b> {{---}} модель, основанная на [[Generative Adversarial Nets (GAN) | генеративных состязательных сетях]], ~~генерирующая~~ создающая макеты графических элементов (прямоугольники, треугольники, и так далее); ~~VAE-базированный~~ фреймворк, ~~кодирующий~~ базирующийся на вариационном автокодировщике, который кодирует объект и информацию о макете 3D-сцен в помещении в скрытом коде; и так далее... Обучение генеративных моделей нужно, чтобы предсказать разнообразные, но правдоподобные наборы ограничивающих рамок, учитывая набор меток в качестве входных данных. Рамки в наборе представлены верхними левыми координатами, шириной и высотой <tex>i</tex>-й ограничивающей рамки категории <tex>k</tex>. LayoutVAE естественным образом декомпозируется на модель для предсказания количества для каждой заданной метки {{---}} <b>CountVAE</b> {{---}} и другая для предсказания местоположения и размера каждого объекта {{---}} <b>BBoxVAE</b>.

~~Имея~~ Обучение генеративных моделей необходимо, чтобы предсказать разнообразные, но правдоподобные наборы ограничивающих рамок (англ. ''bounding boxes'') <tex>b_{k, i} = [x_{k, i}, y_{k, i}, w_{k, i}, h_{k, i}]</tex>, учитывая набор меток в качестве входных данных. Рамки в наборе представлены верхними левыми координатами, шириной и высотой <tex>Li</tex> ~~и количество объектов в~~ -й ограничивающей рамки категории <tex>~~\left\{ n_m : m \in L \right\}~~k</tex>~~, BBoxVAE предсказывает распределение координат~~ . LayoutVAE декомпозируется на модель для предсказания количества для ~~ограничивающих рамок авторегрессионно. Мы следуем тому же предопределенному порядку меток, что и в~~ каждой заданной метки {{---}} <b>CountVAE~~, в пространстве меток,~~ </b> {{---}} и ~~упорядочиваем ограничивающие рамки слева направо~~ модель для ~~каждой метки;~~ предсказания местоположения и размера каждого объекта {{---}} <b>~~все ограничивающие рамки предсказываются перед переходом к следующей метке.~~BBoxVAE</b>.

Имея набор меток <tex>L</tex> и количество объектов в категории <tex>\left\{ n_m : m \in L \right\}</tex>, BBoxVAE предсказывает распределение координат для ограничивающих рамок авторегрессионно. Мы следуем тому же предопределенному порядку меток, что и в CountVAE, в пространстве меток, и упорядочиваем ограничивающие рамки слева направо для каждой метки; <b>сначала все ограничивающие рамки предсказываются для заданной метки, а уже потом происходит переход к следующей метке.</b>

<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:LayoutVAEGeneration.png|thumb|center|x350px|Рисунок 26.<ref name="LayoutVAE"/> Генерация по множеству меток <tex>\{person, sea, surfboard\}</tex>.]]</div>

=== MCA-GAN ===

Преобразование изображений перекрестным видом (англ. ''cross-view image translation'') проблематично, поскольку оно оперирует изображениями со значительно отличающимися ~~перспективами~~ ракурсами и тяжёлыми деформациями. В статье<ref name="MCA-GAN">[https://arxiv.org/pdf/1904.06807.pdf Multi-Channel Attention Selection GAN with Cascaded Semantic Guidancefor Cross-View Image Translation]</ref> о выборочной [[Generative Adversarial Nets (GAN) | генеративной состязательной сети]] с мультиканальным вниманием (англ. ''Multi-Channel Attention Selection GAN, MCA-GAN'') рассматривается подход, позволяющий делать возможным генерацию изображения, максимально приближенной к реальной, с произвольных ~~перспективах~~ракурсах, основывающийся на семантическом отображении (англ. ''semantic mapping''). Работа сети происходит в два этапа:# Изображение и целевое семантическое отображение (англ. ''target semantic map'') подаются на вход циклической семантически-управляемой ~~генерационной~~ генеративной сети (англ. ''cycled semantic-guided generation network'') для получения начальных результатов.

# Начальные результаты уточняются, используя механизм мультиканального выделения внимания (англ. ''multi-channel attention selection mechanism'').

Обширные эксперименты на наборах данных Dayton, CVUSA<ref>[http://mvrl.cs.uky.edu/datasets/cvusa/ Crossview USA (CVUSA)]</ref> и Ego2Top<ref>[https://www.crcv.ucf.edu/projects/ego2top/index.php Ego2Top: Matching Viewers in Egocentric and Top-view Videos (ECCV 2016)]</ref> показывают, что данная модель способна генерировать значительно более качественные результаты, чем другие современные методы.

<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:MCA-GAD.png|thumb|center|x300px|Рисунок 29.<ref name="MCA-GAN"/> Архитектура MCA-GAD.]]</div>

На рисунке 29 проиллюстрирована структура сети. Первый этап, как было описано выше, состоит из <b>каскадной семантически-управляемой генерацинной подсети</b>, использующая изображения с в одном представлении и условные семантические отображения в другом представлении в качестве входных данных и ~~реконструирующая~~ преобразующая эти изображения в другом представлении. Результирующие изображения далее подаются на вход семантическому генератору для восстановления исходного семантического отображения, формируя цикл генерации. Второй этап заключается в том, что грубый синтез (англ. ''coarse synthesis'') и ~~глубокие характеристики~~ отображения глубоких характеристик объединяются и ~~передаются~~ подаются на вход в <b>модуль мультиканального выделения внимания</b>, направленный на получение более детализированного синтеза (англ. ''fine-grained synthesis'') из большего пространства генерации и создание отображений неопределенности (англ. ''uncertainty maps'') для управления множественными потерями оптимизации (англ. ''optimization losses''). Модуль мультиканального выделения внимания в свою очередь состоит из многомасштабного пространственного пулинга (англ. ''multiscale spatial pooling'') и компоненты мультиканального выделения внимания (англ. ''multichannel attention selection component'').

Поскольку между ~~изначальной перспективой~~ изначальным ракурсом и ~~результирующей~~ результирующим существует объемная деформация объекта и/или сцены, одномасштабная характеристика (англ. ''single-scale feature'') вряд ли сможет захватить всю необходимую информацию о пространстве для детализированной генерации. Многомасштабный пространственный пулинг оперирует же другими значениями размера ядра и шага для выполнения глобального среднего пулинга (англ. ''global average pooling'') на одних и тех же входных характеристиках, тем самым получая многомасштабные характеристики с отличающимися рецептивными полями (англ. ''receptive fields'') для восприятия различных пространственных контекстов. Механизм мультиканального внимания позволяет осуществлять выполнение пространственного и временного отбора (англ. ''spatial and temporal selection''), чтобы синтезировать конечный детализированный результат.

<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:MCA-GAN_Module.png|thumb|center|x400px|Рисунок 30.<ref name="MCA-GAN"/> Архитектура модуля мультиканального выделения внимания (англ. ''multi-channel attention selection module'').]]</div>

Hakimov

135

правок

Изменения

Генерация изображения по тексту

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты