Изменения

Перейти к: навигация, поиск

Генерация изображения по тексту

353 байта добавлено, 21:09, 19 января 2021
м
StackGAN
=== StackGAN ===
'''Составные генеративные состязательные сети''' (англ. ''Stacked Generative Adversarial Networks, StackGAN''<ref name="StackGAN>[https://arxiv.org/abs/1612.03242 Han Z., Tao X. {{---}} Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks, 2017]</ref>) служат для генерации фотореалистичных изображений размера 256x256, заданных текстовыми описаниями. В данной модели трудная задача генерации изображения разлагается на более мелкие подзадачи с помощью процесса эскиз-уточнения (англ. ''sketch-refinement process''). Таким образом, Stage-I GAN рисует примитивную форму и цвета объекта на основе данного текстового описания, получая изображения Stage-I с низким разрешением (рис. 5). Stage-II GAN принимает результаты Stage-I и текстовые описания в качестве входных данных и генерирует изображения высокого разрешения с фотореалистичными деталями. Он способен исправлять дефекты в результатах этапа I и добавлять более мелкие детали в процессе уточнения (англ. ''refinement process''). Чтобы улучшить разнообразие синтезированных изображений и стабилизировать обучение CGAN<ref name="CGAN">[https://arxiv.org/abs/1411.1784 Mirza M. and Osindero S. {{---}} Conditional [Generative Adversarial Nets (GAN)#CGAN(Conditional Generative Adversarial Nets) 2014|CGAN]]</ref>, вводится техника условно-когнитивной регуляции (англ. ''Conditioning Augmentation''), которая способствует плавности в обусловливающем многообразии.
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:StackGAN-1.png|thumb|alt=Архитектура StackGAN|x350px|center|Рисунок 5.<ref name="StackGAN/> Архитектура StackGAN.]]</div>
Вклад предлагаемого метода состоит в следующем:
* Предлагается новая составная генеративная состязательная сеть для синтеза фотореалистичных изображений из текстовых описаний. Он разбивает сложную задачу генерации изображений с высоким разрешением на более мелкие подзадачи и значительно улучшает состояние дел. StackGAN впервые генерирует изображения с разрешением 256х256 пикселей с фотореалистичными деталями из текстовых описаний.
* Предлагается техника Condition Augmentation для стабилизации обучения [[Generative Adversarial Nets (GAN)#CGAN<ref name="(Conditional Generative Adversarial Nets)|CGAN"/>]], а также для улучшения разнообразия генерируемых выборок.
* Обширные качественные и количественные эксперименты демонстрируют эффективность дизайна модели в целом, а также влияние отдельных компонентов, которые предоставляют полезную информацию для разработки будущих условных моделей GAN.
{| class="wikitable"
|+ '''Inception scores для сгенерированных изображений в тестовых наборах [[Известные наборы данных#Caltech-UCSD<ref name="caltech"/>Birds 200 (CUB)|Caltech-UCSD]], [[Известные наборы данных#102 Category Flower|Oxford-102<ref name="oxford"/> ]] и [[Известные наборы данных#COCO<ref name="|COCO" />]]'''
|-
! Набор данных !! Inception Score
|-
| style = "text-align: right" | [[Известные наборы данных#Caltech-UCSD Birds 200 (CUB)|Caltech-UCSD]] || style = "text-align: center" | <tex>3.70 \pm 0.04</tex>
|-
| style = "text-align: right" | [[Известные наборы данных#102 Category Flower| Oxford-102 ]] || style = "text-align: center" | <tex>3.20 \pm 0.01</tex>
|-
| style = "text-align: right" | [[Известные наборы данных#COCO |COCO]]|| style = "text-align: center" | <tex>8.45 \pm 0.03</tex>
|}
Файл:StackGAN-3.png|Сравнение StackGAN<ref name="StackGAN/>.|alt=Сгенерированные изображения цветов
</gallery>
 
=== StackGAN++ ===
Хотя генерирующие состязательные сети (GAN) показали замечательный успех в различных задачах, они все еще сталкиваются с проблемами при создании изображений высокого качества. Поэтому в данном разделе, во-первых, предлагается двухэтапная генеративная состязательная сетевая архитектура StackGAN-v1<ref name="StackGAN++">[https://arxiv.org/abs/1710.10916 Han Z., Tao X. {{---}} Realistic Image Synthesis with Stacked Generative Adversarial Networks, 2018]</ref> для синтеза текста в изображение. Stage-I по-прежнему рисует примитивную форму и цвета сцены на основе заданного текстового описания, что дает изображения с низким разрешением. Stage-II все также принимает результаты этапа I и текстовое описание в качестве входных данных и генерирует изображения высокого разрешения с фотореалистичными деталями. Во-вторых, усовершенствованная многоэтапная генеративно-состязательная сетевая архитектура StackGAN-v2 предлагается как для условных, так и для безусловных генеративных задач. StackGAN-v2 состоит из нескольких генераторов и нескольких дискриминаторов, организованных в древовидную структуру (рис. 7); изображения в нескольких масштабах, соответствующие одной и той же сцене, генерируются из разных ветвей дерева. StackGAN-v2 демонстрирует более стабильное поведение при обучении, чем StackGAN-v1, за счет совместной аппроксимации нескольких распределений.
89
правок

Навигация