Изменения

Перейти к: навигация, поиск

Генерация изображения по тексту

512 байт добавлено, 14:55, 21 января 2021
м
Обзор генеративных моделей (rename DCGAN)
| style = "text-align: center" | <tex>25.89 \pm 0.47</tex>
| style = "text-align: center" | <tex>4.36 \pm 0.03</tex>
| Выделение слов для генерации областей картинки, с помощью механизма внимания.
|-
| style = "text-align: right" | [[#MMVR|MMVR]]
| TODO
|-
| style = "text-align: right" | [[#DCGANGAN-INT-CLS|DCGANGAN-INT-CLS]]
| style = "text-align: center" | [https://github.com/soumith/dcgan.torch github/soumith]
| style = "text-align: center" | {{---}}
| style = "text-align: center" | {{---}}
| TODO
|-
| style = "text-align: right" | [[#LayoutVAE|LayoutVAE]]
| style = "text-align: center" | ???
| style = "text-align: center" | {{---}}
| style = "text-align: center" | {{---}}
| TODO
|-
| style = "text-align: right" | [[#TextKD-GAN|TextKD-GAN]]
| style = "text-align: center" | ???
| style = "text-align: center" | {{---}}
| style = "text-align: center" | {{---}}
| TODO
|-
| style = "text-align: right" | [[#MCA-GAN|MCA-GAN]]
| style = "text-align: center" | ???
| style = "text-align: center" | {{---}}
| style = "text-align: center" | {{---}}
=== DCGAN GAN-INT-CLS ===
'''Глубокая сверточная генеративная состязательная сеть''' (англ. ''Deep Convolutional Generative Adversarial Network, DCGAN'') {{---}} обусловлена текстовыми признаками, кодируемыми гибридной сверточно-рекуррентной
нейронной сетью на уровне символов. DCGAN имеет эффективную архитектуру (рис. 1) и обучающую структуру, которая позволяет синтезировать изображения птиц и цветов из текстовых описаний.
заданному описанию или нет. Модель должна неявно разделять два источника ошибок: нереалистичные образы (для любого текста) и реалистичные образы неправильного класса, которые не соответствуют текстовым признакам. Алгоритм обучения GAN был модифицирован таким образом, чтобы разделять эти источники ошибок. В дополнение к реальным/поддельным входным данным в дискриминатор во время обучения был добавлен третий тип входных данных, состоящий из реальных изображений с несовпадающим текстовым описанием, на которых дискриминатор должен обучиться оценивать поддельные изображения.
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:DCGAN-2.png|thumb|alt=Рисунок 2. Пример результата работы DCGANGAN-CLS, GAN-INT и GAN-INT-CLS.|x350px|center|Рисунок 2.<ref name="PyTorchDCGAN">[https://pytorch.org/tutorials/_images/sphx_glr_dcgan_faces_tutorial_004.png Nathan I. {{---}} DCGAN TUTORIAL]</ref> Пример результата работы DCGANGAN-CLS, GAN-INT и GAN-INT-CLS.]]</div>
=== Attribute2Image ===
|}
Для проверки метода были проведены обширные количественные и качественные оценки. Результаты работы модели сравниваются с двумя современными методами синтеза текста в изображение {{---}} [[#GAN-INT-CLS<ref name="scott">[http://proceedings.mlr.press/v48/reed16.pdf Scott R. {{|GAN-INT--}} Generative Adversarial Text to Image SynthesisCLS]]</ref> и [[#GAN-INT-CLS|GAWWN<ref name="scott"/> ]] (рис. 6).
<gallery mode="slideshow" caption="Рисунок 6. Пример результата работы StackGAN.">
Полученные результаты проверки (рис.14) на 2 наборах данных ([[Известные наборы данных#Caltech-UCSD Birds 200 (CUB)|Caltech-UCSD]] и [[Известные наборы данных#102 Category Flower|Oxford-102]]) эмпирически подтверждают эффективность предложенного метода.
<gallery mode="slideshow" caption="Рисунок 14. Сравнение CVAE&GAN, StackGan и GAN-INT-CLS.">
Файл:CVAE&GAN_example_flowers.png|Сравнение CVAE&GAN, [[#StackGAN|StackGAN]] и [[#GAN-INT-CLS|GAN-INT-CLS<ref name="scott"/>]].<ref name="CVAE&GAN"/>|alt=Пример результата работы CVAE&GAN (flowers)Файл:CVAE&GAN_example_bird.png|Сверху вниз начиная со второй строки: CVAE&GAN, [[#StackGAN|StackGAN]] и [[#GAN-INT-CLS|GAN-INT-CLS<ref name="scott"/>]]. <ref name="CVAE&GAN"/>|alt=Пример результата работы CVAE&GAN (birds)
</gallery>
! Модель !! Inception Score
|-
| style = "text-align: right" | [[#GAN-INT-CLS <ref name="scott"/> |GAN-INT-CLS]] || style = "text-align: center" | <tex>2.88 \pm 0.04</tex>
|-
| style = "text-align: right" | [[#StackGAN++|StackGAN-I]] || style = "text-align: center" | <tex>2.95 \pm 0.02</tex>
! Модель !! Inception Score ([[Известные наборы данных#Caltech-UCSD Birds 200 (CUB)|Caltech-UCSD]]) !! Inception Score ([[Известные наборы данных#COCO|COCO]])
|-
| style = "text-align: right" | [[#GAN-INT-CLS|GAN-INT-CLS]] GAN-INT-CLS <ref name="scott"/> || style = "text-align: center" | <tex>2.88 \pm 0.04</tex> || style = "text-align: center" | <tex>7.88 \pm 0.07</tex>
|-
| style = "text-align: right" | [[#GAN-INT-CLS| GAWWN <ref name="scott"/> ]] || style = "text-align: center" | <tex>3.70 \pm 0.04</tex> || style = "text-align: center" | <tex>-</tex>
|-
| style = "text-align: right" | [[#StackGAN | StackGAN]] || style = "text-align: center" | <tex>3.62 \pm 0.07</tex> || style = "text-align: center" | <tex>8.45 \pm 0.03</tex>
89
правок

Навигация