Изменения

Перейти к: навигация, поиск

Генерация изображения по тексту

41 байт добавлено, 01:36, 20 января 2021
м
MirrorGAN: Implemented the proposition #53
=== MirrorGAN ===
 
{| class="wikitable" style="float:right; margin-left: 10px;"
|+ '''Inception scores для сгенерированных изображений в тестовых наборах [[Известные наборы данных#Caltech-UCSD Birds 200 (CUB)|Caltech-UCSD]] и [[Известные наборы данных#COCO|COCO]]'''
|-
! Модель !! Inception Score ([[Известные наборы данных#Caltech-UCSD Birds 200 (CUB)|Caltech-UCSD]]) !! Inception Score ([[Известные наборы данных#COCO|COCO]])
|-
| style = "text-align: right" | GAN-INT-CLS <ref name="scott"/> || style = "text-align: center" | <tex>2.88 \pm 0.04</tex> || style = "text-align: center" | <tex>7.88 \pm 0.07</tex>
|-
| style = "text-align: right" | GAWWN <ref name="scott"/> || style = "text-align: center" | <tex>3.70 \pm 0.04</tex> || style = "text-align: center" | <tex>-</tex>
|-
| style = "text-align: right" | [[#StackGAN | StackGAN]] || style = "text-align: center" | <tex>3.62 \pm 0.07</tex> || style = "text-align: center" | <tex>8.45 \pm 0.03</tex>
|-
| style = "text-align: right" | [[#StackGAN++ | StackGAN++]] || style = "text-align: center" | <tex>3.82 \pm 0.06</tex> || style = "text-align: center" | <tex>-</tex>
|-
| style = "text-align: right" | PPGN<ref name="PPGN"/> || style = "text-align: center" | <tex>-</tex> || style = "text-align: center" | <tex>9.58 \pm 0.21</tex>
|-
| style = "text-align: right" | [[#AttnGAN | AttnGAN]] || style = "text-align: center" | <tex>4.36 \pm 0.03</tex> || style = "text-align: center" | <tex>25.89 \pm 0.47</tex>
|-
| style = "text-align: right" | MirrorGAN || style = "text-align: center" | <tex>4.56 \pm 0.05</tex> || style = "text-align: center" | <tex>26.47 \pm 0.41</tex>
|}
 
Генерация изображения из заданного текстового описания преследует две главные цели: реалистичность и семантическое постоянство. Несмотря на то, что существует значительный прогресс в создании визуально реалистичных изображений высокого качества посредством [[Generative Adversarial Nets (GAN) | генеративных состязательных сетей]], обеспечение вышепоставленных целей все еще является довольно сложной задачей. Для осуществления попытки их реализации рассмотрим text-to-image-to-text фреймворк с вниманием, сохраняющий семантику, под названием <b>MirrorGAN</b><ref name="MirrorGAN">[https://arxiv.org/abs/1903.05854 Tingting Q., Jing Z. {{---}} MirrorGAN: Learning Text-to-image Generation by Redescription, 2019]</ref>. Данный фреймворк, который из текстового описания генерирует изображение, использует идею обучения с помощью переописания (англ. ''redescription'') и состоит из трёх модулей:
* Модуль встраивания семантического текста (англ. ''semantic text embedding module, <b>STEM</b>'').
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:MirrorGAN&Co.jpg|thumb|center|x500px|Рисунок 22.<ref name="MirrorGAN"/> Сравнение MirrorGAN, [[#AttnGAN|AttnGAN]] и других генеративных состязательных сетей.]]</div>
 
{| class="wikitable"
|+ '''Inception scores для сгенерированных изображений в тестовых наборах [[Известные наборы данных#Caltech-UCSD Birds 200 (CUB)|Caltech-UCSD]] и [[Известные наборы данных#COCO|COCO]]'''
|-
! Модель !! Inception Score ([[Известные наборы данных#Caltech-UCSD Birds 200 (CUB)|Caltech-UCSD]]) !! Inception Score ([[Известные наборы данных#COCO|COCO]])
|-
| style = "text-align: right" | GAN-INT-CLS <ref name="scott"/> || style = "text-align: center" | <tex>2.88 \pm 0.04</tex> || style = "text-align: center" | <tex>7.88 \pm 0.07</tex>
|-
| style = "text-align: right" | GAWWN <ref name="scott"/> || style = "text-align: center" | <tex>3.70 \pm 0.04</tex> || style = "text-align: center" | <tex>-</tex>
|-
| style = "text-align: right" | [[#StackGAN | StackGAN]] || style = "text-align: center" | <tex>3.62 \pm 0.07</tex> || style = "text-align: center" | <tex>8.45 \pm 0.03</tex>
|-
| style = "text-align: right" | [[#StackGAN++ | StackGAN++]] || style = "text-align: center" | <tex>3.82 \pm 0.06</tex> || style = "text-align: center" | <tex>-</tex>
|-
| style = "text-align: right" | PPGN<ref name="PPGN"/> || style = "text-align: center" | <tex>-</tex> || style = "text-align: center" | <tex>9.58 \pm 0.21</tex>
|-
| style = "text-align: right" | [[#AttnGAN | AttnGAN]] || style = "text-align: center" | <tex>4.36 \pm 0.03</tex> || style = "text-align: center" | <tex>25.89 \pm 0.47</tex>
|-
| style = "text-align: right" | MirrorGAN || style = "text-align: center" | <tex>4.56 \pm 0.05</tex> || style = "text-align: center" | <tex>26.47 \pm 0.41</tex>
|}
=== Obj-GAN ===
81
правка

Навигация