Изменения

Перейти к: навигация, поиск

Генерация изображения по тексту

4039 байт добавлено, 21:06, 20 января 2021
Обзор генеративных моделей (добавлена сводная таблица)
Сообщество глубокого обучения быстро совершенствует генеративные модели. Среди них можно выделить три перспективных типа: [[PixelRNN и PixelCNN|авторегрессионные модели]] (англ. ''Autoregressive model, AR-model''), [[Вариационный автокодировщик|вариационные автокодировщики]] (англ. ''Variational Autoencoder, VAE'') и [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].
На данный момент самые качественные изображения генерируют сети GAN (фотореалистичные и разнообразные, с убедительными деталями в высоком разрешении). Поэтому в данной статье мы сосредоточимся на моделях GAN.
 
{| class="wikitable"
|+ '''Сравнение моделей'''
|-
! rowspan=2 | Модель !! rowspan=2 | Реализация!! colspan=2|Inception Score!!rowspan=2 | Модификация (отличие от GAN)
|-
| style = "text-align: center" | [[Известные наборы данных#COCO|COCO]]
| style = "text-align: center" | [[Известные наборы данных#Caltech-UCSD Birds 200 (CUB)|Caltech-UCSD]]
|-
| style = "text-align: right" | [[#AttnGAN | AttnGAN]]
| style = "text-align: center" | [https://github.com/taoxugit/AttnGAN github/taoxugit]
| style = "text-align: center" | <tex>25.89 \pm 0.47</tex>
| style = "text-align: center" | <tex>4.36 \pm 0.03</tex>
| Выделение слов для генерации областей картинки, с помощью механизма внимания.
|-
| style = "text-align: right" | [[#MMVR|MMVR]]
| style = "text-align: center" | {{---}}
| style = "text-align: center" | <tex>8.30 \pm 0.78</tex>
| style = "text-align: center" | {{---}}
| Обучение на изменённом описании картинки.
|-
| style = "text-align: right" | [[#ChatPainter|ChatPainter]]
| style = "text-align: center"| {{---}}
| style = "text-align: center" | <tex>9.74 \pm 0.02</tex>
| style = "text-align: center"| {{---}}
| В качестве дополнительных данных для обучения используется диалог описания изображения.
|-
| style = "text-align: right" | [[#StackGAN|StackGAN]]
| style = "text-align: center" | [https://github.com/hanzhanggit/StackGAN github/hanzhanggit]
| style = "text-align: center" | <tex>8.45 \pm 0.03</tex>
| style = "text-align: center" | <tex>3.70 \pm 0.04</tex>
| TODO
|-
| style = "text-align: right" | [[#StackGAN++|StackGAN++]]
| style = "text-align: center" | [https://github.com/hanzhanggit/StackGAN-v2 github/hanzhanggit]
| style = "text-align: center" | <tex>8.30 \pm 0.10</tex>
| style = "text-align: center" | <tex>3.84 \pm 0.06</tex>
| TODO
|-
| style = "text-align: right" | [[#FusedGAN|FusedGAN]]
| style = "text-align: center" | {{---}}
| style = "text-align: center" | {{---}}
| style = "text-align: center" | {{---}}
| Генерация изображения в два этапа, на первом задаются признаки стиля, на втором генерируется изображение.
|-
| style = "text-align: right" | [[#MirrorGAN|MirrorGAN]]
| style = "text-align: center" | [https://github.com/qiaott/MirrorGAN github/qiaott]
| style = "text-align: center" | <tex>26.47 \pm 0.41</tex>
| style = "text-align: center" | <tex>4.56 \pm 0.05</tex>
| TODO
|-
| style = "text-align: right" | [[#CVAE&GAN|CVAE&GAN]]
| style = "text-align: center" | {{---}}
| style = "text-align: center" | {{---}}
| style = "text-align: center" | {{---}}
| Разделение переднего и заднего плана, сначала CVAE генерирует картинку в плохом качестве, после качество повышается с помощью GAN
|-
| style = "text-align: right" | [[#Obj-GAN|Obj-GAN]]
| style = "text-align: center" | [https://github.com/jamesli1618/Obj-GAN github/jamesli1618]
| style = "text-align: center" | <tex>31.01 \pm 0.27</tex>
| style = "text-align: center" | {{---}}
| TODO
|-
| style = "text-align: right" | [[#HTIS|HTIS]]
| style = "text-align: center" | {{---}}
| style = "text-align: center" | <tex>11.46 \pm 0.09</tex>
| style = "text-align: center" | {{---}}
| TODO
|-
| style = "text-align: right" | [[#Attribute2Image|Attribute2Image]]
| style = "text-align: center" | {{---}}
| style = "text-align: center" | <tex>14.30 \pm 0.10</tex>
| style = "text-align: center" | {{---}}
| TODO
|-
| style = "text-align: right" | [[#DCGAN|DCGAN]]
| style = "text-align: center" | [https://github.com/soumith/dcgan.torch github/soumith]
| style = "text-align: center" | {{---}}
| style = "text-align: center" | {{---}}
| TODO
|}
 
=== DCGAN ===
89
правок

Навигация