Изменения

Перейти к: навигация, поиск

Генерация изображения по тексту

1674 байта добавлено, 16:36, 21 января 2021
м
Change table
|+ '''Сравнение моделей'''
|-
! rowspan=2 | Модель !! colspan=2|Inception Score!! rowspan=2 | FID !! rowspan=2 | РеализацияРазрешение генерируемой картинки !! colspanrowspan=2|Inception ScoreРеализация !!rowspan=2 | Модификация (отличие от GAN)
|-
| style = "text-align: center" | [[Известные наборы данных#COCO|COCO]]
| style = "text-align: center" | [[Известные наборы данных#Caltech-UCSD Birds 200 (CUB)|Caltech-UCSD]]
|-
| style = "text-align: right" | [[#AttnGAN Attribute2Image| AttnGANAttribute2Image]] | style = "text-align: center" | <tex>14.30 \pm 0.10</tex>| style = "text-align: center" | {{---}}| style = "text-align: center" | {{---}}| style = "text-align: center" | <tex>256 \times 256</tex>| style = "text-align: center" | [https://github.com/taoxugitxcyan/AttnGAN eccv16_attr2img github/taoxugitxcyan]| Генерация изображения как смесь переднего и заднего планов на основе многоуровневой генеративной модели.|-| style = "text-align: right" | [[#GAN-INT-CLS|GAN-INT-CLS]]| style = "text-align: center" | <tex>257.89 88 \pm 0.4707</tex>| style = "text-align: center" | <tex>2.88 \pm 0.04</tex>| style = "text-align: center" | <tex>60.62</tex>| style = "text-align: center" | <tex>256 \times 256</tex>| style = "text-align: center" | [https://github.com/soumith/dcgan.torch github/soumith]| Обучение на текстовых признаках, кодируемых гибридной сверточно-рекуррентной нейронной сетью.|-| style = "text-align: right" | [[#StackGAN|StackGAN]] | style = "text-align: center" | <tex>48.36 45 \pm 0.03</tex>| Выделение слов для генерации областей картинки с помощью механизма вниманияstyle = "text-align: center" | <tex>3.70 \pm 0.04</tex>| style = "text-align: center" | <tex>74.05</tex>| style = "text-align: center" | <tex>256 \times 256</tex>| style = "text-align: center" | [https://github.com/hanzhanggit/StackGAN github/hanzhanggit]| Генерация изображения происходит в два этапа, на первом этапе создается примитивная форма изображения и задаются цвета объектов, на втором исправляются дефекты предыдущего этапа и добавляются более мелкие детали.
|-
| style = "text-align: right" | [[#MMVRFusedGAN|MMVRFusedGAN]] | style = "text-align: center" | {{---}}| style = "text-align: center" | <tex>3.00 \pm 0.03</tex>
| style = "text-align: center" | {{---}}
| style = "text-align: center" | <tex>8.30 256 \pm 0.78times 256</tex>
| style = "text-align: center" | {{---}}
| Обучение Генерация изображения в два этапа, на изменённом описании картинкипервом задаются признаки стиля, на втором генерируется изображение.
|-
| style = "text-align: right" | [[#ChatPainter|ChatPainter]]
| style = "text-align: center"| {{---}}
| style = "text-align: center" | <tex>9.74 \pm 0.02</tex>
| style = "text-align: center"| {{---}}
| style = "text-align: center" | {{---}}
| style = "text-align: center" | <tex>256 \times 256</tex>
| style = "text-align: center" | {{---}}
| В качестве дополнительных данных для обучения используется диалог описания изображения.
|-
| style = "text-align: right" | [[#StackGAN|StackGAN]]
| style = "text-align: center" | [https://github.com/hanzhanggit/StackGAN github/hanzhanggit]
| style = "text-align: center" | <tex>8.45 \pm 0.03</tex>
| style = "text-align: center" | <tex>3.70 \pm 0.04</tex>
| Генерация изображения происходит в два этапа, на первом этапе создается примитивная форма изображения и задаются цвета объектов, на втором исправляются дефекты предыдущего этапа и добавляются более мелкие детали.
|-
| style = "text-align: right" | [[#StackGAN++|StackGAN++]]
| style = "text-align: center" | [https://github.com/hanzhanggit/StackGAN-v2 github/hanzhanggit]
| style = "text-align: center" | <tex>8.30 \pm 0.10</tex>
| style = "text-align: center" | <tex>3.84 \pm 0.06</tex>
| style = "text-align: center" | <tex>81.59</tex>
| style = "text-align: center" | <tex>256 \times 256</tex>
| style = "text-align: center" | [https://github.com/hanzhanggit/StackGAN-v2 github/hanzhanggit]
| Генерация изображений разного масштаба из разных ветвей древовидной структуры, в которой несколько генераторов разделяют между собой большинство своих параметров.
|-
| style = "text-align: right" | [[#FusedGANHTIS|FusedGANHTIS]] | style = "text-align: center" | <tex>11.46 \pm 0.09</tex>
| style = "text-align: center" | {{---}}
| style = "text-align: center" | {{---}}
| style = "text-align: center" | <tex>256 \times 256</tex>
| style = "text-align: center" | {{---}}
| Генерация изображения в два этапаразбивается на несколько шагов, на первом задаются признаки стилясначала создается семантический макет из текста, на втором генерируется затем этот макет преобразовывается в изображение.
|-
| style = "text-align: right" | [[#MirrorGANAttnGAN |MirrorGANAttnGAN]] | style = "text-align: center" | [https://github<tex>25.89 \pm 0.com47</qiaott/MirrorGAN github/qiaott]tex>| style = "text-align: center" | <tex>264.47 36 \pm 0.4103</tex>| style = "text-align: center" | <tex>428.56 76</tex>| style = "text-align: center" | <tex>256 \pm 0.05times 256</tex>| Генерация изображения style = "text-align: center" | [https://github.com/taoxugit/AttnGAN github/taoxugit]| Выделение слов для генерации областей картинки с использованием идеи обучения посредством переописанияпомощью механизма внимания.
|-
| style = "text-align: right" | [[#CVAE&GAN|CVAE&GAN]]
| style = "text-align: center" | {{---}}
| style = "text-align: center" | {{---}}
| style = "text-align: center" | {{---}}
| style = "text-align: center" | <tex>256 \times 256</tex>
| style = "text-align: center" | {{---}}
| Разделение переднего и заднего плана, сначала CVAE генерирует картинку в плохом качестве, после качество повышается с помощью GAN.
|-
| style = "text-align: right" | [[#Obj-GANMMVR|Obj-GANMMVR]] | style = "text-align: center" | [https://github.com/jamesli1618/Obj-GAN github/jamesli1618]| style = "text-align: center" | <tex>318.01 30 \pm 0.2778</tex>
| style = "text-align: center" | {{---}}
| Основной принцип генерации изображений заключается в распознавании и создании отдельных объектов из заданного текстового описания.
|-
| style = "text-align: right" | [[#HTIS|HTIS]]
| style = "text-align: center" | {{---}}
| style = "text-align: center" | <tex>11.46 256 \pm 0.09times 256</tex>
| style = "text-align: center" | {{---}}
| Генерация изображения разбивается Обучение на несколько шагов, сначала создается семантический макет из текста, затем этот макет преобразовывается в изображениеизменённом описании картинки.
|-
| style = "text-align: right" | [[#Attribute2ImageMirrorGAN|Attribute2ImageMirrorGAN]] | style = "text-align: center" | [https://github<tex>26.47 \pm 0.com41</xcyan/eccv16_attr2img github/xcyan]tex>| style = "text-align: center" | <tex>144.30 56 \pm 0.1005</tex>
| style = "text-align: center" | {{---}}
| style = "text-align: center" | <tex>256 \times 256</tex>| style = "text-align: center" | [https://github.com/qiaott/MirrorGAN github/qiaott]| Генерация изображения как смесь переднего и заднего планов на основе многоуровневой генеративной моделис использованием идеи обучения посредством переописания.
|-
| style = "text-align: right" | [[#TextKD-GAN|TextKD-INTGAN]] | style = "text-CLSalign: center" |GAN{{--INT-CLS]] }}| style = "text-align: center" | [https://github.com/soumith/dcgan.torch github/soumith]{{---}}
| style = "text-align: center" | {{---}}
| style = "text-align: center" | text
| style = "text-align: center" | ???
| Генерация текста с использованием дистилляции знаний (перенос знаний, усвоенных большой моделью (учителем), на меньшую модель (ученика)).
|-
| style = "text-align: right" | [[#Obj-GAN|Obj-GAN]]
| style = "text-align: center" | <tex>31.01 \pm 0.27</tex>
| style = "text-align: center" | {{---}}
| Обучение на текстовых признаках, кодируемых гибридной сверточноstyle = "text-рекуррентной нейронной сетьюalign: center" | <tex>17.03</tex>| style = "text-align: center" | <tex>256 \times 256</tex>| style = "text-align: center" | [https://github.com/jamesli1618/Obj-GAN github/jamesli1618]| Основной принцип генерации изображений заключается в распознавании и создании отдельных объектов из заданного текстового описания.
|-
| style = "text-align: right" | [[#LayoutVAE|LayoutVAE]]
| style = "text-align: center" | ???
| style = "text-align: center" | {{---}}
| style = "text-align: center" | {{---}}
| style = "text-align: center" | {{---}}
| style = "text-align: center" | <tex>256 \times 256</tex>
| style = "text-align: center" | ???
| Генерация стохастических макетов сцен (англ. ''stochastic scene layouts'') из заданного набора слов.
|-
| style = "text-align: right" | [[#TextKDMCA-GAN|TextKDMCA-GAN]] | style = "text-align: center" | ???{{---}}
| style = "text-align: center" | {{---}}
| style = "text-align: center" | {{---}}
| Генерация текста с использованием дистилляции знаний (перенос знаний, усвоенных большой моделью (учителем), на меньшую модель (ученика)).|-| style = "text-align: rightcenter" | [[#MCA-GAN|MCA-GAN]] <tex>256 \times 256</tex>
| style = "text-align: center" | ???
| style = "text-align: center" | {{---}}
| style = "text-align: center" | {{---}}
| Генерацию изображения с произвольных перспективах, основывающаяся на семантическом отображении (англ. ''semantic mapping'').
|}
89
правок

Навигация