Изменения

Перейти к: навигация, поиск

Генерация изображения по тексту

332 байта добавлено, 20:24, 8 января 2021
Fix ChatPainter
*Attentional Generative Network {{---}} самая большая сеть, состоящая из трех уровней. Каждый уровень порождает изображения все большего разрешения, от 64x64 до 256x256 пикселей, и результат работы на каждом уровне корректируется с помощью сетей внимания <math>F^{attn}</math>, которые несут в себе информацию о правильном расположении отдельных объектов сцены. Кроме того, результаты на каждом уровне проверяются тремя отдельно работающими дискриминаторами, которые оценивают реалистичность изображения и соответствие его общему представлению о сцене.
Благодаря модификациям нейросеть AttnGAN показывает значительно лучшие результаты, чем традиционные системы GAN. В частности, максимальный из известных показателей inception score<ref>[https://arxiv.org/abs/1801.01973 A Note on the Inception Score]</ref> для существующих нейросетей улучшен на 14,14% (с 3,82 до 4,36) на наборе данных CUB и улучшен на целых 170,25% (с 9,58 до 25,89)<ref>[https://paperswithcode.com/sota/text-to-image-generation-on-coco Test results {{---}} Text-to-Image Generation on COCO]</ref> на более сложном наборе данных COCO<ref>[https://cocodataset.org COCO dataset (Common Objects in Context)]</ref>.
<gallery mode="slideshow" caption="Пример результата работы AttnGAN">
Данная архитектура (см. рис) опирается на модель StackGAN. StackGAN генерирует изображение в два этапа: Stage-I генерирует грубое изображение 64×64, а Stage-II генерирует улучшенное изображение 256×256.
Формирование вектора описаний <tex>\phi_{t}</tex> происходит путем кодирования подписей с помощью предварительно обученного энкодера<ref>[https://github.com/reedscot/icml2016 prePre-trained encoder for ICML 2016 paper]</ref>. Для генерации диалоговых вложений <tex>\zeta_{d}</tex> используется два метода:
*Не рекурсивный энкодер {{---}} сжимает весь диалог в одну строку и кодирует его с помощью предварительно обученного энкодера Skip-Thought<ref>[https://github.com/ryankiros/skip-thoughts Skip-Thought encoder]</ref>.
Архитектура блоков upsample, downsample и residual blocks сохраняется такой же, как и у исходного StackGAN
Результаты тестирования и сравнение модели ChatPainter с другими приведены в таблице. Из неё видно, что модель ChatPainter, которая получает дополнительную диалоговую информацию, имеет более высокий Inception Score, в отличии от модели StackGAN. Кроме того, рекурсивнаяверсия ChatPainter получилась лучше, чем не рекурсивная версия. Вероятно, это связано с тем, что в не рекурсивной версии энкодер не обучается на длинных предложениях сворачивая весь диалог в одну строку. {| class="wide" style="margin:auto; clear:both;wikitable"
|+ '''Inception scores для сгенерированных изображений в тестовом наборе MS COCO'''
|-
! Модель !! Inception Score
|-
| style = "text-align: right" | StackGAN || style = "text-align: center" | <tex>8.45 ± \pm 0.03</tex>
|-
| style = "text-align: right" | ChatPainter (non-recurrent)|| style = "text-align: center" | <tex>9.43 ± \pm 0.04 </tex>
|-
| style = "text-align: right" | ChatPainter (recurrent)|| style = "text-align: center" | <tex>9.74 ± \pm 0.02</tex>
|-
| style = "text-align: right" | AttnGAN || style = "text-align: center" | <tex>25.89 ± \pm 0.47</tex>
|}
{| class="mw-datatable"
|+ Таблица <code>mw-datatable</code>
! <!-- Пустая ячейка --> !! Заголовок столбца 1 !! Заголовок столбца 2
|-
| Заголовок строки 1 || Содержимое ячейки 1-1 || Содержимое ячейки 1-2
|-
| Заголовок строки 2 || Содержимое ячейки 2-1 || Содержимое ячейки 2-2
|}
 
=== MMVR ===
89
правок

Навигация