Изменения

Генерация изображения по тексту

332 байта добавлено, 20:24, 8 января 2021

Fix ChatPainter

*Attentional Generative Network {{---}} самая большая сеть, состоящая из трех уровней. Каждый уровень порождает изображения все большего разрешения, от 64x64 до 256x256 пикселей, и результат работы на каждом уровне корректируется с помощью сетей внимания <math>F^{attn}</math>, которые несут в себе информацию о правильном расположении отдельных объектов сцены. Кроме того, результаты на каждом уровне проверяются тремя отдельно работающими дискриминаторами, которые оценивают реалистичность изображения и соответствие его общему представлению о сцене.

Благодаря модификациям нейросеть AttnGAN показывает значительно лучшие результаты, чем традиционные системы GAN. В частности, максимальный из известных показателей inception score<ref>[https://arxiv.org/abs/1801.01973 A Note on the Inception Score]</ref> для существующих нейросетей улучшен на 14,14% (с 3,82 до 4,36) на наборе данных CUB и улучшен на целых 170,25% (с 9,58 до 25,89)<ref>[https://paperswithcode.com/sota/text-to-image-generation-on-coco Test results {{---}} Text-to-Image Generation on COCO]</ref> на более сложном наборе данных COCO~~<ref>[https://cocodataset.org COCO dataset (Common Objects in Context)]</ref>~~.

Данная архитектура (см. рис) опирается на модель StackGAN. StackGAN генерирует изображение в два этапа: Stage-I генерирует грубое изображение 64×64, а Stage-II генерирует улучшенное изображение 256×256.

Формирование вектора описаний <tex>\phi_{t}</tex> происходит путем кодирования подписей с помощью предварительно обученного энкодера<ref>[https://github.com/reedscot/icml2016 ~~pre~~Pre-trained encoder for ICML 2016 paper]</ref>. Для генерации диалоговых вложений <tex>\zeta_{d}</tex> используется два метода:

*Не рекурсивный энкодер {{---}} сжимает весь диалог в одну строку и кодирует его с помощью предварительно обученного энкодера Skip-Thought<ref>[https://github.com/ryankiros/skip-thoughts Skip-Thought encoder]</ref>.

Архитектура блоков upsample, downsample и residual blocks сохраняется такой же, как и у исходного StackGAN

Результаты тестирования и сравнение модели ChatPainter с другими приведены в таблице. Из неё видно, что модель ChatPainter, которая получает дополнительную диалоговую информацию, имеет более высокий Inception Score, в отличии от модели StackGAN. Кроме того, рекурсивнаяверсия ChatPainter получилась лучше, чем не рекурсивная версия. Вероятно, это связано с тем, что в не рекурсивной версии энкодер не обучается на длинных предложениях сворачивая весь диалог в одну строку. {| class="~~wide" style="margin:auto; clear:both;~~wikitable"

|+ '''Inception scores для сгенерированных изображений в тестовом наборе MS COCO'''

|-

! Модель !! Inception Score

|-

| style = "text-align: right" | StackGAN || style = "text-align: center" | <tex>8.45 ± \pm 0.03</tex>

|-

| style = "text-align: right" | ChatPainter (non-recurrent)|| style = "text-align: center" | <tex>9.43 ± \pm 0.04 </tex>

|-

| style = "text-align: right" | ChatPainter (recurrent)|| style = "text-align: center" | <tex>9.74 ± \pm 0.02</tex>

|-

| style = "text-align: right" | AttnGAN || style = "text-align: center" | <tex>25.89 ± \pm 0.47</tex>

|}

~~{| class="mw-datatable"~~

~~|+ Таблица <code>mw-datatable</code>~~

~~!  !! Заголовок столбца 1 !! Заголовок столбца 2~~

|-

~~| Заголовок строки 1 || Содержимое ячейки 1-1 || Содержимое ячейки 1-2~~

|-

~~| Заголовок строки 2 || Содержимое ячейки 2-1 || Содержимое ячейки 2-2~~

|}

=== MMVR ===

Geny200

89

правок

Изменения

Генерация изображения по тексту

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты