Изменения

Перейти к: навигация, поиск

Генерация изображения по тексту

71 байт убрано, 16:49, 12 января 2021
Replace "прямоугольник" with "рамка"
=== HTIS ===
В данном разделе предлагается новый иерархический подход (''Hierarchical Text-to-Image Synthesis, HTIS'') к синтезу текста в изображение путем определения семантического макета. Вместо того, чтобы изучать прямое отображение текста в изображение, алгоритм разбивает процесс генерации на несколько шагов, на которых он сначала создает семантический макет из текста с помощью генератора макета и преобразует макет в изображение с помощью генератора изображений. Предлагаемый генератор компоновки постепенно создает семантическую компоновку от грубого к точному, генерируя '''ограничивающие прямоугольники рамки''' (англ. ''bounding box'') объекта и уточняя каждый прямоугольниккаждую рамку, оценивая формы объектов внутри негонее. Генератор изображений синтезирует изображение, обусловленное предполагаемым семантическим макетом, что обеспечивает полезную семантическую структуру изображения, совпадающего с текстовым описанием.
Модель не только генерирует семантически более значимые изображения, но также позволяет автоматически аннотировать генерируемые изображения. Созданные изображения и процесс генерации под управлением пользователя путем изменения сгенерированного макета сцены.
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:Semantic-1.png|thumb|alt=Архитектура|x350px|center|Архитектура]]</div>
* '''Box Generator''' принимает в качестве входных данных вложения текста и генерирует грубую компоновку, композируя экземпляры объектов в изображении. Выходные данные генератора представляют собой набор ограничивающих прямоугольников рамок <tex>B_1: T = \{B_1, ..., B_T\}</tex>, где каждый ограничивающий прямоугольник каждая ограничивающая рамка <tex>B_t</tex> определяет местоположение, размер и метку категории <tex>t</tex>-го объекта.* '''Shape Generator''' берет набор ограничивающих прямоугольниковрамок, созданных на предыдущем шаге, и предсказывает формы объектов внутри прямоугольниковрамок. Результатом является набор двоичных масок <tex>M_1: T = \{M_1, ..., M_T\}</tex>, где каждая маска <tex>M_t</tex> определяет форму переднего плана <tex>t</tex>-го объекта.
* '''Image Generator''' принимает карту семантических меток <tex>M</tex>, полученную путем агрегирования масок по экземплярам, и текстовое описание в качестве входных данных, и генерирует изображение, переводя семантический макет в пиксели, соответствующие текстовому описанию.
Последние разработки исследователей в области автоматического создания изображений по текстовому описанию, основаны на [[Generative Adversarial Nets (GAN)|генеративных состязательных сетях (GANs)]].Общепринятый подход заключается в кодировании всего текстового описания в глобальное векторное пространство предложений (англ. ''global sentence vector''). Такой подход демонстрирует ряд впечатляющих результатов, но у него есть главные недостатки: отсутствие чёткой детализации на уровне слов и невозможность генерации изображений высокого разрешения. Эта проблема становится еще более серьезной при генерации сложных кадров, таких как в наборе данных COCO<ref name="COCO">[https://cocodataset.org COCO dataset (Common Objects in Context)]</ref>.
В качестве решения данной проблемы была предложена<ref>[https://openaccess.thecvf.com/content_cvpr_2018/papers/Xu_AttnGAN_Fine-Grained_Text_CVPR_2018_paper.pdf Tao X., Pengchuan Z. {{---}} AttnGAN: Fine-Grained Text to Image Generationwith Attentional Generative Adversarial Networks, 2018] </ref> новая '''[[Generative Adversarial Nets (GAN)|генеративно-состязательная нейросеть]] с вниманием ''' (англ. ''Attentional Generative Adversarial Network, AttnGAN''), которая относится к вниманию как к фактору обучения, что позволяет выделять слова для генерации фрагментов изображения.
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:AttnGanNetwork.png|thumb|alt=Архитектура AttnGAN|x350px|center|Архитектура AttnGAN]]</div>
135
правок

Навигация