Изменения

Перейти к: навигация, поиск

Генерация изображения по тексту

93 байта добавлено, 16:53, 14 января 2021
Add image refs to HTIS
=== HTIS ===
В данном разделе предлагается новый '''иерархический подход к синтезу текста''' (''Hierarchical Text-to-Image Synthesis, HTIS''<ref name="HTIS">[https://arxiv.org/abs/1801.05091 Seunghoon H., Dingdong Y. {{---}} Inferring Semantic Layout for Hierarchical Text-to-Image Synthesis, 2018]</ref>) в изображение путем определения семантического макета. Вместо того, чтобы изучать прямое отображение текста в изображение, алгоритм разбивает процесс генерации на несколько шагов, на которых он сначала создает семантический макет из текста с помощью генератора макета и преобразует макет в изображение с помощью генератора изображений(рис. 9). Предлагаемый генератор компоновки постепенно создает семантическую компоновку от грубого к точному, генерируя '''ограничивающие рамки''' (англ. ''bounding box'') объекта и уточняя каждую рамку, оценивая формы объектов внутри нее. Генератор изображений синтезирует изображение, обусловленное предполагаемым семантическим макетом, что обеспечивает полезную семантическую структуру изображения, совпадающего с текстовым описанием. <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:Semantic-1.png|thumb|alt=Архитектура|x350px|center|Рисунок 9.<ref name="HTIS"/> Архитектура HTIS.]]</div> * '''Генератор рамок''' (англ. ''Box Generator'') принимает в качестве входных данных вложения текста и генерирует грубую компоновку, композируя экземпляры объектов в изображении. Выходные данные генератора представляют собой набор ограничивающих рамок <tex>B_1: T = \{B_1, ..., B_T\}</tex>, где каждая ограничивающая рамка <tex>B_t</tex> определяет местоположение, размер и метку категории <tex>t</tex>-го объекта.* '''Генератор фигур''' (англ. ''Shape Generator'') берет набор ограничивающих рамок, созданных на предыдущем шаге, и предсказывает формы объектов внутри рамок. Результатом является набор двоичных масок <tex>M_1: T = \{M_1, ..., M_T\}</tex>, где каждая маска <tex>M_t</tex> определяет форму переднего плана <tex>t</tex>-го объекта.* '''Генератор изображений''' (англ. ''Image Generator'') принимает карту семантических меток <tex>M</tex>, полученную путем агрегирования масок по экземплярам, и текстовое описание в качестве входных данных, и генерирует изображение, переводя семантический макет в пиксели, соответствующие текстовому описанию.
Модель не только генерирует семантически более значимые изображения, но также позволяет автоматически аннотировать генерируемые изображения. Созданные изображения и процесс генерации под управлением пользователя путем изменения сгенерированного макета сцены.
Создание изображения из общего предложения «люди, едущие на слонах, идущих по реке» требует множества рассуждений о различных визуальных концепциях, таких как категория объекта (люди и слоны), пространственные конфигурации объектов (верховая езда), контекст сцены (прогулка по реке) и т. д., что намного сложнее, чем создание одного большого объекта, как в более простых наборах данных. Существующие подходы не привели к успеху в создании разумных изображений для таких сложных текстовых описаний из-за сложности обучения прямому преобразованию текста в пиксель из обычных изображений.
Поэтому вместо того, чтобы изучать прямое отображение текста в изображение, был предложен альтернативный подход, который строит семантический макет как промежуточное представление между текстом и изображением. Семантический макет определяет структуру сцены на основе экземпляров объектов и предоставляет детальную информацию о сцене, такую ​​как количество объектов, категорию объекта, расположение, размер, форму. <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:Semantic-1.png|thumb|alt=Архитектура|x350px|center|Рисунок 9.<ref name="HTIS"/> Архитектура HTIS.]]</div> * '''Генератор рамок''' (англ. ''Box Generator'') принимает в качестве входных данных вложения текста и генерирует грубую компоновку, композируя экземпляры объектов в изображении. Выходные данные генератора представляют собой набор ограничивающих рамок <tex>B_1: T = \{B_1, ..., B_T\}</tex>, где каждая ограничивающая рамка <tex>B_t</tex> определяет местоположение, размер и метку категории <tex>t</tex>-го объекта.* '''Генератор фигур''' (англ. ''Shape Generator'') берет набор ограничивающих рамок, созданных на предыдущем шаге, и предсказывает формы объектов внутри рамок. Результатом является набор двоичных масок <tex>M_1: T = \{M_1, ..., M_T\}</tex>, где каждая маска <tex>M_t</tex> определяет форму переднего плана <tex>t</tex>-го объекта.* '''Генератор изображений''' выдает довольно неплохой результат (англрис. ''Image Generator''10) принимает карту семантических меток <tex>M</tex>, полученную путем агрегирования масок по экземплярам, и текстовое описание в качестве входных данных, и генерирует изображение, переводя семантический макет в пиксели, соответствующие текстовому описанию.
<gallery mode="slideshow" caption="Рисунок 10. Пример результата работы">
135
правок

Навигация