Изменения

Генерация изображения по тексту

6337 байт добавлено, 03:26, 12 января 2021

→‎LayoutVAE

=== LayoutVAE ===

Модели, используемые для генерации макетов сцен из текстовых описаний по большей части игнорируют возможные визуальные вариации внутри структуры, описываемой самим текстом. Layout variational autoencoder (LayoutVAE) {{---}} фреймворк, базирующийся на [[Вариационный автокодировщик | вариационном автокодировщике]] для генераций стохастических макетов сцен {{---}} есть разносторонняя программная платформа моделирования, позволяющая генерировать полные макеты изображений с заданным набором меток или макеты меток для существующего изображения с заданной новой меткой. Вдобавок она также способна обнаруживать необычные макеты, потенциально открывающая пути к вычислению проблемы генерации макетов.

Будем рассматривать следующую проблему: генерация сцен с описанием набора меток. Набор меток, представленный как более слабое описание, всего лишь предоставляет множество меток, присутствующих в данном изображении без дополнительного описания взаимосвязи, заставляя модель изучать пространственные и подсчитываемые отношения на основе визуальных данных.

Касательно описанных проблем предлагаются следующие решения:

* модель стохастических генераций макетов сцен с заданным множеством меток, которая будет иметь две компоненты: моделирование распределений подсчитываемых отношений между объектами; моделирование распределений пространственных отношений между объектами;

* синтетический набор данных, MNIST-макеты, отражающую стохастическую природу генерации макета сцен;

* экстремальная валидация моделей с использованием MNIST-макетов и наборов данных COCO, в которой содержатся сложные макеты сцен реального мира.

В статье<ref>[https://openaccess.thecvf.com/content_ICCV_2019/papers/Jyothi_LayoutVAE_Stochastic_Scene_Layout_Generation_From_a_Label_Set_ICCV_2019_paper.pdf LayoutVAE: Stochastic Scene Layout Generation From a Label Set]</ref> были предложены фреймворки и структуры, модели и фреймворки, взаимодействующие с LayoutVE, такие как: PNP-Net {{---}} фреймворк вариационного автокодировщика для генерации изображения абстрактной сцены из текстовой программы, полностью описывающей её (помимо того, что это {{---}} стохастическая модель для генерации, она была протестирована на синтетических наборах данных с малым числом классов); LayoutGAN {{---}} модель, основанная на [[Generative Adversarial Nets (GAN) | генеративных состязательных сетях]], генерирующая макеты графических элементов (прамоугольники, трегуольники, и так далее); VAE-базированный фреймворк, кодирующий объект и информацию о макете о 3D-сцен в помещении в скрытом коде; и так далее...

Обучение генеративных моделей нужно, чтобы предсказать разнообразные, но правдоподобные наборы ограничивающих рамок, учитывая набор меток в качестве входных данных. Рамки в наборе представлены верхними левыми координатами, шириной и высотой <tex>i</tex>-й ограничивающей рамки категории <tex>k</tex>. LayoutVAE естественным образом декомпозируется на модель для предсказания количества для каждой заданной метки {{---}} CountVAE {{---}} и другая для предсказания местоположения и размера каждого объекта {{---}} BBoxVAE.

Имея набор меток <tex>L</tex> и количество объектов в категории <tex>\left\{ n_m : m \in L \right\}</tex>, BBoxVAE предсказывает распределение координат для ограничивающих рамок авторегрессионно. Мы следуем тому же предопределенному порядку меток, что и в CountVAE, в пространстве меток, и упорядочиваем ограничивающие рамки слева направо для каждой метки; все ограничивающие рамки предсказываются перед переходом к следующей метке.

[[Файл:LayoutVE.png|thumb|left|x200px|Архитектура LayoutVAE]]

[[Файл:LayoutVEGeneration.png|thumb|right|x200px|Генерация по множеству меток <tex>\{person, sea, surfboard\}</tex>]]

=== TextKD-GAN ===

=== MCA-GAN ===

Breaker Zirconia

81

правка

Изменения

Генерация изображения по тексту

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты