Изменения

Генерация изображения по тексту

30 байт добавлено, 18:44, 12 января 2021

Rephare sentence in MirrorGAN

=== MirrorGAN ===

Генерация изображения из заданного текстового описания преследует две главные цели: визуальный реализм и семантическое постоянство. Несмотря на то, что существует колоссальный прогресс в создании визуально реалистичных изображений высокого качества посредством [[Generative Adversarial Nets (GAN) | генеративных состязательных сетей]], обеспечение вышепоставленных целей все еще является категорически сложной задачей. Для осуществления попытки их реализации рассмотрим ~~глобально-локальный сохраняющий семантику~~ фреймворк text-to-image-to-text ~~фреймворк~~ , сохраняющий семантику с вниманием под названием MirrorGAN. Данный фреймворк ~~эксплуатирует~~ , который из текстового описания генерирует изображение, использует идею обучения ~~text-to-image генерации~~ с помощью переописания и состоит из трёх модулей:

* модуль встраивания семантического текста (англ. ''semantic text embedding module, <b>STEM</b>'');

* глобально-локальный совместный модуль с вниманием для создания каскадных изображений (англ. ''global-local collaborative attentive module for cascaded image generation, <b>GLAM</b>'');

* модуль регенерации семантического текста и выравнивания (англ. ''semantic text regener-ation and alignment module, <b>STREAM</b>'').

STEM создает встраивания на уровне слов и предложений, GLAM имеет каскадную архитектуру создания результирующих изображений от грубой шкалы до детализированной, ~~обращая внимания и эксплуатируя~~ используя как внимание к локальным словам, так и к глобальным предложениям, чтобы прогрессивно совершенствовать семантическое постоянство и разнообразие у сгенерированных изображений, а STREAM стремится к регенерации текстового описания исходя из созданного изображения, которое семантически выравнивается с ~~данным~~ заданным описанием.

Если изображение, сгенерированное с помощью T2I (text-to-image) семантически консистентно с заданным описанием, его описание посредством I2T (image-to-text) должно предоставлять аналогичную семантику с заданным.

Чтобы обучать модель сквозным методом, будем использовать две состязательные ~~потери~~функции потерь: в визуальном реализме и в семантическом постоянстве. В добавок, для ~~максимального~~ эффективного использования двойного регулирования T2I и I2T, применим текстово-семантическую реконструированную ~~потерю~~функцию потерь, основанную на перекрёстной энтропии.

<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:MirrorGAN.png|thumb|center|x350px|Архитектура MirrorGAN]]</div>

MirrorGan представляет собой зеркальную структуру, объединяя T2I и I2T. Она состоит из трех генераторов. Чтобы сконструировать многоэтапный каскадный генератор, нужно совместить все три сети генерации изображений последовательно. В качестве архитектуры STREAM будем использовать ~~широко используемый~~ довольно распространенный фреймворк захвата изображения, базирующийся на кодировании и декодировании. Кодировщик изображений есть [[Сверточные нейронные сети | свёрточная нейронная сеть]], предварительно обученная на ImageNet, а декодировщик есть [[Рекуррентные нейронные сети | рекуррентная нейронная сеть]]. Предварительное обучение STREAM помогло MirrorGAN достичь более стабильного процесса обучения и более быстрой сходимости, в то время, как их совместная оптимизация довольно нестабильна и с точки зрения занимаемого места и времени очень дорога. Структура кодировщик-декодировщик и соответствующие ей параметры фиксированы во время обучения других модулей MirrorGAN.

Обучая <tex>G_i</tex>, градиенты из <tex>L_{stream}</tex> обратно распространяются через STREAM в <tex>G_i</tex>, чьи сети остаются фиксированными.

Hakimov

135

правок

Изменения

Генерация изображения по тексту

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты