Изменения

Перейти к: навигация, поиск

Генерация изображения по тексту

2831 байт добавлено, 00:36, 12 января 2021
MirrorGAN
Чтобы обучать модель сквозным методом, будем использовать две состязательные потери: в визуальном реализме и в семантическом постоянстве. В добавок, для максимального использования двойного регулирования T2I и I2T, применим текстово-семантическую реконструированную потерю основанную на перекрёстной энтропии.
[[Файл:MirrorGAN.png|centerthumb|left|x400px|Архитектура MirrorGAN]] MirrorGan представляет собой зеркальную структуру, объдиняя T2I и I2T. Она состоит из трех генераторов. Чтобы сконструировать мультиэтапный каскадный генератор, нужно совместить все три сети генерации изображений последовательно. В качестве архитектуры STREAM будем использовать широко используемый фреймворк захвата изображения, базированный на кодировке и декодировке. Кодировщик изображений есть [[Сверточные нейронные сети | свёрточная нейронная сеть]], предварительно обученная на ImageNet, а декодировщик есть [[Рекуррентные нейронные сети | рекуррентная нейронная сеть]]. Предварительное обучение STREAM помогло MirrorGAN достичь более стабильного процесса обучения и более быстрой сходимости, в то время, как их совместая оптимизация довольно нестабильна и с точки зрения занимаемого места и времени очень дорога. Структура кодировщик-декодировщик и соответствующие ей параметры фиксированы во время обучения других модулей MirrorGAN. Обучая <tex>G_i</tex>, градиенты из <tex>L_{stream}</tex> обратно распространяются через STREAM в <texG_i</tex>, чьи сети остаются фиксированными. <tex>\mathcal{L}_G = \displaystyle\sum_{i = 0}^{m - 1}{\mathcal{L}_{G_i} + \lambda \mathcal{L}_{stream}}</tex> Для наилучшего качества генерации, поставим коэффициент <tex>\lambda := 20</tex>. Показатель Inception был использован для измерения как объективности, так и разнообразия сгенерированных изображений. R-precision был использован для вычисления визуально-семантической схожести между сгенерированными изображениями и их соответствующими текстовыми описаниями. [[Файл:MirrorGAN&Co.jpg|thumb|center|x600px|Сравнение MirrorGAN и других генеративных состязательных сетей.]]
=== Obj-GAN ===
81
правка

Навигация