Изменения

Генерация изображения по тексту

561 байт добавлено, 01:36, 12 января 2021

Нет описания правки

нейронной сетью на уровне символов. DCGAN имеет эффективную архитектуру и обучающую структуру, которая позволяет синтезировать изображения птиц и цветов из письменных описаний, предоставленных человеком.

Для обучения такой модели для птиц был использован набор данных Caltech-UCSD, а для цветов {{---}} theOxford-102 наряду с пятью текстовыми описаниями на изображение, которые были собраны и использованы в качестве параметров оценки. Данная модель обучается на подмножестве обучающих категорий, и здесь будет продемонстрирована ее эффективность как на обучающем множестве, так и на тестовом ~~множестве~~. DCGAN во многих случаях может генерировать на основе текста визуально-правдоподобные изображения размером 64×64, а также отличается тем, что сама модель является генеративной состязательней сетью, а не только использует ее для постобработки. Текстовые запросы кодируются с помощью текстового кодировщика <tex>\varphi</tex>

=== Attribute2Image ===

=== StackGAN ===

MirrorGan представляет собой зеркальную структуру, объдиняя T2I и I2T. Она состоит из трех генераторов. Чтобы сконструировать мультиэтапный каскадный генератор, нужно совместить все три сети генерации изображений последовательно. В качестве архитектуры STREAM будем использовать широко используемый фреймворк захвата изображения, базированный на кодировке и декодировке. Кодировщик изображений есть [[Сверточные нейронные сети | свёрточная нейронная сеть]], предварительно обученная на ImageNet, а декодировщик есть [[Рекуррентные нейронные сети | рекуррентная нейронная сеть]]. Предварительное обучение STREAM помогло MirrorGAN достичь более стабильного процесса обучения и более быстрой сходимости, в то время, как их совместая оптимизация довольно нестабильна и с точки зрения занимаемого места и времени очень дорога. Структура кодировщик-декодировщик и соответствующие ей параметры фиксированы во время обучения других модулей MirrorGAN.

Обучая <tex>G_i</tex>, градиенты из <tex>L_{stream}</tex> обратно распространяются через STREAM в <~~texG_i~~tex>G_i</tex>, чьи сети остаются фиксированными.

<tex>\mathcal{L}_G = \displaystyle\sum_{i = 0}^{m - 1}{\mathcal{L}_{G_i} + \lambda \mathcal{L}_{stream}}</tex>

Hakimov

135

правок

Изменения

Генерация изображения по тексту

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты