Изменения

Генерация изображения по тексту

Нет изменений в размере, 13:44, 12 января 2021

Move inception scores from DCGAN to StackGAN

Для обучения такой модели для птиц был использован набор данных Caltech-UCSD<ref name="caltech">[http://www.vision.caltech.edu/visipedia/CUB-200.html Caltech-UCSD Birds 200 dataset]</ref>, а для цветов {{---}} Oxford-102<ref name="oxford">[https://www.robots.ox.ac.uk/~vgg/data/flowers/102/ Oxford Flowers 102 dataset]</ref>. Наряду с этим было собрано по пять текстовых описаний на изображение, которые были использованы в качестве параметров оценки.

~~{| class="wikitable"~~

|+ '''Inception scores для сгенерированных изображений в тестовых наборах Caltech-UCSD<ref name="caltech"/>, Oxford-102<ref name="Oxford"/> и COCO<ref name="COCO" />'''

|-

~~! Набор данных !! Inception Score~~

|-

~~| style = "text-align: right" | Caltech-UCSD || style = "text-align: center" | <tex>3.70 \pm 0.04</tex>~~

|-

~~| style = "text-align: right" | Oxford-102 || style = "text-align: center" | <tex>3.20 \pm 0.01</tex>~~

|-

~~| style = "text-align: right" | COCO || style = "text-align: center" | <tex>8.45 \pm 0.03</tex>~~

|}

DCGAN во многих случаях может генерировать на основе текста визуально-правдоподобные изображения размером 64×64, а также отличается тем, что сама модель является генеративной состязательней сетью, а не только использует ее для постобработки. Текстовые запросы кодируются с помощью текстового кодировщика <tex>\varphi</tex>. Описание, внедренное в <tex>\varphi(t)</tex> сначала сжимается с помощью полностью связанного слоя до небольшого размера (на практике было использовано 128), затем применяется функция активации [[Практики реализации нейронных сетей|Leaky ReLU]] и результат конкатенируется с вектором шума <tex>z</tex>.

=== Составные генеративные состязательные сети ===

'''Составные генеративные состязательные сети''' (англ. ''Stacked Generative Adversarial Networks, StackGAN'') {{---}} служат для генерации фотореалистичный изображений размера 256x256, заданных текстовыми описаниями. В данной модели трудная задача генерации изображения разлагается на более решаемые подзадачи с помощью процесса эскиз-уточнения (англ. ''sketch-refinement process''). Таким образом, Stage-I GAN рисует примитивную форму и цвета объекта на основе данного текстового описания, получая изображения Stage-I с низким разрешением. Stage-II GAN принимает результаты Stage-I и текстовые описания в качестве входных данных и генерирует изображения высокого разрешения с фотореалистичными деталями. Он способен исправлять дефекты в результатах этапа I и добавлять привлекательные детали в процессе уточнения (англ. ''refinement process''). Чтобы улучшить разнообразие синтезированных изображений и стабилизировать обучение CGAN<ref name="CGAN">[https://arxiv.org/abs/1411.1784 Mirza M. and Osindero S. {{---}} Conditional Generative Adversarial Nets (CGAN) 2014]</ref> вводится техника условно-когнитивной регуляции (англ. ''Conditioning Augmentation''), которая способствует плавности в обусловливающем многообразии.

{| class="wikitable"

|+ '''Inception scores для сгенерированных изображений в тестовых наборах Caltech-UCSD<ref name="caltech"/>, Oxford-102<ref name="Oxford"/> и COCO<ref name="COCO" />'''

|-

! Набор данных !! Inception Score

|-

| style = "text-align: right" | Caltech-UCSD || style = "text-align: center" | <tex>3.70 \pm 0.04</tex>

|-

| style = "text-align: right" | Oxford-102 || style = "text-align: center" | <tex>3.20 \pm 0.01</tex>

|-

| style = "text-align: right" | COCO || style = "text-align: center" | <tex>8.45 \pm 0.03</tex>

|}

Вклад предлагаемого метода состоит из трех частей:

Hakimov

135

правок

Изменения

Генерация изображения по тексту

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты