Изменения

Генерация изображения по тексту

753 байта добавлено, 02:13, 12 января 2021

Нет описания правки

Автоматический синтез реалистичных изображений из текста был бы интересен и довольно полезен, но современные системы искусственного интеллекта все еще далеки от этой цели. Однако в последние годы были разработаны универсальные и мощные рекуррентные архитектуры нейронных сетей для изучения различных представлений текстовых признаков. Между тем, глубокие сверточные генеративные состязательные сети (англ. [[Generative Adversarial Nets (GAN)|Generative Adversarial Nets, GANs]]) начали генерировать весьма убедительные изображения определенных категорий, таких как лица, обложки альбомов и интерьеры комнат. Мы рассмотрим глубокую архитектуру и формулировку GAN, объединим достижения в моделировании текста и изображений, переводя визуальные концепции из символов в пиксели.

== GAN ==

=== ~~DCGAN~~ Глубокая сверточная генеративная состязательная сеть ===

'''Глубокая сверточная генеративная состязательная сеть''' (англ. ''Deep Convolutional Generative Adversarial Network, DCGAN'') {{---}} обусловлена текстовыми признаками, кодируемыми гибридной сверточно-рекуррентной

нейронной сетью на уровне символов. DCGAN имеет эффективную архитектуру и обучающую структуру, которая позволяет синтезировать изображения птиц и цветов из письменных описаний, предоставленных человеком.

Для обучения такой модели для птиц был использован набор данных Caltech-UCSD<ref name="caltech">[http://www.vision.caltech.edu/visipedia/CUB-200.html Caltech-UCSD Birds 200 dataset]</ref>, а для цветов {{---}} Oxford-102<ref name="oxford">[https://www.robots.ox.ac.uk/~vgg/data/flowers/102/ Oxford Flowers 102 dataset]</ref> наряду с пятью текстовыми описаниями на изображение, которые были собраны и использованы в качестве параметров оценки. Данная модель обучается на подмножестве обучающих категорий, и здесь будет продемонстрирована ее эффективность как на обучающем множестве, так и на тестовом.

DCGAN во многих случаях может генерировать на основе текста визуально-правдоподобные изображения размером 64×64, а также отличается тем, что сама модель является генеративной состязательней сетью, а не только использует ее для постобработки. Текстовые запросы кодируются с помощью текстового кодировщика <tex>\varphi</tex>. Описание, внедренное в <tex>\varphi(t)</tex> сначала сжимается с помощью полностью связанного слоя до небольшого размера (на практике было использовано 128), затем применяется функция активации [[Практики реализации нейронных сетей|Leaky ReLU]] и результат конкатенируется с вектором шума <tex>z</tex>.

=== Attribute2Image ===

=== StackGAN ===

*[[Генерация объектов|Генерация объектов]]

*[[Deepfake|Deepfake]]

*[[Практики реализации нейронных сетей|Практики реализации нейронных сетей]]

== Примечания ==

Hakimov

135

правок

Изменения

Генерация изображения по тексту

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты