Изменения

Перейти к: навигация, поиск

Генерация изображения по тексту

50 байт добавлено, 12:12, 12 января 2021
Нет описания правки
=== Глубокая сверточная генеративная состязательная сеть ===
'''Глубокая сверточная генеративная состязательная сеть''' (англ. ''Deep Convolutional Generative Adversarial Network, DCGAN'') {{---}} обусловлена текстовыми признаками, кодируемыми гибридной сверточно-рекуррентной
нейронной сетью на уровне символов. DCGAN имеет эффективную архитектуру и обучающую структуру, которая позволяет синтезировать изображения птиц и цветов из письменных текстовых описаний, предоставленных человеком.
Для обучения такой модели для птиц был использован набор данных Caltech-UCSD<ref name="caltech">[http://www.vision.caltech.edu/visipedia/CUB-200.html Caltech-UCSD Birds 200 dataset]</ref>, а для цветов {{---}} Oxford-102<ref name="oxford">[https://www.robots.ox.ac.uk/~vgg/data/flowers/102/ Oxford Flowers 102 dataset]</ref> наряду . Наряду с пятью текстовыми описаниями этим было собрано по пять текстовых описаний на изображение, которые были собраны и использованы в качестве параметров оценки. Данная модель обучается на подмножестве обучающих категорий, и здесь будет продемонстрирована ее эффективность как на обучающем множестве, так и на тестовом.
DCGAN во многих случаях может генерировать на основе текста визуально-правдоподобные изображения размером ​64×64, а также отличается тем, что сама модель является генеративной состязательней сетью, а не только использует ее для постобработки. Текстовые запросы кодируются с помощью текстового кодировщика <tex>\varphi</tex>. Описание, внедренное в <tex>\varphi(t)</tex> сначала сжимается с помощью полностью связанного слоя до небольшого размера (на практике было использовано 128), затем применяется функция активации [[Практики реализации нейронных сетей|Leaky ReLU]] и результат конкатенируется с вектором шума <tex>z</tex>.
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:DCGAN-1.png|thumb|alt=Архитектура DCGAN|x350px|center|Архитектура DCGAN]]</div>
Как только модель научилась генерировать правдоподобные изображения, она должна также научиться согласовывать их с текстовым описанием и было бы неплохо если бы она научится научилась оценивать, соответствуют ли изображенияэтому заданному описанию или нет. Модель должна неявно разделять два источника ошибок: нереалистичные образы (для любого текста)и реалистичные образы неправильного класса, которые не соответствуют текстовым признакам. Алгоритм обучения GAN был модифицирован таким образом, чтобы разделять эти источники ошибок. В дополнение к реальным/поддельным входным данным в дискриминатор во время обучения был добавлен третий тип входных данных, состоящий из реальных изображений с несовпадающим текстовым описанием, на которых дискриминатор должен обучиться оценивать поддельныеизображения.
<gallery mode="slideshow" caption="Пример результата работы DCGAN">
135
правок

Навигация