135
правок
Изменения
Нет описания правки
DCGAN во многих случаях может генерировать на основе текста визуально-правдоподобные изображения размером 64×64, а также отличается тем, что сама модель является генеративной состязательней сетью, а не только использует ее для постобработки. Текстовые запросы кодируются с помощью текстового кодировщика <tex>\varphi</tex>. Описание, внедренное в <tex>\varphi(t)</tex> сначала сжимается с помощью полностью связанного слоя до небольшого размера (на практике было использовано 128), затем применяется функция активации [[Практики реализации нейронных сетей|Leaky ReLU]] и результат конкатенируется с вектором шума <tex>z</tex>.
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:DCGAN-1.png|thumb|alt=Архитектура DCGAN|x350px|center|Архитектура AttnGANDCGAN]]</div> Как только модель научилась генерировать правдоподобные изображения, она должна также научиться согласовывать их с текстовым описанием и было бы неплохо если она научится оценивать, соответствуют ли изображенияэтому описанию или нет. Модель должна неявно разделять два источника ошибок: нереалистичные образы (для любого текста)и реалистичные образы неправильного класса, которые не соответствуют текстовым признакам. Алгоритм обучения GAN был модифицирован таким образом, чтобы разделять эти источники ошибок. В дополнение к реальным/поддельным входным данным в дискриминатор во время обучения был добавлен третий тип входных данных, состоящий из реальных изображений с несовпадающим текстовым описанием, на которых дискриминатор должен обучиться оценивать поддельные. <gallery mode="slideshow" caption="Пример результата работы DCGAN">Файл:DCGAN-2.png||alt=Сгенерированные изображения птицФайл:DCGAN-3.png||alt=Сгенерированные изображения цветов</gallery>
=== Attribute2Image ===
=== StackGAN ===