Изменения

Генерация изображения по тексту

68 байт убрано, 21:10, 19 января 2021

м

→‎DCGAN

нейронной сетью на уровне символов. DCGAN имеет эффективную архитектуру (рис. 1) и обучающую структуру, которая позволяет синтезировать изображения птиц и цветов из текстовых описаний.

Для обучения такой модели для птиц был использован набор данных [[Известные наборы данных#Caltech-UCSD~~<ref name="caltech">[http://www.vision.caltech.edu/visipedia/~~Birds 200 (CUB~~-200.html~~ )|Caltech-UCSD ~~Birds 200 dataset~~]~~</ref>~~], а для цветов {{---}} ~~Oxford-102<ref name="oxford">~~[~~https://www.robots.ox.ac.uk/~vgg/data/flowers/~~[Известные наборы данных#102/ Category Flower|Oxford ~~Flowers~~ -102 ~~dataset~~]~~</ref>~~]. Наряду с этим было собрано по пять текстовых описаний на изображение, которые были использованы в качестве параметров оценки.

DCGAN во многих случаях может генерировать на основе текста визуально-правдоподобные изображения размером 64×64 пикселя, а также отличается тем, что сама модель является генеративной состязательней сетью, а не только использует ее для постобработки. Текстовые запросы кодируются с помощью текстового кодировщика <tex>\varphi</tex>. Описание, внедренное в <tex>\varphi(t)</tex> сначала сжимается с помощью полностью связанного слоя до небольшого размера (на практике было использовано 128), затем применяется функция активации [[Практики реализации нейронных сетей|Leaky ReLU]] и результат конкатенируется с вектором шума <tex>z</tex>.

Geny200

89

правок

Изменения

Генерация изображения по тексту

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты