135
правок
Изменения
м
Fix issue #5
{{В разработке}}
Автоматический синтез реалистичных высококачественных изображений из текстовых описаний был бы интересен и довольно полезен, так как имеет множество практических применений, но современные системы искусственного интеллекта все еще далеки от этой цели, так как это является довольно сложной задачей в области компьютерного зрения. Однако в последние годы были разработаны универсальные и мощные рекуррентные архитектуры нейронных сетей для изучения различных представлений текстовых признаков. Между тем, глубокие сверточные '''[[Generative Adversarial Nets (GAN)| генеративные состязательные сети]]''' (англ. ''Generative Adversarial Nets, GANs'') начали генерировать весьма убедительные изображения определенных категорий, таких как лица, обложки альбомов и интерьеры комнат. Образцы, генерируемые существующими подходами "текст-изображение", могут приблизительно отражать смысл данных описаний, но они не содержат необходимых деталей и ярких частей объекта. Мы рассмотрим глубокую архитектуру и формулировку GAN, объединим достижения в моделировании текста и изображений, переводя визуальные концепции из символов в пиксели.
== Обзор генеративных моделей ==
Сообщество глубокого обучения быстро совершенствует генеративные модели. Среди них можно выделить три перспективных типа: [[PixelRNN и PixelCNN|авторегрессионные модели ]] (англ. ''Autoregressive model, AR-model''), [[Вариационный автокодировщик|вариационные автокодировщики ]] (англ. ''Variational Autoencoder, VAE'')]] и [[Generative Adversarial Nets (GAN)|генеративные состязательные сети]].
На данный момент самые качественные изображения генерируют сети GAN (фотореалистичные и разнообразные, с убедительными деталями в высоком разрешении). Поэтому в данной статье мы сосредоточимся на моделях GAN.