Изменения

Генерация изображения по тексту

14 байт убрано, 17:15, 12 января 2021

м

fix FusedGAN

=== FusedGAN ===

Для улучшения генерации изображений по описанию и получения контролируемой выборки, некоторые модели ~~используют разделение процесса~~ разделяют процесс генерации на несколько этапов~~, например~~. Например, в модели Attribute2image<ref>[https://arxiv.org/abs/1512.00570 Xinchen Y. {{---}} Conditional Image Generation from Visual Attributes, 2015]</ref> ~~разделение~~ раздельная генерации фона и переднего ~~и заднего~~ плана ~~позволило~~ позволила получить контролируемую выборку (~~сохраняя один из них фиксированным~~ фиксируя фон и ~~варьируя другой~~пеняя основную сцену, и наоборот). В свою очередь модель FusedGAN<ref>[https://arxiv.org/abs/1801.05551 Navaneeth B., Gang H. {{---}} Semi-supervised FusedGAN for ConditionalImage Generation, 2018]</ref> может выполнять контролируемую выборку различных изображений с очень высокой точностью, что так же достигается путём разбиения процесса генерации изображений на этапы. В данной модели в отличие от StackGAN, где несколько этапов [[Generative Adversarial Nets (GAN)| GAN]] обучаются отдельно с полным контролем помеченных промежуточных изображений, FusedGAN имеет одноступенчатый конвейер со ~~встроенной~~ встроенным StackGAN.

Контролируемая выборка относится к процессу выборки изображений путем ~~контролируемого~~ изменения таких факторов, как ~~поза,~~ стиль, фон и другие детали. Например, можно генерировать разные изображения, оставляя постоянным фон, или генерировать изображения в различных стилях, сохраняя ~~одну и ту же позу~~остальной контекст неизменным.Основное преимущество данной модели состоит в том, что для обучения она может использовать полу-размеченные данные. Это означает, что помимо размеченных данных ~~для генерации изображений~~ (изображение и его описание)для генерации изображений, модель может использовать изображения без текстового описания.Модель состоит из двух ~~совмещённых шагов~~взаимосвязанных этапов: * На первом этапе с помощью [[Generative Adversarial Nets (GAN)| GAN]] выполняется генерация изображений из случайного вектора ~~шума~~, а также создаются признаки для стиля, в котором будет оформлено сгенерированное изображение на втором шаге.

* На втором этапе CGAN<ref>[https://arxiv.org/abs/1411.1784 Mirza M. and Osindero S. {{---}} Conditional Generative Adversarial Nets (CGAN) 2014]</ref> генерирует окончательное изображение (то есть изображение, соответствующее описанию и стилю заданному на первом шаге), используя в качестве входных данных текстовое описание и данные полученные с первого шага.

<tex>М_{s}</tex> выступает в роли шаблона подавая дополнительные признаки на второй шаг генерации. Вследствие чего изображения сгенерированных птиц не только соответствуют описанию, но также сохраняют информацию о стиле. Поэтому вместо того, чтобы учиться с нуля, <tex>G_{c}</tex> строится поверх <tex>М_{s}</tex>, добавляя к нему стили с помощью текстового описания.

Следует отметить, что в модели отсутствует явная иерархия, поэтому оба этапа могут обучаться одновременно, используя ~~чередующуюся оптимизацию~~альтернативный метод оптимизации.

Для оценки качества генерируемых изображений с помощью FusedGAN, были отобраны 30 тысяч изображений и посчитано inception scores, используя предварительно обученную модель на тестовом наборе Caltech-UCSD<ref name="caltech"/>. Данные сравнения приведены в таблице

Geny200

89

правок

Изменения

Генерация изображения по тексту

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты