Изменения

Перейти к: навигация, поиск

Генерация изображения по тексту

14 байт убрано, 17:15, 12 января 2021
м
fix FusedGAN
=== FusedGAN ===
Для улучшения генерации изображений по описанию и получения контролируемой выборки, некоторые модели используют разделение процесса разделяют процесс генерации на несколько этапов, например. Например, в модели Attribute2image<ref>[https://arxiv.org/abs/1512.00570 Xinchen Y. {{---}} Conditional Image Generation from Visual Attributes, 2015]</ref> разделение раздельная генерации фона и переднего и заднего плана позволило позволила получить контролируемую выборку (сохраняя один из них фиксированным фиксируя фон и варьируя другойпеняя основную сцену, и наоборот). В свою очередь модель FusedGAN<ref>[https://arxiv.org/abs/1801.05551 Navaneeth B., Gang H. {{---}} Semi-supervised FusedGAN for ConditionalImage Generation, 2018]</ref> может выполнять контролируемую выборку различных изображений с очень высокой точностью, что так же достигается путём разбиения процесса генерации изображений на этапы. В данной модели в отличие от StackGAN, где несколько этапов [[Generative Adversarial Nets (GAN)| GAN]] обучаются отдельно с полным контролем помеченных промежуточных изображений, FusedGAN имеет одноступенчатый конвейер со встроенной встроенным StackGAN.
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[ Файл:FusedGAN.png|thumb| alt=Архитектура FusedGAN|x350px|center|Архитектура FusedGAN]]</div>
Контролируемая выборка относится к процессу выборки изображений путем контролируемого изменения таких факторов, как поза, стиль, фон и другие детали. Например, можно генерировать разные изображения, оставляя постоянным фон, или генерировать изображения в различных стилях, сохраняя одну и ту же позуостальной контекст неизменным.Основное преимущество данной модели состоит в том, что для обучения она может использовать полу-размеченные данные. Это означает, что помимо размеченных данных для генерации изображений (изображение и его описание)для генерации изображений, модель может использовать изображения без текстового описания.Модель состоит из двух совмещённых шаговвзаимосвязанных этапов: * На первом этапе с помощью [[Generative Adversarial Nets (GAN)| GAN]] выполняется генерация изображений из случайного вектора шума, а также создаются признаки для стиля, в котором будет оформлено сгенерированное изображение на втором шаге.
* На втором этапе CGAN<ref>[https://arxiv.org/abs/1411.1784 Mirza M. and Osindero S. {{---}} Conditional Generative Adversarial Nets (CGAN) 2014]</ref> генерирует окончательное изображение (то есть изображение, соответствующее описанию и стилю заданному на первом шаге), используя в качестве входных данных текстовое описание и данные полученные с первого шага.
<tex>М_{s}</tex> выступает в роли шаблона подавая дополнительные признаки на второй шаг генерации. Вследствие чего изображения сгенерированных птиц не только соответствуют описанию, но также сохраняют информацию о стиле. Поэтому вместо того, чтобы учиться с нуля, <tex>G_{c}</tex> строится поверх <tex>М_{s}</tex>, добавляя к нему стили с помощью текстового описания.
Следует отметить, что в модели отсутствует явная иерархия, поэтому оба этапа могут обучаться одновременно, используя чередующуюся оптимизациюальтернативный метод оптимизации.
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[ Файл:FusedGAN_ example.png|thumb| alt=Пример работы FusedGAN|x350px|center|Сравнение FusedGAN с другими моделями]]</div>
Для оценки качества генерируемых изображений с помощью FusedGAN, были отобраны 30 тысяч изображений и посчитано inception scores, используя предварительно обученную модель на тестовом наборе Caltech-UCSD<ref name="caltech"/>. Данные сравнения приведены в таблице
89
правок

Навигация