Изменения

Перейти к: навигация, поиск

Генерация изображения по тексту

5777 байт добавлено, 16:21, 12 января 2021
MCA-GAN
=== MCA-GAN ===
Преобразование изображений перекрестным видом проблематично, поскольку оно включает в себя изображения со значительно отличающимися видами и жесточайшей деформацией. В статье<ref>[https://arxiv.org/pdf/1904.06807.pdf Multi-Channel Attention Selection GAN with Cascaded Semantic Guidancefor Cross-View Image Translation]</ref> о выборочной [[Generative Adversarial Nets (GAN) | генеративной состязательной сети]] с мультиканальным вниманием (англ. Multi-Channel Attention SelectionGAN, MCA-GAN) рассматривается подход, позволяющий делать возможным генерацию изображения, максимально приближенной к реальной, с произвольных точек зрения, основывающийся на семантическом отображении. Работа сети происходит в два этапа:
# изображение и целевое семантическое отображение подаются на вход циклической семантически-управляемой генерационной сети для получения начальных результатов;
# начальные результаты уточняются, используя механизм мультиканального выделения внимания.
Обширные эксперименты на наборах данных Dayton, CVUSA и Ego2Top показывают, что данная модель способна генерировать значительно более качественные результаты, чем другие современные методы.
 
[[Файл:MCA-GAD.png|thumb|left|x300px|Архитектура MCA-GAD.]]
 
На картинке слева проиллюстрирована структура сети. Первый этап, как было описано выше, состоит из каскадной семантически-управляемой генерацинной подсети, использующая изображения с одном представлении и условные семантические отображения в другом представлении в качестве входных данных и реконструирующая эти изображения в другом представлении. Результирующие изображения далее подаются на вход семантическому генератору для восстановления исходного семантического отображения, формируя генерационный цикл. Второй этап заключается в том, что отличительные характеристики и грубый синтез объединяются и передаются в модуль культиканального выделения внимания, направленный на получение более детализированного синтеза из большего пространства генерации и создание отображений неопределенности для управления множественными оптимизационными потерями.
 
Модуль мультиканального выделения внимания в свою очередь состоит из многомасштабного пространственного пулинга (англ. multiscale spatial pooling) и компоненты мультиканального выделения внимания (англ. multichannel attention selection component).
 
Поскольку между изначальной точкой зрения и результирующей существует объемная деформация объекта и/или сцены, одномасштабная компонента вряд ли сможет захватить всю необходимую пространственную информацию для детализированной генерации. Многомасштабный пространственный пулинг оперирует же другими значениями размера ядра и шага для выполнения глобального среднего пулинга на одних и тех же входных характеристиках, тем самым получая многомасштабные характеристики с отличающимися рецептивными полями для восприятия, соответственно, различных пространственных контекстов. Механизм мультиканального внимания позволяет осуществлять выполнение пространственного и временного отбора, чтобы синтезировать конечный детализированный результат.
 
[[Файл:MCA-GAN_Module.png|thumb|center|x400px|Архитектура модуля мультиканального выделения внимания (англ. multi-channel attention selection module).]]
 
[[Файл:MCA-GAN_CrossviewImageTranslation.png|thumb|center|x500px|Преобразование изображения перекрестным видом.]]
 
== Области применения ==
*Создание контента и данных
81
правка

Навигация