Изменения

Генерация изображения по тексту

5777 байт добавлено, 16:21, 12 января 2021

→‎MCA-GAN

=== MCA-GAN ===

Преобразование изображений перекрестным видом проблематично, поскольку оно включает в себя изображения со значительно отличающимися видами и жесточайшей деформацией. В статье<ref>[https://arxiv.org/pdf/1904.06807.pdf Multi-Channel Attention Selection GAN with Cascaded Semantic Guidancefor Cross-View Image Translation]</ref> о выборочной [[Generative Adversarial Nets (GAN) | генеративной состязательной сети]] с мультиканальным вниманием (англ. Multi-Channel Attention SelectionGAN, MCA-GAN) рассматривается подход, позволяющий делать возможным генерацию изображения, максимально приближенной к реальной, с произвольных точек зрения, основывающийся на семантическом отображении. Работа сети происходит в два этапа:

# изображение и целевое семантическое отображение подаются на вход циклической семантически-управляемой генерационной сети для получения начальных результатов;

# начальные результаты уточняются, используя механизм мультиканального выделения внимания.

Обширные эксперименты на наборах данных Dayton, CVUSA и Ego2Top показывают, что данная модель способна генерировать значительно более качественные результаты, чем другие современные методы.

[[Файл:MCA-GAD.png|thumb|left|x300px|Архитектура MCA-GAD.]]

На картинке слева проиллюстрирована структура сети. Первый этап, как было описано выше, состоит из каскадной семантически-управляемой генерацинной подсети, использующая изображения с одном представлении и условные семантические отображения в другом представлении в качестве входных данных и реконструирующая эти изображения в другом представлении. Результирующие изображения далее подаются на вход семантическому генератору для восстановления исходного семантического отображения, формируя генерационный цикл. Второй этап заключается в том, что отличительные характеристики и грубый синтез объединяются и передаются в модуль культиканального выделения внимания, направленный на получение более детализированного синтеза из большего пространства генерации и создание отображений неопределенности для управления множественными оптимизационными потерями.

Модуль мультиканального выделения внимания в свою очередь состоит из многомасштабного пространственного пулинга (англ. multiscale spatial pooling) и компоненты мультиканального выделения внимания (англ. multichannel attention selection component).

Поскольку между изначальной точкой зрения и результирующей существует объемная деформация объекта и/или сцены, одномасштабная компонента вряд ли сможет захватить всю необходимую пространственную информацию для детализированной генерации. Многомасштабный пространственный пулинг оперирует же другими значениями размера ядра и шага для выполнения глобального среднего пулинга на одних и тех же входных характеристиках, тем самым получая многомасштабные характеристики с отличающимися рецептивными полями для восприятия, соответственно, различных пространственных контекстов. Механизм мультиканального внимания позволяет осуществлять выполнение пространственного и временного отбора, чтобы синтезировать конечный детализированный результат.

[[Файл:MCA-GAN_Module.png|thumb|center|x400px|Архитектура модуля мультиканального выделения внимания (англ. multi-channel attention selection module).]]

[[Файл:MCA-GAN_CrossviewImageTranslation.png|thumb|center|x500px|Преобразование изображения перекрестным видом.]]

== Области применения ==

*Создание контента и данных

Breaker Zirconia

81

правка

Изменения

Генерация изображения по тексту

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты