Изменения

Перейти к: навигация, поиск

Генерация изображения по тексту

624 байта добавлено, 16:44, 14 января 2021
м
MCA-GAN: added disambiguations
=== MCA-GAN ===
Преобразование изображений перекрестным видом (англ. cross-view image translation) проблематично, поскольку оно включает в себя изображения оперирует изображениями со значительно отличающимися видами перспективами и жесточайшей деформациейтяжёлыми деформациями. В статье<ref name="MCA-GAN">[https://arxiv.org/pdf/1904.06807.pdf Multi-Channel Attention Selection GAN with Cascaded Semantic Guidancefor Cross-View Image Translation]</ref> о выборочной [[Generative Adversarial Nets (GAN) | генеративной состязательной сети]] с мультиканальным вниманием (англ. ''Multi-Channel Attention Selection GAN, MCA-GAN'') рассматривается подход, позволяющий делать возможным генерацию изображения, максимально приближенной к реальной, с произвольных точек зренияперпсективах, основывающийся на семантическом отображении(англ. semantic mapping). Работа сети происходит в два этапа:# изображение и целевое семантическое отображение (англ. target semantic map) подаются на вход циклической семантически-управляемой генерационной сети (англ. cycled semantic-guided generation network) для получения начальных результатов;# начальные результаты уточняются, используя механизм мультиканального выделения внимания(англ. multi-channel attention selection mechanism).Обширные эксперименты на наборах данных Dayton, CVUSA <ref>[http://mvrl.cs.uky.edu/datasets/cvusa/ Crossview USA (CVUSA)]</ref> и Ego2Top <ref>[https://www.crcv.ucf.edu/projects/ego2top/index.php Ego2Top: Matching Viewers in Egocentric and Top-view Videos (ECCV 2016)]</ref> показывают, что данная модель способна генерировать значительно более качественные результаты, чем другие современные методы.
[[Файл:MCA-GAD.png|thumb|left|x300px|Рисунок 29.<ref name="MCA-GAN"/> Архитектура MCA-GAD.]]
На картинке слева рисунке 29 проиллюстрирована структура сети. Первый этап, как было описано выше, состоит из каскадной семантически-управляемой генерацинной подсети, использующая изображения с одном представлении и условные семантические отображения в другом представлении в качестве входных данных и реконструирующая эти изображения в другом представлении. Результирующие изображения далее подаются на вход семантическому генератору для восстановления исходного семантического отображения, формируя генерационный циклгенерации. Второй этап заключается в том, что отличительные характеристики и грубый синтез (англ. coarse synthesis) и глубокие характеристики объединяются и передаются в модуль культиканального мультиканального выделения внимания, направленный на получение более детализированного синтеза (англ. fine-grained synthesis) из большего пространства генерации и создание отображений неопределенности (англ. uncertainty maps) для управления множественными оптимизационными потерямиоптимизации (англ. optimization losses).
Модуль мультиканального выделения внимания в свою очередь состоит из многомасштабного пространственного пулинга (англ. ''multiscale spatial pooling'') и компоненты мультиканального выделения внимания (англ. ''multichannel attention selection component'').
Поскольку между изначальной точкой зрения перспективой и результирующей существует объемная деформация объекта и/или сцены, одномасштабная компонента характеристика (англ. single-scale feature) вряд ли сможет захватить всю необходимую пространственную информацию о пространстве для детализированной генерации. Многомасштабный пространственный пулинг оперирует же другими значениями размера ядра и шага для выполнения глобального среднего пулинга (англ. global average pooling) на одних и тех же входных характеристиках, тем самым получая многомасштабные характеристики с отличающимися рецептивными полями (англ. receptive fields) для восприятия, соответственно, различных пространственных контекстов. Механизм мультиканального внимания позволяет осуществлять выполнение пространственного и временного отбора(англ. spatial and temporal selection), чтобы синтезировать конечный детализированный результат.
[[Файл:MCA-GAN_Module.png|thumb|center|x400px|Рисунок 30.<ref name="MCA-GAN"/> Архитектура модуля мультиканального выделения внимания (англ. ''multi-channel attention selection module'').]]
81
правка

Навигация