Задача трансляции изображений

2021-01-12T17:50:58Z

79.111.225.239: /* Примеры */

{{В разработке}}

{{Определение
|definition =
'''Задача трансляции изображения (англ. Image-to-image translation)''' — это задача из области [[ Компьютерное зрение| компьютерного зрения]], цель которой состоит в том, чтобы научиться строить соответствия между входным и выходным изображениями, используя тренировочные данные.
}}
Другими словами, задача состоит в том, чтобы научиться преобразовывать изображение из одной области в другую, получая в итоге изображение со стилем (характеристиками) последней.

[[Файл:Horse2Zebra.png|thumb|right|Рис. 1. Пример трансляции изображения: превращение лошади в зебру.<ref name="cycle">[https://github.com/junyanz/CycleGAN CycleGAN {{---}} GitHub]</ref>]]

== Описание задачи ==

Задача разделяется на два типа в зависимости от тренировочных данных. 
В одном случае, у нас есть четкое представление результата, который должен получиться, а в другом случае, его нет, но есть множество, определяющее стиль желаемого результата (Рис. 2).

[[File:Paired_vs_unpaired_training_data.png|400px|right|thumb|Рис. 2. Виды тренировочных данных для трансляции изображений.]]

=== Обучение на парах изображений ===

'''Алгоритм трансляции изображений, обученный на парах изображений''' — это алгоритм трансляции одного изображения в другое, где тренировочные данные состоят из множества, в котором каждому входному изображению соответствует выходное изображение, содержащее первое с другим стилем.

Примерами приложения этого алгоритма являются следующие трансляции изображений:
* черно-белое изображение {{---}} цветное;
* сегментация изображения (англ. segmentation map) {{---}} реальная картинка;
* линии-края (англ. edges) {{---}} фотография;
* генерация разных поз и одежды на человеке;
* описывающий изображение текст {{---}} фотография.
Некоторые примеры изображены на Рис. 3.
[[File:Examples_paired_translation.jpg|700px|center|thumb|Рис. 3. Примеры применения алгоритма трансляции изображений, обученном на парных тренировочных данных. (Pix2Pix)<ref name="pix">[https://github.com/phillipi/pix2pix Pix2Pix {{---}} GitHub]</ref>]]

=== Обучение на независимых множествах ===

'''Алгоритм трансляции изображений, обученный на двух независимых множествах''' — это такой алгоритм трансляции изображений, тренировочные данные которого состоят из двух независимых групп, описывающих свой стиль, цель которого научиться отображать одну группу в другую так, чтобы содержание изображений (общее) сохранялось, а стиль (уникальные элементы изображений) переносился.

Пример:
* тренировочные данные {{---}} два множества: <code>{реальные фотографии}, {картины К. Моне}</code>;
* приложение {{---}} взяли любую фотографию, например, поле с цветами; получили поле с цветами в стиле К. Моне.

[[File:Examples_unpaired_translation.jpeg|700px|center|thumb|Рис. 4. Примеры применения алгоритма трансляции изображений, обученном на двух независимых множествах. (CycleGan)<ref name="cycle">[https://github.com/junyanz/CycleGAN CycleGAN {{---}} GitHub]</ref>]]

== Pix2Pix ==

Pix2Pix<ref name="pix">[https://github.com/phillipi/pix2pix Pix2Pix {{---}} GitHub]</ref> {{---}} это подход для трансляции изображений с помощью глубоких [[:Сверточные нейронные сети|сверточных нейронных сетей]].

=== Архитектура ===

[[File:Training_CGAN_pix2pix.png|400px|right|thumb|Рис. 5. Пример процесса обучения генератора и дискриминатора для Pix2Pix.]]

Pix2Pix реализует архитектуру [[Generative Adversarial Nets (GAN)#CGAN_.28Conditional_Generative_Adversarial_Nets.29| условных порождающих состязательных сетей ]](англ. CGAN), где для генератора взята архитектура, основанная на U-Net<ref name="unet">[https://sci-hub.do/10.1007/978-3-319-24574-4_28 U-Net: Convolutional Networks for Biomedical Image Segmentation]</ref>, а для дискриминатора используется сверточный классификатор PatchGAN<ref name="patch">[https://sci-hub.do/10.1007/978-3-319-46487-9_43 Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks]</ref>, который штрафует алгоритм на уровне участков изображения.

Генератор CGAN'a работает следующим образом: на вход подается one-hot вектор класса x и вектор шума z, в результате прохода через условный генератор выдается сгенерированное изображение этого класса. Таким образом, генератор можно представить, как следующую функцию: <tex>G: \{x,z\} \to y</tex>. 
Генератор Pix2Pix работает cхожим образом, но вместо вектора класса подается изображение, а вектор шума и вовсе убирается, потому что он не вносит достаточно стохастичности в результат работы генератора.

Генератор обучается создавать максимально правдоподобные выходные изображения, дискриминатор же учится как можно лучше отличать фальшивые изображения от реальных.
==== Генератор ====

[[File:UNet_generator_pix2pix.png|400px|right|thumb|Рис. 6. Архитектура Pix2Pix генератора.]]

Для генератора Pix2Pix используется U-net-генератор. 
'''U-net-генератор'''<ref name="unet">[https://sci-hub.do/10.1007/978-3-319-24574-4_28 U-Net: Convolutional Networks for Biomedical Image Segmentation]</ref> {{---}} это модель encoder-decoder с добавлением пропускаемых соединений (англ. ''skip-connections'') между зеркальными слоями в стеках кодировщика и декодера.

Алгоритм работы генератора:
* на вход подается изображение;
* далее последовательно применяются свертка, [[Batch-normalization | батч-нормализация]] (англ. Batch Norm layer), функция активации LeakyReLU и пулинг, что, тем самым, уменьшает количество признаков;
* при этом, следуя архитектуре U-net, добавляются пропускаемые соединения между каждым слоем <tex>i</tex> и слоем <tex>n - i</tex>, где <tex>n</tex> {{---}} общее количество слоев; каждое пропускаемое соединение просто объединяет все каналы на уровне <tex>i</tex> с другими на слое <tex>n - i</tex>; таким образом, информация, которая могла быть сильно сжата (потеряна), может доходить до некоторых более поздних слоев;
* после того, как получен слой минимального размера, начинается работа декодера, который делает то же, что и кодировщик, с отличием в слое, обратном пулингу, который увеличивает количество признаков;
* также в декодере добавляется dropout, чтобы достигнуть стохастичности на выходе генератора.

Генератор должен не только обмануть дискриминатор, но и приблизиться к истине, поэтому его '''функция ошибки''' выглядит следующим образом: 
<tex>L(G) = BCE\,Loss + \lambda*\sum_{i=1}^{n}|generated\_output - real\_output|</tex>

==== Дискриминатор ====

[[File:The-PatchGAN-structure-in-the-discriminator-architecture.png|400px|right|thumb|Рис. 7. Архитектура PatchGAN дискриминатора.]]

Для дискриминатора данной сети используется сверточный дискриминатор PatchGAN.

'''PatchGAN дискриминатор'''<ref name="patch">[https://sci-hub.do/10.1007/978-3-319-46487-9_43 Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks]</ref> {{---}} это тип дискриминатора для генеративных состязательных сетей, который штрафует алгоритм на уровне локальных фрагментов (патчей). 
Дискриминатор PatchGAN пытается определить, является ли каждый фрагмент размера <tex>N\times N</tex> изображения настоящим или поддельным. Этот дискриминатор сверточно запускается по изображению, усредняя все ответы, чтобы посчитать окончательный результат <tex>D</tex>. 
Проще говоря, для каждого фрагмента определяется матрица классификаций, где все значения находятся в промежутке <tex>[0,1]</tex>, где <tex>0</tex> {{---}} подделка. Проходясь сверткой, в итоге получаем конечную матрицу классификаций. Таким образом, для поддельного изображения от генератора PatchGan должен попытаться вывести матрицу нулей. 
Интересно, что <tex>N</tex> может быть намного меньше полного размера изображения и при этом давать результаты высокого качества. Это выгодно, потому что меньший PatchGAN имеет меньше параметров, работает быстрее и может применяться к изображениям большого размера. 
Такой дискриминатор эффективно моделирует изображение как Марковское случайное поле<ref>[https://en.wikipedia.org/wiki/Markov_random_field Markov random field {{---}} Wikipedia]</ref>, предполагая независимость между пикселями, разделенных диаметром более одного фрагмента.

==== Полное описание архитектуры ====

Для того, чтобы описать полный порядок работы Pix2Pix, обратимся к примеру:

Пусть у вас есть набор пар, состоящий из реальных фотографий и их сегментаций. Задача состоит в том, чтобы научиться генерировать из сегментированных изображений реальные.
* помещается сегментированное изображение в генератор U-Net, и он генерирует некоторый выход;
* дальше сгенерированное изображение соединяется с исходным входным сегментированным изображением, и это все идет в PatchGan дискриминатор, который выводит матрицу классификации, состоящую из значений между 0 и 1, которая показывает, насколько реальны или поддельны разные части этого изображения;
* затем для вычисления ошибки дискриминатора проводится 2 сравнения:
** сравнение матрицы классификации от {объединения сгенерированного изображения с исходным входным сегментированным изображением} с матрицей из всех 0;
** матрицы классификация от {объединения реального изображения с исходным входным сегментированным изображением } с матрицей из всех 1;
* затем для вычисления ошибки генератора проводится сравнение матрицы классификации от {объединения сгенерированного изображения с исходным входным изображением} с матрицей из всех 1, которое считается с помощью BCE Loss, которое впоследствии суммируется с попиксельным сравнением реального изображения со сгенерированным, домноженным на <tex>\lambda</tex>;

[[File:Pix2pix-UNet-128-GAN-network-architecture.png|700px|center|thumb|Рис. 8. Архитектура Pix2Pix.]]

=== Примеры ===

[[File:Pix2pix_examples.png|800px|right|thumb|Рис. 9. Примеры Pix2Pix.]]

Для тестирования решения были проведены следующие эксперименты:
* сегментированные изображения <tex>\leftrightarrow</tex> фотографии;
* нарисованная карта <tex>\leftrightarrow</tex> фотоснимок;
* черно-белые фотографии <tex>\to</tex> цветные фотографии;
* линии-края <tex>\to</tex> фотографии;
* эскизы-рисунки <tex>\to</tex> фотографии;
* день <tex>\to</tex> ночь;
и так далее.

== Pix2PixHD ==

[[File:Generator_pix2pixhd.png|400px|right|thumb|Рис. 10. Генератор Pix2PixHD. <ref name="towardsdatascience">[https://towardsdatascience.com/pix2pix-869c17900998]</ref>]]

Pix2PixHD<ref name="Pix2PixHD">[https://github.com/NVIDIA/pix2pixHD Pix2PixHD {{---}} GitHub]</ref>{{---}} нейронная сеть, основанная на архитектуре Pix2Pix, которая является новым удачным подходом для решения задачи получения изображений высокого разрешения из сегментированных изображений.

Основа Pix2Pix была улучшена за счет изменений в генераторе, дискриминаторе и функции ошибки.

'''Генератор''' был разбит на две подсети <tex>G_1</tex> и <tex>G_2</tex> так, что первая приняла роль глобальной сети генератора, а вторая стала локальным усилителем сети. Таким образом, генератор стал задаваться набором <tex>G = \{G1, G2\}</tex>. Глобальная сеть генератора работает с изображениями с разрешением <tex>1024 × 512</tex>, в то время как локальный усилитель сети принимает на вход изображения с разрешением <tex>4 × </tex>размер вывода предыдущей сети. Для получения изображений большего разрешения могут быть добавлены дополнительные локальные усилители сети.

Вместо одного '''дискриминатора''' появилось 3 таких же дискриминатора.

'''Функция ошибки''' была улучшена за счет добавления ошибки в масштабах признаков.

{|align="center"
|-valign="top"
|[[File:City_pix2pixhd.gif|500px|left|thumb|Рис. 11. Пример работы Pix2PixHD {{---}} label-to-streetview.<ref name="Pix2PixHD">[https://github.com/NVIDIA/pix2pixHD Pix2PixHD {{---}} GitHub]</ref>]]
|[[File:Face_pix2pixhd.gif|500px|left|thumb|Рис. 12. Пример работы Pix2PixHD {{---}} label-to-face. <ref name="Pix2PixHD">[https://github.com/NVIDIA/pix2pixHD Pix2PixHD {{---}} GitHub]</ref>]]
|}

== См. также ==
* [[Компьютерное зрение]]
* [[Generative Adversarial Nets (GAN)]]
* [[Сверточные нейронные сети]]
* [[Сегментация изображений]]

== Примечания ==
<references />

== Источники информации ==

* [https://arxiv.org/abs/1611.07004 Image-to-Image Translation with Conditional Adversarial Networks]
* [https://arxiv.org/abs/1711.11585 High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs]
* [https://arxiv.org/abs/1805.03189 Learning image-to-image translation using paired and unpaired training samples]
* [https://arxiv.org/abs/1703.10593v6 Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks]
* [https://www.coursera.org/learn/apply-generative-adversarial-networks-gans/home/welcome Apply Generative Adversarial Networks (GANs) {{---}} Coursera]

[[Категория:Машинное обучение | ]]
[[Категория:Компьютерное зрение | ]]
[[Категория:Сверточные нейронные сети | ]]
[[Категория:Глубокое обучение | ]]
[[Категория:{{BASEPAGENAME}}]]

Викиконспекты - Вклад участника [ru]

Задача трансляции изображений