Задача трансляции изображений — различия между версиями

Версия 16:07, 20 января 2021

Эта статья находится в разработке!

Определение:

Задача трансляции изображения (англ. Image-to-image translation) — это задача из области компьютерного зрения, цель которой состоит в том, чтобы научиться строить соответствия между входным и выходным изображениями, используя тренировочные данные.

Другими словами, задача состоит в том, чтобы научиться преобразовывать изображение из одной области в другую, получая в итоге изображение со стилем (характеристиками) последней.

Рис. 1. Пример трансляции изображения: превращение лошади в зебру.^[1]

Содержание

1 Описание задачи
- 1.1 Обучение на парах изображений
- 1.2 Обучение на независимых множествах
2 Pix2Pix
- 2.1 Архитектура
- 2.2 Примеры
3 Pix2PixHD
4 См. также
5 Примечания
6 Источники информации

Описание задачи

Задача разделяется на два типа в зависимости от тренировочных данных.
В одном случае, у нас есть четкое представление результата, который должен получиться, а в другом случае, его нет, но есть множество, определяющее стиль желаемого результата (Рис. 2).

Рис. 2. Виды тренировочных данных для трансляции изображений. ^[2]

Обучение на парах изображений

Алгоритм трансляции изображений, обученный на парах изображений — это алгоритм трансляции одного изображения в другое, где тренировочные данные состоят из множества, в котором каждому входному изображению соответствует выходное изображение, содержащее первое с другим стилем.

Примерами приложения этого алгоритма являются следующие трансляции изображений:

черно-белое изображение — цветное;
сегментация изображения (англ. segmentation map) — реальная картинка;
линии-края (англ. edges) — фотография;
генерация разных поз и одежды на человеке;
описывающий изображение текст — фотография.

Некоторые примеры изображены на Рис. 3.

Рис. 3. Примеры применения алгоритма трансляции изображений, обученном на парных тренировочных данных. (Pix2Pix)^[3]

Обучение на независимых множествах

Алгоритм трансляции изображений, обученный на двух независимых множествах — это такой алгоритм трансляции изображений, тренировочные данные которого состоят из двух независимых групп, описывающих свой стиль, цель которого научиться отображать одну группу в другую так, чтобы содержание изображений (общее) сохранялось, а стиль (уникальные элементы изображений) переносился.

Пример:

тренировочные данные — два множества: {реальные фотографии}, {картины К. Моне};
приложение — взяли любую фотографию, например, поле с цветами; получили поле с цветами в стиле К. Моне.

Рис. 4. Примеры применения алгоритма трансляции изображений, обученном на двух независимых множествах. (CycleGan)^[1]

Pix2Pix

Pix2Pix^[3] — это подход для трансляции изображений с помощью глубоких сверточных нейронных сетей.

Архитектура

Рис. 5. Пример процесса обучения генератора и дискриминатора для Pix2Pix. ^[4]

Pix2Pix реализует архитектуру условных порождающих состязательных сетей (англ. CGAN), где для генератора взята архитектура, основанная на U-Net^[5], а для дискриминатора используется сверточный классификатор PatchGAN^[6], который штрафует алгоритм на уровне участков изображения.

Генератор CGAN'a работает следующим образом: на вход подается one-hot вектор класса x и вектор шума z, в результате прохода через условный генератор выдается сгенерированное изображение этого класса. Таким образом, генератор можно представить, как следующую функцию: [math]G: \{x,z\} \to y[/math].
Генератор Pix2Pix работает cхожим образом, но вместо вектора класса подается изображение, а вектор шума и вовсе убирается, потому что он не вносит достаточно стохастичности в результат работы генератора.

Генератор обучается создавать максимально правдоподобные выходные изображения, дискриминатор же учится как можно лучше отличать фальшивые изображения от реальных.

Генератор

Рис. 6. Архитектура Pix2Pix генератора. ^[7]

Для генератора Pix2Pix используется U-net-генератор.
U-net-генератор^[5] — это модель encoder-decoder с добавлением пропускаемых соединений (англ. skip-connections) между зеркальными слоями в стеках кодировщика и декодера.

Алгоритм работы генератора:

на вход подается изображение;
далее последовательно применяются свертка, батч-нормализация (англ. Batch Norm layer), функция активации LeakyReLU и пулинг, что, тем самым, уменьшает количество признаков;
при этом, следуя архитектуре U-net, добавляются пропускаемые соединения между каждым слоем [math]i[/math] и слоем [math]n - i[/math], где [math]n[/math] — общее количество слоев; каждое пропускаемое соединение просто объединяет все каналы на уровне [math]i[/math] с другими на слое [math]n - i[/math]; таким образом, информация, которая могла быть сильно сжата (потеряна), может доходить до некоторых более поздних слоев;
после того, как получен слой минимального размера, начинается работа декодера, который делает то же, что и кодировщик, с отличием в слое, обратном пулингу, который увеличивает количество признаков;
также в декодере добавляется dropout, чтобы достигнуть стохастичности на выходе генератора.

Генератор должен не только обмануть дискриминатор, но и приблизиться к истине, поэтому его функция ошибки выглядит следующим образом:
[math]L(G) = BCE\,Loss[/math]^[8] , где — попиксельная разница.

Дискриминатор

Рис. 7. Архитектура PatchGAN дискриминатора. ^[9]

Для дискриминатора данной сети используется сверточный дискриминатор PatchGAN.

PatchGAN дискриминатор^[6] — это тип дискриминатора для генеративных состязательных сетей, который штрафует алгоритм на уровне локальных фрагментов (патчей).
Дискриминатор PatchGAN пытается определить, является ли каждый фрагмент размера [math]N\times N[/math] изображения настоящим или поддельным. Этот дискриминатор сверточно запускается по изображению, усредняя все ответы, чтобы посчитать окончательный результат [math]D[/math].
Проще говоря, для каждого фрагмента определяется матрица классификаций, где все значения находятся в промежутке [math][0,1][/math], где [math]0[/math] — подделка. Проходясь сверткой, в итоге получаем конечную матрицу классификаций. Таким образом, для поддельного изображения от генератора PatchGan должен попытаться вывести матрицу нулей.
Интересно, что [math]N[/math] может быть намного меньше полного размера изображения и при этом давать результаты высокого качества. Это выгодно, потому что меньший PatchGAN имеет меньше параметров, работает быстрее и может применяться к изображениям большого размера.
Такой дискриминатор эффективно моделирует изображение как Марковское случайное поле^[10], предполагая независимость между пикселями, разделенных диаметром более одного фрагмента.

Полное описание архитектуры

Для того, чтобы описать полный порядок работы Pix2Pix, обратимся к примеру:

Пусть у вас есть набор пар, состоящий из реальных фотографий и их сегментаций. Задача состоит в том, чтобы научиться генерировать из сегментированных изображений реальные.

помещается сегментированное изображение в генератор U-Net, и он генерирует некоторый выход;
дальше сгенерированное изображение соединяется с исходным входным сегментированным изображением, и это все идет в PatchGan дискриминатор, который выводит матрицу классификации, состоящую из значений между 0 и 1, которая показывает, насколько реальны или поддельны разные части этого изображения;
затем для вычисления ошибки дискриминатора проводится 2 сравнения:
- сравнение матрицы классификации от {объединения сгенерированного изображения с исходным входным сегментированным изображением} с матрицей из всех 0;
- матрицы классификация от {объединения реального изображения с исходным входным сегментированным изображением} с матрицей из всех 1;
затем для вычисления ошибки генератора проводится сравнение матрицы классификации от {объединения сгенерированного изображения с исходным входным изображением} с матрицей из всех 1, которое считается с помощью BCE Loss, которое впоследствии суммируется с попиксельным сравнением реального изображения со сгенерированным, домноженным на [math]\lambda[/math];

Рис. 8. Архитектура Pix2Pix. ^[11]

Примеры

Для тестирования решения были проведены следующие эксперименты:

сегментированные изображения [math]\leftrightarrow[/math] фотографии;
нарисованная карта [math]\leftrightarrow[/math] фотоснимок;
черно-белые фотографии [math]\to[/math] цветные фотографии;
линии-края [math]\to[/math] фотографии;
эскизы-рисунки [math]\to[/math] фотографии;
день [math]\to[/math] ночь;

и так далее.

Рис. 9. Примеры Pix2Pix. ^[12]

Pix2PixHD

Рис. 10. Генератор Pix2PixHD. ^[4]

Pix2PixHD^[13]— нейронная сеть, основанная на архитектуре Pix2Pix, которая является новым удачным подходом для решения задачи получения изображений высокого разрешения из сегментированных изображений.

Основа Pix2Pix была улучшена за счет изменений в генераторе, дискриминаторе и функции ошибки.

Генератор был разбит на две подсети [math]G_1[/math] и [math]G_2[/math] так, что первая приняла роль глобальной сети генератора, а вторая стала локальным усилителем сети. Таким образом, генератор стал задаваться набором [math]G = \{G1, G2\}[/math]. Глобальная сеть генератора работает с изображениями с разрешением [math]1024 × 512[/math], в то время как локальный усилитель сети принимает на вход изображения с разрешением [math]4 × [/math]размер вывода предыдущей сети. Для получения изображений большего разрешения могут быть добавлены дополнительные локальные усилители сети.

Чтобы различать реальные и синтезированные изображения с высоким разрешением, дискриминатор должен иметь большое поле восприятия. Для этого потребуется либо более глубокая сеть, либо более крупные сверточные ядра, оба из которых увеличат емкость сети и потенциально могут вызвать переобучение. Кроме того, оба варианта требуют большего объема памяти для обучения, что уже является дефицитным ресурсом для создания изображений с высоким разрешением. Для решения проблемы предлагаем используется 3 дискриминатора, которые имеют идентичную структуру сети, но работают с разными масштабами изображения^[14].

Функция ошибки была улучшена за счет добавления ошибки в разных масштабах изображения, для вычисления которой будем использовать выдаваемые значения дискриминатора на разных слоях изображения: , где [math]T[/math] — количество слоев, [math]N_i[/math] — количество элементов в каждом слое, [math]s[/math] — исходное сегментированное изображение, [math]x[/math] — соответствующее реальное изображение, [math]G(s)[/math] — сгенерированное изображение.

Рис. 11. Пример работы Pix2PixHD — label-to-streetview.^[13]

Рис. 12. Пример работы Pix2PixHD — label-to-face. ^[13]

См. также

Примечания

Источники информации

[cycle-1] 1,0 ^1,1 CycleGAN — GitHub

[towardsdatascience2-2] CycleGAN — Towardsdatascience

[pix-3] 3,0 ^3,1 Pix2Pix — GitHub

[towardsdatascience-4] 4,0 ^4,1 Pix2Pix — Towardsdatascience

[unet-5] 5,0 ^5,1 U-Net: Convolutional Networks for Biomedical Image Segmentation

[patch-6] 6,0 ^6,1 Precomputed Real-Time Texture Synthesis with Markovian Generative Adversarial Networks

[machinelearningmastery-7] Pix2Pix GAN Models — Machine Learning Mastery

[8] BCE Loss — towardsdatascience

[researchgate-9] The PatchGAN structure — ResearchGate

[10] Markov random field — Wikipedia

[researchgate2-11] Pix2pix UNet_128 GAN network architecture — ResearchGate

[12] Sik-Ho Tsang

[Pix2PixHD-13] 13,0 ^13,1 ^13,2 Pix2PixHD — GitHub

[Pix2PixHDPaper-14] High-Resolution Image Synthesis and Semantic Manipulation with Conditional GANs

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

@@ Строка 91: / Строка 91: @@
 * затем для вычисления ошибки дискриминатора проводится 2 сравнения:
 ** сравнение матрицы классификации от {объединения сгенерированного изображения с исходным входным сегментированным изображением} с матрицей из всех 0;
-** матрицы классификация от {объединения реального изображения с исходным входным сегментированным изображением } с матрицей из всех 1;
+** матрицы классификация от {объединения реального изображения с исходным входным сегментированным изображением} с матрицей из всех 1;
 * затем для вычисления ошибки генератора проводится сравнение матрицы классификации от {объединения сгенерированного изображения с исходным входным изображением} с матрицей из всех 1, которое считается с помощью BCE Loss, которое впоследствии суммируется с попиксельным сравнением реального изображения со сгенерированным, домноженным на <tex>\lambda</tex>;