Блендинг изображений

Определение:

Блендинг изображений (англ. image blending) — метод, позволяющий вставить часть одного изображения в другое таким образом, чтобы композиция изображений выглядела естественно, без швов на границах вставки и соответсвующими цветами и текстурами.

Блендинг Пуассона

Рис. $1.1$. Пример перепада яркости при простой вставке

Рис. $1.2$. Результат применения блендинга Пуассона

Простая вставка одного изображения поверх другого нередко влечет заметный перепад яркости на границе вставки (рис. $1.1$). Метод Пуассона заключается в сглаживании этого перепада (рис. $1.2$) с целью сделать дефект менее заметным, используя градиент вставляемого изображения и значения пикселей фонового изображения на границе вставки.

Замечание: Для RGB изображений задача минимизации решается для каждого цветового канала отдельно.

Давайте обозначим за $S$ изображение, которое служит фоном, а за $I$ — изображение, вставляемое поверх $S$. Область вставки будем задавать двоичной маской $M$, содержащей единицы в области наложения. Например:

Фоновое изображение $S$	Накладываемое изображение $I$	Маска $M$

Идея подхода

Пусть замкнутое множество $P \subset \mathbb{R}^2$ — область, на которой определено изображение $S$, а замкнутое множество $\Omega \subset P$ с границей $\partial\Omega$ и внутренностью $int(\Omega)$ — область вставки изображения $I$.

Пусть $f_S$ — скалярная функция, определенная на $P \setminus int(\Omega)$, задает фоновое изображение $S$; $f$ — неизвестная скалярная функция, определенная на $int(\Omega)$, задает, каким образом должно выглядеть результат блендинга в области вставки.

$v_I$ — векторное поле, определенное на $\Omega$. В качестве $v_I$ возьмем градиент вставляемого изображения $I$: $v_I = \nabla f_I$.

Нашей задачей является поиск такой функции $f$, чтобы блендинговое изображение выглядело реалистично. Для этого минимизируем разность градиента функции $f$ и векторного поля $v_I$, считая, что $f = f_S$ на границе $\Omega$. $$ \underset{f}{\mathrm{min}} \underset{\Omega}{\iint} |\nabla f - v_I|^2, \text{где } f|_{\partial \Omega} = f_S|_{\partial \Omega}. $$ Решение задачи минимизации является единственным решением уравнения Пуассона для граничных условий Дирихле. $$\nabla^2 f = \nabla^2 f_I \text{ на } \Omega, f|_{\partial \Omega} = f_S|_{\partial \Omega}, \text{где } \nabla^2 \text{— оператор Лапласа.}$$

Дискретный случай

Пусть $p$ — координаты $(x, y)$ пикселя двухмерного изображения. За $Img_p$ обозначим значение пикселя с координатами $p$ изображения $Img$. Пусть $\Omega = \left\{ p\;|\;M_p = 1 \right\}$. Тогда $\partial \Omega$ — координаты границы вставляемой области, а $int(\Omega)$ — внутренность области.

Пусть $N_p$ — множество соседей $p$ (максимум четыре пикселя, имеющих общую границу с $p$, т.е. пиксели со следующими координатами: $(x + 1, y), (x - 1, y), (x, y + 1), (x, y - 1)$). Для всех пар $(p, q)$ таких, что $q \in N_p$, введем $v_{pq} = I_p - I_q$.

Введем переменные $O_p, p \in \Omega$. Так как мы хотим сделать результат бесшовным, пиксели $O_p, p \in \partial\Omega$, сделаем равными $S_p$. Для $p, q \in int(\Omega),\; q \in N_p$ постараемся найти такое $O$, чтобы разность $O_p$ и $O_q$ была близка к $v_{pq}$. Для этого решим задачу минимизации:

$$ \underset{O_p,\; p \in \Omega}{\mathrm{min}}\; \underset{p, q \in \Omega}{\sum}\; \left(O_p - O_q - v_{pq}\right)^2, \text{где } O_p = S_p, p \in \partial \Omega. $$

Заметим, что функция, которую мы хотим минимизировать, квадратична относительно переменных $O_p, p \in int(\Omega)$. Для решения задачи минимизации вычислим частные производные по этим переменным и найдем значения переменных, при которых частные производные будут равны нулю. $$\frac{\partial{\underset{p, q \in \Omega}{\sum}\; \left(O_p - O_q - v_{pq}\right)^2}}{\partial O_p} = \underset{q \in N_p}{\sum} 2 \left(O_p - O_q - v_{pq}\right) - \underset{q \in N_p}{\sum} 2 \left(O_q - O_p - v_{qp}\right) = 2 \underset{q \in N_p}{\sum} 2 \left(O_p - O_q - v_{pq}\right).$$

Приравнивая к нулю, получаем: $|N_p| O_p - \underset{q \in N_p}{\sum} O_q = \underset{q \in N_p}{\sum} v_{pq}$.

Добавим условие $O_p = S_p, p \in \partial \Omega$: $\;|N_p| O_p - \underset{q \in N_p \cap int(\Omega)}{\sum} O_q = \underset{q \in N_p \cap \partial \Omega}{\sum} S_q + \underset{q \in N_p}{\sum} v_{pq}$.

Для решения систем уравнений такого вида могут быть использованы итеративные алгоритмы Gauss-Seidel и V-cycle multigrid^[1].

Получаем значения пикселей $O_p$, $p \in int(\Omega)$. Тогда результат $B$ блендинга Пуассона будет следующим: $$ B_p = \begin{cases} O_p,\; \text{если } p \in int(\Omega) \\ S_p,\; \text{иначе } \end{cases}. $$

Mетод Пуассона сдвигает цвета накладываемого изображения, сохраняя свойства градиента (т.е. если пиксель $I_{p1}$ был меньше $I_{p2}$, то после преобразования $I_{p1}$ не станет больше $I_{p2}$), однако само значение градиета может получиться другим.^[2]

Нейронный перенос стиля

Основная статья: Neural Style Transfer

Прежде чем переходить к гармонизации картин, рассмотрим задачу нейронного переноса стиля с изображения $S$ на изображение $I$. Для этого используются выходы скрытых слоёв свёрточной нейронной сети VGG-19^[3] (конкретные слои будут указаны ниже).

Основная идея генерации изображения — решение оптимизационной задачи $\mathcal{L}(I, S, O) \xrightarrow[O]{} min$, где $O$ — итоговое изображение, $\mathcal{L}(I, S, O)$ — функция потерь. Такую задачу можно решать градиентным спуском в пространстве изображений используя метод обратного распространения ошибки.

Определение:

Пусть $F^l\left[I\right] \in \mathcal{R}^{N_l \times M_l}$ — матрица значений выхода $l$-го слоя сети на изображении $I$. Выход $l$-го слоя сети имеет размерность $N_l \times W_l \times H_l$. Представим его как матрицу $N_l \times M_l$, где $N_l$ — количество фильтров в $l$-ом слое, $M_l$ — количество признаков ($M_l = W_l H_l$). Тогда $F^l_{ij}\left[I\right]$ — $j$-ый признак $i$-го фильтра в $l$-ом слое. Столбец матрицы $F^l\left[I\right]$ размера $N_l$ назовём вектором активации.

Определение:

Матрица Грама (англ. Gram matrix) — матрица попарных скалярных произведений.

$$G^l\left[S\right] \in \mathcal{R}^{N_l \times N_l},$$

$$G^l\left[S\right] = F^l\left[S\right]F^l\left[S\right]^T.$$

Далее рассмотренны функции потерь, которые мы будем использовать.

Content loss

$F^l\left[I\right]$ отражает содержание изображения. Мы хотим чтобы содержание результата было как можно ближе к исходной картинке. Введём для этого такую функцию потерь: $$\mathcal{L}_{content}(I, O) = \displaystyle\sum_l \frac{\alpha_l}{2 N_l M_l}\displaystyle\sum_{i, j} \left(F^l_{ij}\left[I\right] - F^l_{ij}\left[O\right]\right)^2,$$ где $\alpha_l$ — вклад $l$-го слоя в функцию потерь.

Style loss

$G^l\left[S\right]$ отражает статистику выходов фильтров независимо от их расположения, что, в свою очередь, отражает стиль изображения. Чтобы стиль результата был похож на стилевое изображение, введём следующую функцию потерь: $$\mathcal{L}_{style}(S, O) = \displaystyle\sum_l \frac{\beta_l}{2N_l^2} \displaystyle\sum_{i, j} \left(G^l_{ij}\left[S\right] - G^l_{ij}\left[O\right]\right)^2,$$ где $\beta_l$ — вклад $l$-го слоя в функцию потерь.

Gatys' loss

Скомбинируем $\mathcal{L}_{content}$ и $\mathcal{L}_{style}$ и получим функцию потерь, которая была использована в алгоритме Гатиса^[4]: $$\mathcal{L}_{Gatys}(I, S, O) = \mathcal{L}_{content}(I, O) + w_{style}\mathcal{L}_{style}(S, O).$$ Вес $w_{style}$, векторы $\alpha$ и $\beta$ являются, в некотором смысле, гиперпараметрами алгоритма, которые мы выберем позднее.

Histogram Loss

Авторы другой статьи^[5] показывают, что результаты, полученные с помощью $\mathcal{L}_{Gatys}$ нестабильны и предложили учитывать ещё одну функцию потерь, основанную на сопоставлении гистограмм.

Определение:

Сопоставление гистограмм (англ. Histogram matching) — метод обработки изображения, после которого гистограмма изображения совпадает с целевой гистограммой^[6].

Пусть $R = histmatch(S, O)$ — отображение пикселей такое, что гистограмма $S$ совпадает с гистограммой $R(O)$, тогда Histogram loss будет выглядеть так: $$\mathcal{L}_{hist}(S, O) = \displaystyle\sum_l \gamma_l \displaystyle\sum_{i, j} \left(F^l_{ij}\left[O\right] - R\left(F^l_{ij}\left[O\right]\right)\right)^2,$$ где $\gamma_l$ — вклад $l$-го слоя в функцию потерь.

Замечание: Если в случае остальных функций потерь нетрудно посчитать производную, то здесь могут возникнуть проблемы. Но поскольку $\displaystyle\frac{\partial \mathcal{L}_{hist}}{\partial F^l_{ij}\left[O\right]}$ является нулём почти везде, авторы предлагают при подсчёте производной считать $R\left(F^l_{ij}\left[O\right]\right)$ константой, которая не зависит от $O$.

Total variation loss

Также добавим ещё одну функцию потерь, которая удаляет шумы, при этом сохраняя важные детали изображения^[7]^[8]:

$$\mathcal{L}_{tv}(O) = \displaystyle\sum_{i, j} \left(O^l_{i, j} - O^l_{i-1, j}\right)^2 + \left(O^l_{i, j} - O^l_{i, j-1}\right)^2.$$

Глубокая гармонизация картин

Для того чтобы вставить изображение в картину или рисунок нужно не только сделать бесшовный переход и изменить цвета, но ещё и изменить текстуру вставляемого изображения, например, сымитировать мазки кистью. Используем для этого комбинацию подходов из других статей^[4]^[8]^[5].

Пример работы алгоритма Deep Image Analogy^[9] ($3$ картинка) и Deep Painterly Harmonization^[10] ($4$ картинка)

Алгоритм состоит из двух проходов. Первый проход делает грубую гармонизацию, а второй — более тщательную. Отличаются они стилевым маппингом и функциями потерь^[10].

Определение:

Стилевым маппингом назовём отображение $P : \mathcal{R}^{N_l \times M_l} \rightarrow \mathcal{R}^{N_l \times M_l}$, которое некоторым образом переставляет столбцы матрицы (не обязательно обратимо, то есть столбцы могут теряться и копироваться). Более формально, пусть $p(j)$ — новая позиция столбца $j$, тогда $P(Q)_{i, p(j)} = Q_{ij}$.

Один проход состоит из $3$ частей:

Входное $I$ и стилевое $S$ изображения подаются на вход нейронной сети VGG-19, так мы получаем $F^l_{ij}\left[I\right]$ и $F^l_{ij}\left[S\right]$.
Для каждого слоя $l$ некоторым алгоритмом $\pi$ cтроится стилевой маппинг $P_l$, который сопоставляет столбцам из $F_l[I]$ столбцы из $F_l[S]$.
Изображение $O$ восстанавливается градиентным спуском по пространству изображений с использованием функции потерь $\mathcal{L}$.

 fun $SinglePassHarmonization$(
   $I$,// Входное изображение 
   $M$,// Маска 
   $S$,// Стилевое изображение 
   $\pi$,// Алгоритм построения стилевого маппинга 
   $\mathcal{L}$// Функция потерь 
 ):
   // Строим матрицы $F[I]$ и $F[S]$ с помощью свёрточной сети VGG-19 
   $F[I] \leftarrow ComputeNeuralActivations(I)$
   $F[S] \leftarrow ComputeNeuralActivations(S)$
   // Строим стилевой маппинг 
   $P \leftarrow \pi(F[I], M, F[S])$
   // Градиентным спуском ищем изображение $O$, которое минимизирует $\mathcal{L}$ 
   $O \leftarrow Reconstruct(I, M, S, P, \mathcal{L})$
   return $O$

Первый проход

Определение:

Патчем (англ. patch) для столбца $j$ будем называть тензор $3 \times 3 \times N_l$, который состоит из соседних векторов активации в тензоре выхода свёрточного слоя, с центром в $(x, y)$, где $j = y W_l + x$.

Результаты после второго прохода

Результаты после первого прохода

Первый проход делает грубую гармонизацию, но при этом он хорошо работает с любыми стилями. Здесь используется алгоритм $IndependentMapping$ для построения стилевого маппинга. Этот алгоритм для каждого столбца $j$ в $F_l[I]$ ищет столбец $p(j)$ в $F_l[S]$, такой что евклидово расстояние между патчем $F_l[I]$ с центром $j$ и патчем $F_l[S]$ с центром $p(j)$ минимально (метод ближайшего соседа).

 fun $IndependentMapping$(
   $F[I]$,// Выходы слоёв после входного изображения 
   $Mask$,// Маска 
   $F[S]$// Выходы слоёв после стилевого изображения 
 ):
   // Для всех слоёв от $1$ до $L$ 
   for $l \in [1 : L]$: 
     // Для всех столбцов от $1$ до $M_l$ 
     for $j \in [1 : M_l]$:
       // Рассматриваем патчи только внутри маски, которую нужно масштабировать в соответсвии с размером слоя $l$ 
       if $j \in Resize(Mask, l)$:
         // Берём самый похожий стилевой патч и записываем его в маппинг.  
         $P_l(j) \leftarrow NearestNeighborIndex(F[I], j, F[S])$
   return $P$

В первом проходе используется модифицированная функция потерь $\mathcal{L}_{Gatys}$, с тем лишь отличием, что в $\mathcal{L}_{style}$ к $F_l[S]$ применяется стилевой маппинг $P_l$:

$$\mathcal{L}_1(I, S, O, P) = \mathcal{L}_{content}(I, O) + w_{style}\mathcal{L}_{style}(S, O, P).$$

Замечание: при посчёте градиента $\mathcal{L}_{content}$ используются только пиксели внутри маски^[11].

Второй проход

Второй проход делает более качественную гармонизацию после первого прохода. Здесь мы будем использовать более сложный алгоритм $ConsistentMapping$ построения стилевого маппинга и более сложную функцию потерь. Суть этого алгоритма в том, чтобы найти стилевой мапинг на некотором слое $l_{ref}$ и перенести этот маппинг на остальные слои. Также, мы будем предпочитать маппинги, в которых смежные патчи в $F_l[S]$ остаются смежными после мапинга, чтобы обеспечить пространсвенную согласованность (таким образом мы хотим переносить сложные текстуры более качественно, например, мазки кистью).

 fun $ConsistentMapping$(
   $F[I]$,// Выходы слоёв после входного изображения 
   $Mask$,// Маска 
   $F[S]$// Выходы слоёв после стилевого изображения 
 ):
   // Сначала посчитаем маппинг как в IndependentMapping только для слоя $l_{ref}$ 
   for $j \in [1 : M_{l_{ref}}]$:
     if $j \in Resize(Mask, l_{ref})$:
       $P_0(j) \leftarrow NearestNeighborIndex(F[I], j, F[S])$
 
   // Далее обеспечиваем пространсвенную согласованность 
   for $j \in [1 : M_{l_{ref}}]$:
     if $j \in Resize(Mask, l_{ref})$:
       $q \leftarrow P_0(j)$
       // Инициализируем множество кандидатов на новый маппинг 
       $CSet \leftarrow \{q\}$
       // Перебираем все смежные патчи 
       for $o \in \left\{N, NE, E, SE, S, SW, W, NW\right\}$: 
         // Добавляем в кандидаты патч, сосед которого является маппингом для нашего соседа в соответсвующем направлении 
         $CSet \leftarrow CSet \cup \left\{P_0(j + o) - o\right\}$
       // Среди всех кандидатов выбираем тот, который ближе всего к маппингам наших соседей 
       $P_{l_{ref}}(j) \leftarrow \underset{c \in CSet}{\mathrm{argmin}}\displaystyle\sum_o \left\|(F_{l_{ref}}[S]_c - F_{l_{ref}}[S]_{P_0(j + o)}\right\|^2$
 
   // Теперь нужно перенести маппинг для $l_{ref}$ на остальные слои 
   for $l \in [1 : L] \setminus \{l_{ref}\}$:
     for $j \in [1 : M_l]$:
       if $j \in Resize(Mask, l)$:
         // Вычисляем позицию $j'$ на слое $l_{ref}$ соответствующую позиции $j$ на слое $l$
         $j' \leftarrow ChangeResolution(l, l_{ref}, j)$
         // Берём маппинг для позиции $j'$
         $q \leftarrow P_{l_{ref}}(j')$
         // Переносим позицию $q$ обратно на слой $l$
         $P_l(j) \leftarrow ChangeResolution(l_{ref}, l, q)$
   return $P$

При вычислении стилевого маппинга появляется очень много дублирующихся векторов, что даёт не очень хорошие результаты. Поэтому при вычислении матрицы Грама выкинем повторяющиеся векторы. Назовём функцию потерь с такой модификацией $\mathcal{L}_{s1}$.

$$\mathcal{L}_2(I, S, O, P) = \mathcal{L}_{content}(I, O) + w_{style}\mathcal{L}_{s1}(S, O, P) + w_{hist}\mathcal{L}_{hist}(S, O) + w_{tv}\mathcal{L}_{tv}(O),$$ где $w_{style}, w_{hist}, w_{tv}$ — веса соответсвующих функций потерь.

Только второй проход	Только первый проход	Результат с $\mathcal{L}_{style}$ вместо $\mathcal{L}_{s1}$

Итоговый алгоритм

Теперь осталось запустить две стадии:

 fun $Harmonization$(
   $I$,// Входное изображение 
   $Mask$,// Маска 
   $S$// Стилевое изображение 
 ):
   // Грубый проход алгоритма. Каждый слой рассматривается отдельно при построении стилевого маппинга. 
   $I' \leftarrow SinglePassHarmonization(I, Mask, S, IndependentMapping, \mathcal{L}_1)$
   // Улучшение результата. Стилевой маппинг строится консистентно для всех слоёв. 
   $O  \leftarrow SinglePassHarmonization(I', Mask, S, ConsistentMapping, \mathcal{L}_2)$
   return $O$

Постобработка

Результат постобработки (без постобработки, после первой стадии, после второй стадии)

Описанный алгоритм даёт хорошие результаты в целом, но при ближайшем рассмотрении могут быть артефакты. Поэтому сделаем двухступенчатую постобработку (подробное описание есть в оригинальной статье^[10]):

Переведём изображение в цветовое пространство CIELAB и применим Guided filter для a и b каналов.
С помощью алгоритма PatchMatch^[12] и того же Guided filter делаем так, чтобы все патчи выходного изображения присутсвовали в стилевом (чтобы не было новых объектов или структур).

Подбор гиперпараметров

Влияние $l_{ref}$ на результат

Возьмём $l_{ref}$ = conv4_1. Выберем следующие веса для слоёв:

Первый проход
Параметр	conv1_1	conv2_1	conv3_1	conv4_1	conv5_1
$\alpha$	$0$	$0$	$0$	$1$	$0$
$\beta$	$0$	$0$	$1/3$	$1/3$	$1/3$

Второй проход
Параметр	conv1_1	conv2_1	conv3_1	conv4_1	conv5_1
$\alpha$	$0$	$0$	$0$	$1$	$0$
$\beta$	$1/4$	$1/4$	$1/4$	$1/4$	$0$
$\gamma$	$1/2$	$0$	$0$	$1/2$	$0$

Введём гиперпараметр $\tau$ и возьмём $w_{style} = w_{hist} = \tau$, $w_{tv} = \tau\frac{10}{1 + \exp(10^4 * noise(S) - 25)}$, где $noise(S) = \underset{i,j}{\mathrm{med}}\left\{\left(O^l_{i, j} - O^l_{i-1, j}\right)^2 + \left(O^l_{i, j} - O^l_{i, j-1}\right)^2\right\}$^[13].

Для того чтобы подбирать $\tau$ авторы статьи использовали классификатор стилей изображений. Они взяли VGG-19, обучили её классифицировать $18$ различных стилей. Эти стили были разделены на $3$ категории с разными $\tau$. Используя $Softmax$ можно интерполировать необходимый $\tau$ по следующей таблице:

Категория стиля	Примеры стилей	$\tau$
Слабый	Барокко, Высокое Возрождение	$1$
Средний	Абстрактное Искусство, Постимпрессионизм	$5$
Сильный	Кубизм, Экспрессионизм	$10$

Примеры

Исходное изображение	Простая вставка	Результат	Постобработка

Глубокий блендинг

Алгоритм глубокого блендинга состоит из двух этапов. На первом этапе на стилевое изображения $S$ бесшовно накладывается входное изображение $I$, получается подготовительное блендинг-изображение $B$. На втором этапе $B$ модифицируется таким образом, чтобы результат по стилю был похож на $S$.

Будем считать, что на вход подаются изображения, прошедшие предварительную обработку:

Используемая для вставки часть $I$ вырезана с помощью маски.
$M$ и $I$ выровнены относительно $S$.
Размеры матриц, задающих $M, S, I$ совпадают.

Примеры входных данных:

Стилевое изображение $S$
Накладываемое изображение $I$

Определение:

Простой вставкой (англ. copy and paste) $CAP(M, S, I)$ будем назвать изображение, полученное наложением части изображения $I$, заданной маской $M$, на изображение $S$. $CAP(M, S, I) = I \odot M + S \odot (1 - M)$, где $\odot$ — покомпонентное умножение.

Определение:

Дискретный оператор Лапласа (фильтр Лапласа) $\mathbf{D}^2$ — аналог непрерывного оператора Лапласа $\nabla^2$, который позволяет выделять контуры изображения. $$\mathbf{D}^2=\begin{bmatrix}0 & 1 & 0\\1 & -4 & 1\\0 & 1 & 0\end{bmatrix}.$$

Исходное изображение	Применение фильтра Лапласа

Для сохранения контуров изображений $S$ и $I$ в области вставки воспользуемся идеей из метода Пуассона и введём следующую функцию потерь^[14]: $$\mathcal{L}_{grad}(S, I, M, O) = \displaystyle\frac{1}{2HW}\displaystyle\sum_{m=1}^H \displaystyle\sum_{n=1}^W \left[ \mathbf{D}^2 B - \left(\mathbf{D}^2 S + \mathbf{D}^2 I\right) \right]^2_{mn},$$ где $H, W$ — высота и ширина изображений. $B = CAP(M, S, O)$ — блендинговое изображение, оптимизируемое относительно $O$.

Рассмотрим область $\overline{\Omega} = \{\;p \;| \;M_p = 0\; \}$. Заметим, что градиент $I$ в $\overline{\Omega}$ равен нулю. Тогда градиенты $S$ и $B$ совпадают, и задача минимизации $\mathcal{L}_{grad}$ решается только в области вставки.

На обоих этапах алгоритм минимизирует взвешенную сумму следующих функций потерь:

$\mathcal{L}_{content}$ для сохранения содержания накладываемого изображения $I$.
$\mathcal{L}_{style}$ для переноса стиля изображения $S$ на $I$.
$\mathcal{L}_{hist}$ для стабилизации переноса стиля.
$\mathcal{L}_{tv}$ для удаления шумов.
$\mathcal{L}_{grad}$ для сохранения контуров фона и изображения.

Для подсчета $\mathcal{L}_{style}$ и $\mathcal{L}_{content}$ авторами статьи^[14] использовалась сеть VGG-19^[3], обученная на ImageNet^[15].

Первый этап

На первом этапе изображение $I$ накладывается на фоновое изображение $S$ таким образом, чтобы были незаметны швы. Построение начинается с белого шума $Z$, который оптимизируется в области вставки путем минимизации суммарной функции потерь $\mathcal{L}_{total}$, представленной взвешенной суммой всех функций потерь, описанных выше: $$ \mathcal{L}_{total}(Z) = w_{grad}\mathcal{L}_{grad}(I, S, B) + w_{content}\mathcal{L}_{content}(I, M, Z) + w_{style}\mathcal{L}_{style}(S, B) + w_{tv}\mathcal{L}_{tv}(B) + w_{hist}\mathcal{L}_{hist}(S, B).$$ Отметим, что $\mathcal{L}_{content}$ зависит от маски и отвечает за сохранение содержания $I$ в области вставки.

Отличительной чертой этого этапа является использование функции потерь $\mathcal{L}_{grad}$, приближающей градиент результата к градиенту $I$ в области наложения, за счет чего достигается бесшовность.

В результате получается подготовительное блендинг-изображение $B$.

 fun $SeamlessBlending$(
   $I$,   // Входное изображение 
   $M$,   // Маска 
   $S$    // Стилевое изображение 
 ):
   // Инициализируем первое приближение белым шумом 
   $Z \leftarrow RandomNoise() $
   $B \leftarrow CAP(M, S, Z)$
   // Определим суммарную функцию потерь с весами слагаемых $w$
   $\mathcal{L}_{total}(Z) \leftarrow w_{grad}\mathcal{L}_{grad}(I, S, B) + w_{content}\mathcal{L}_{content}(I, M, Z) + w_{style}\mathcal{L}_{style}(S, B) + w_{tv}\mathcal{L}_{tv}(B) + w_{hist}\mathcal{L}_{hist}(S, B)$
   // С помощью алгоритма L-BFGS ищем изображение $Z$, которое минимизирует $\mathcal{L}_{total}$ 
   $Z \leftarrow Reconstruct(\mathcal{L}_{total}, Z)$
   return $CAP(M, S, Z)$

Второй этап

Второй этап алгоритма представляет собой модификацию полученного на первом этапе блендинг-изображения $B$ таким образом, чтобы стиль изображения был наиболее близок к стилю $S$.

В отличие от предыдущего этапа, функция потерь не включает в себя $\mathcal{L}_{grad}$: $$\mathcal{L}_{total}(O) = w_{content}\mathcal{L}_{content}(B, O) + w_{style}\mathcal{L}_{style}(S, O) + w_{tv}\mathcal{L}_{tv}(O) + w_{hist}\mathcal{L}_{hist}(S, O).$$

Минимизация происходит относительно результата алгоритма $O$, который инициализируется изображением $B$.

 fun $StyleRefinement$(
    $B$,   // Подготовительное блендинг-изображение, результат первого этапа 
    $M$,   // Маска 
    $S$    // Стилевое изображение 
 ):
   $O \leftarrow B$
   // Определим суммарную функцию потерь с весами слагаемых $w$
   $\mathcal{L}_{total}(O) \leftarrow w_{cont}\mathcal{L}_{content}(B, O) + w_{style}\mathcal{L}_{style}(S, O) + w_{tv}\mathcal{L}_{tv}(O) + w_{hist}\mathcal{L}_{hist}(S, O)$
   // С помощью алгоритма L-BFGS ищем изображение $O$, которое минимизирует $\mathcal{L}_{total}$ 
   $O \leftarrow Reconstruct(\mathcal{L}_{total}, O)$
   return $O$

После первого этапа	После обоих этапов

Детали реализации

Веса функций потерь
Этап	$w_{grad}$	$w_{content}$	$w_{style}$	$w_{hist}$	$w_{tv}$
$1$	$10^5$	$1$	$10^5$	$1$	$10^{-6}$
$2$	$0$	$1$	$10^7$	$1$	$10^{-6}$

Для подсчета $\mathcal{L}_{style}$ используются слои conv1_2, conv2_2, conv3_3, conv4_3 $VGG$, для $\mathcal{L}_{content}$ — conv2_2.

На обоих этапах максимальное количество итераций алгоритма L-BFGS — $1000$.

Примеры

См. также

Примечания

↑ Poisson Image Editing Patrick Perez, Michel Gangnet, Andrew Blake (2003)
↑ https://erkaman.github.io/posts/poisson_blending.html Poisson blending для самых маленьких
↑ ^3,0 ^3,1 Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan, Andrew Zisserman (2014)
↑ ^4,0 ^4,1 Image Style Transfer Using Convolutional Neural Networks Leon A. Gatys, Alexander S. Ecker, Matthias Bethge (2016)
↑ ^5,0 ^5,1 Stable and Controllable Neural Texture Synthesis and Style Transfer Using Histogram Losses Eric Risser, Pierre Wilmot, Connelly Barnes (2017)
↑ https://en.wikipedia.org/wiki/Histogram_matching
↑ Understanding Deep Image Representations by Inverting Them Aravindh Mahendran, Andrea Vedaldi (2015)
↑ ^8,0 ^8,1 Perceptual Losses for Real-Time Style Transfer and Super-Resolution Justin Johnson, Alexandre Alahi, Li Fei-Fei (2016)
↑ Visual Attribute Transfer through Deep Image Analogy Jing Liao, Yuan Yao, Lu Yuan, Gang Hua, Sing Bing Kang (2017)
↑ ^10,0 ^10,1 ^10,2 https://arxiv.org/pdf/1804.03189.pdf Fujun Luan, Sylvain Paris, Eli Shechtman, Kavita Bala (2018)
↑ https://github.com/luanfujun/deep-painterly-harmonization/blob/a33a9a70366b6baff1cc0291f857b5895b271fc1/neural_gram.lua#L349
↑ https://www.researchgate.net/profile/Eli_Shechtman/publication/220184392_PatchMatch_A_Randomized_Correspondence_Algorithm_for_Structural_Image_Editing/links/02e7e520897b12bf0f000000.pdf Connelly Barnes, Eli Shechtman, Adam Finkelstein, Dan B Goldman (2009)
↑ [https://github.com/luanfujun/deep-painterly-harmonization/blob/a33a9a70366b6baff1cc0291f857b5895b271fc1/neural_paint.lua#L470 код функции $noise$.
↑ ^14,0 ^14,1 Deep Image Blending Lingzhi Zhang, Tarmily Wen, Jianbo Shi (2020)
↑ https://image-net.org/papers/imagenet_cvpr09.pdf J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. FeiFei. Imagenet: A large-scale hierarchical image database

[PGB03-1] Poisson Image Editing Patrick Perez, Michel Gangnet, Andrew Blake (2003)

[clear_poisson-2] ttps://erkaman.github.io/posts/poisson_blending.html Poisson blending для самых маленьких

[SZ14-3] 3,0 ^3,1 Very Deep Convolutional Networks for Large-Scale Image Recognition Karen Simonyan, Andrew Zisserman (2014)

[GEB16-4] 4,0 ^4,1 Image Style Transfer Using Convolutional Neural Networks Leon A. Gatys, Alexander S. Ecker, Matthias Bethge (2016)

[WRB17-5] 5,0 ^5,1 Stable and Controllable Neural Texture Synthesis and Style Transfer Using Histogram Losses Eric Risser, Pierre Wilmot, Connelly Barnes (2017)

[HistMatch-6] ttps://en.wikipedia.org/wiki/Histogram_matching

[MV15-7] Understanding Deep Image Representations by Inverting Them Aravindh Mahendran, Andrea Vedaldi (2015)

[JAFF16-8] 8,0 ^8,1 Perceptual Losses for Real-Time Style Transfer and Super-Resolution Justin Johnson, Alexandre Alahi, Li Fei-Fei (2016)

[LYY.2A17-9] Visual Attribute Transfer through Deep Image Analogy Jing Liao, Yuan Yao, Lu Yuan, Gang Hua, Sing Bing Kang (2017)

[LPSB18-10] 10,0 ^10,1 ^10,2 https://arxiv.org/pdf/1804.03189.pdf Fujun Luan, Sylvain Paris, Eli Shechtman, Kavita Bala (2018)

[11] ttps://github.com/luanfujun/deep-painterly-harmonization/blob/a33a9a70366b6baff1cc0291f857b5895b271fc1/neural_gram.lua#L349

[BSFG09-12] ttps://www.researchgate.net/profile/Eli_Shechtman/publication/220184392_PatchMatch_A_Randomized_Correspondence_Algorithm_for_Structural_Image_Editing/links/02e7e520897b12bf0f000000.pdf Connelly Barnes, Eli Shechtman, Adam Finkelstein, Dan B Goldman (2009)

[13] [https://github.com/luanfujun/deep-painterly-harmonization/blob/a33a9a70366b6baff1cc0291f857b5895b271fc1/neural_paint.lua#L470 код функции $noise$.

[ZWS20-14] 14,0 ^14,1 Deep Image Blending Lingzhi Zhang, Tarmily Wen, Jianbo Shi (2020)

[ImageNet-15] ttps://image-net.org/papers/imagenet_cvpr09.pdf J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. FeiFei. Imagenet: A large-scale hierarchical image database

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Блендинг изображений

Содержание

Блендинг Пуассона

Идея подхода

Дискретный случай

Нейронный перенос стиля

Content loss

Style loss

Gatys' loss

Histogram Loss

Total variation loss

Глубокая гармонизация картин

Первый проход

Второй проход

Итоговый алгоритм

Постобработка

Подбор гиперпараметров

Примеры

Глубокий блендинг

Первый этап

Второй этап

Детали реализации

Примеры

См. также

Примечания

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты