Изменения

Блендинг изображений

2031 байт добавлено, 22:52, 5 января 2021

Ещё немного лоссов

Основная идея генерации изображения {{---}} решение оптимизационной задачи $\mathcal{L}(O, I, S) \longrightarrow min$, где $O$ {{---}} итоговое изображение, $\mathcal{L}(O, I, S)$ {{---}} функция потерь. Такую задачу можно решать градиентным спуском в пространстве изображений используя метод обратного распространения ошибки.

{{Определение

|definition =

где $N_l$ {{---}} количество фильтров в $l$-ом слое,

$M_l$ {{---}} количество признаков (высота, умноженная на ширину). Тогда $F^l_{ij}\left[I\right]$ {{---}} $j$-ый признак $i$-го фильтра в $l$-ом слое.}}

{{Определение

|definition =

'''Матрица Грама''' (англ. ''Gram matrix'') {{---}} матрица попарных скалярных произведений. В нашем случае матрица отражает корреляцию между выходами фильтров. $G^l\left[I\right] \in \mathcal{R}^{N_l \times N_l} = F^l\left[I\right]F^l\left[I\right]^T$.}}

~~Рассмотрим метод, предложенный в статье~~ ===[https://rn-unison.github.io/articulos/style_transfer.pdf Image Style Transfer Using Convolutional Neural Networks]<ref name="GEB16">[https://rn-unison.github.io/articulos/style_transfer.pdf Image Style Transfer Using Convolutional Neural Networks] Leon A. Gatys, Alexander S. Ecker, Matthias Bethge (2016)</ref>. ~~===Функции потерь~~===

{{Определение

|definition =

$\mathcal{L}_{content}(I, O, l)~~$ {{---}} функция потерь содержания на слое $l$. $\mathcal{L}_{content}~~ = \displaystyle\sum_{i, j} (F^l_{ij}\left[I\right] - F^l_{ij}\left[O\right])^2$ {{---}} функция потерь содержания на слое $l$.}}

{{Определение

|definition =

$\mathcal{L}_{style}(I, O)~~$ {{---}} функция потерь стиля. $\mathcal{L}_{content}~~ = \displaystyle\sum_l \frac{w_l}{4N_l^2M_l^2} \displaystyle\sum_{i, j} (G^l_{ij}\left[I\right] - G^l_{ij}\left[O\right])^2${{---}} функция потерь стиля,где ~~где~~ $w_l $ {{---}} вклад $l$-го слоя в функцию потерь.}}

Итоговой функцией потерь будет $\mathcal{L}_{Gatys} = \alpha\mathcal{L}_{content}(I, O, L) + \beta\mathcal{L}_{style}(I, O)$. Веса \alpha и \beta, последовательность $w_l$ и слой $L$ являются, в некотором смысле, гиперпараметрами алгоритма, которые нужно подбирать<ref name="GEB16"/>.

*'''TODO''': GEB16 Figure 4 (влияние $\alpha$)

*'''TODO''': GEB16 Figure 5 (влияние $L$)

~~===Начальная инициализация градиентного спуска===~~

Авторы статьи показывают, что в качестве начальной инициализации можно брать изображение $I$, изображение $S$ или белый шум {{---}} алгоритм даёт похожие результаты в этих случаях<ref name="GEB16"/>.

*'''TODO''': GEB16 Figure 6

===Histogram Loss===

Авторы другой статьи<ref name="WRB17">[https://arxiv.org/pdf/1701.08893.pdf Stable and Controllable Neural Texture Synthesis and Style Transfer Using Histogram Losses] Eric Risser, Pierre Wilmot, Connelly Barnes (2017)</ref> показывают, что результаты, полученные с помощью $\mathcal{L}_{Gatys}$ нестабильны и предложили другую функцию потерь, основанную на ''сопоставлении гистограмм''.

{{Определение

|definition =

'''Сопоставление гистограмм''' (англ. ''Histogram matching'') {{---}} метод обработки изображения, после которого гистограмма изображения совпадает с целевой гистограммой<ref name="HistMatch">https://en.wikipedia.org/wiki/Histogram_matching</ref>.}}

{{Определение

|definition =

Пусть $R = histmatch(O, S)$ {{---}} отображение пикселей такое, что гистограмма $S$ совпадает с гистограммой $R(O)$.}}

{{Определение

|definition =

$\mathcal{L}_{histogram}(O) = \displaystyle\sum_l \gamma_l \displaystyle\sum_{i, j} (F^l_{ij}\left[O\right] - R(F^l_{ij}\left[O\right]))^2$ {{---}} функция потерь гистограмм, где

$\gamma_l$ {{---}} вклад $l$-го слоя в функцию потерь}}

===Total variation loss===

Также добавим ещё одну функцию потерь, которая должна делать картинку более гладкой<ref name="MV15">[https://arxiv.org/pdf/1412.0035.pdf Understanding Deep Image Representations by Inverting Them] Aravindh Mahendran, Andrea Vedaldi (2015)</ref><ref name="JAFF16">[https://arxiv.org/pdf/1603.08155.pdf Perceptual Losses for Real-Time Style Transfer and Super-Resolution] Justin Johnson, Alexandre Alahi, Li Fei-Fei (2016)</ref>.

{{Определение

|definition =

$\mathcal{L}_{tv}(O) = \displaystyle\sum_{i, j} (O^l_{i, j} - O^l_{i-1, j}))^2 + (O^l_{i, j} - O^l_{i, j-1}))^2$ {{---}} общая вариационная потеря (англ. ''Total variation loss'').}}

==Глубокая гармонизация картин==

Wafemand

58

правок

Изменения

Блендинг изображений

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты