Изменения

Перейти к: навигация, поиск

Блендинг изображений

2031 байт добавлено, 22:52, 5 января 2021
Ещё немного лоссов
Основная идея генерации изображения {{---}} решение оптимизационной задачи $\mathcal{L}(O, I, S) \longrightarrow min$, где $O$ {{---}} итоговое изображение, $\mathcal{L}(O, I, S)$ {{---}} функция потерь. Такую задачу можно решать градиентным спуском в пространстве изображений используя метод обратного распространения ошибки.
 
{{Определение
|definition =
где $N_l$ {{---}} количество фильтров в $l$-ом слое,
$M_l$ {{---}} количество признаков (высота, умноженная на ширину). Тогда $F^l_{ij}\left[I\right]$ {{---}} $j$-ый признак $i$-го фильтра в $l$-ом слое.}}
 
{{Определение
|definition =
'''Матрица Грама''' (англ. ''Gram matrix'') {{---}} матрица попарных скалярных произведений. В нашем случае матрица отражает корреляцию между выходами фильтров. $G^l\left[I\right] \in \mathcal{R}^{N_l \times N_l} = F^l\left[I\right]F^l\left[I\right]^T$.}}
Рассмотрим метод, предложенный в статье ===[https://rn-unison.github.io/articulos/style_transfer.pdf Image Style Transfer Using Convolutional Neural Networks]<ref name="GEB16">[https://rn-unison.github.io/articulos/style_transfer.pdf Image Style Transfer Using Convolutional Neural Networks] Leon A. Gatys, Alexander S. Ecker, Matthias Bethge (2016)</ref>.  ===Функции потерь===
{{Определение
|definition =
$\mathcal{L}_{content}(I, O, l)$ {{---}} функция потерь содержания на слое $l$. $\mathcal{L}_{content} = \displaystyle\sum_{i, j} (F^l_{ij}\left[I\right] - F^l_{ij}\left[O\right])^2$ {{---}} функция потерь содержания на слое $l$.}} 
{{Определение
|definition =
$\mathcal{L}_{style}(I, O)$ {{---}} функция потерь стиля. $\mathcal{L}_{content} = \displaystyle\sum_l \frac{w_l}{4N_l^2M_l^2} \displaystyle\sum_{i, j} (G^l_{ij}\left[I\right] - G^l_{ij}\left[O\right])^2${{---}} функция потерь стиля,где где $w_l $ {{---}} вклад $l$-го слоя в функцию потерь.}}
Итоговой функцией потерь будет $\mathcal{L}_{Gatys} = \alpha\mathcal{L}_{content}(I, O, L) + \beta\mathcal{L}_{style}(I, O)$. Веса \alpha и \beta, последовательность $w_l$ и слой $L$ являются, в некотором смысле, гиперпараметрами алгоритма, которые нужно подбирать<ref name="GEB16"/>.
*'''TODO''': GEB16 Figure 4 (влияние $\alpha$)
*'''TODO''': GEB16 Figure 5 (влияние $L$)
 
===Начальная инициализация градиентного спуска===
Авторы статьи показывают, что в качестве начальной инициализации можно брать изображение $I$, изображение $S$ или белый шум {{---}} алгоритм даёт похожие результаты в этих случаях<ref name="GEB16"/>.
*'''TODO''': GEB16 Figure 6
 
===Histogram Loss===
 
Авторы другой статьи<ref name="WRB17">[https://arxiv.org/pdf/1701.08893.pdf Stable and Controllable Neural Texture Synthesis and Style Transfer Using Histogram Losses] Eric Risser, Pierre Wilmot, Connelly Barnes (2017)</ref> показывают, что результаты, полученные с помощью $\mathcal{L}_{Gatys}$ нестабильны и предложили другую функцию потерь, основанную на ''сопоставлении гистограмм''.
{{Определение
|definition =
'''Сопоставление гистограмм''' (англ. ''Histogram matching'') {{---}} метод обработки изображения, после которого гистограмма изображения совпадает с целевой гистограммой<ref name="HistMatch">https://en.wikipedia.org/wiki/Histogram_matching</ref>.}}
{{Определение
|definition =
Пусть $R = histmatch(O, S)$ {{---}} отображение пикселей такое, что гистограмма $S$ совпадает с гистограммой $R(O)$.}}
{{Определение
|definition =
$\mathcal{L}_{histogram}(O) = \displaystyle\sum_l \gamma_l \displaystyle\sum_{i, j} (F^l_{ij}\left[O\right] - R(F^l_{ij}\left[O\right]))^2$ {{---}} функция потерь гистограмм, где
$\gamma_l$ {{---}} вклад $l$-го слоя в функцию потерь}}
 
===Total variation loss===
 
Также добавим ещё одну функцию потерь, которая должна делать картинку более гладкой<ref name="MV15">[https://arxiv.org/pdf/1412.0035.pdf Understanding Deep Image Representations by Inverting Them] Aravindh Mahendran, Andrea Vedaldi (2015)</ref><ref name="JAFF16">[https://arxiv.org/pdf/1603.08155.pdf Perceptual Losses for Real-Time Style Transfer and Super-Resolution] Justin Johnson, Alexandre Alahi, Li Fei-Fei (2016)</ref>.
{{Определение
|definition =
$\mathcal{L}_{tv}(O) = \displaystyle\sum_{i, j} (O^l_{i, j} - O^l_{i-1, j}))^2 + (O^l_{i, j} - O^l_{i, j-1}))^2$ {{---}} общая вариационная потеря (англ. ''Total variation loss'').}}
==Глубокая гармонизация картин==
58
правок

Навигация