1632
правки
Изменения
м
[[Файл:inpainting_sample'''Восстановление изображения '''(англ.jpg|thumb|400px|(ainpainting) {{---}} оригинальное изображение, (b) это процесс замены поврежденных частей изображения на реалистичные фрагменты. '''Вписывание части изображения''' {{---}} изображение со стертыми частямиэто подзадача восстановления, (с) {{---}} изображение, полученное в результате подрисовки]]которая опирается на имеющуюся неиспорченную часть изображении для замены поврежденной.
'''Подрисовка Алгоритмы вписывания части изображения применяются для редактирования изображений '''или для их восстановления, если их часть была утрачена или повреждена. С помощью современных моделей можно вырезать ненужные объекты или изменить их внешний вид (англ. inpaintingнапример, поменять цвет глаз у человека) {{---}} процесс замены дефектных частей изображения на реалистичные фрагменты. '''Вписывание части изображения''' - это подзадача подрисовки. Процесс подрисовки обычно опирается на имеющиеся неиспорченные пиксели в изображении для замены поврежденных.
Методы данной области применяются для редактирования изображений или для их восстановления, если их часть была утрачена или подвержена некоторым дефектам. С помощью современных моделей можно вырезать ненужные объекты или изменить их свойство (например, поменять цвет глаз у человека).
== Виды подрисовки ==[[Файл:denoising_sample.jpg|thumb|550px|Рисунок 2. Пример устранения текста, наложенного на изображение. В данном случае текстом покрыто 18.77% площади.<ref>[https://www.researchgate.net/publication/220903053_Fast_Digital_Image_Inpainting Fast Digital Image Inpainting, Manuel M. Oliveira, Brian Bowen, Richard McKenna, Yu-Sung Chang]</ref>]]
[[ФайлВосстановление изображения разделяется на две задачи:denoising_sample* '''Управляемое восстановление изображения''' (англ.jpg|thumb|550px|Пример устранения наложенного текста non-blind inpainting). В этой задаче вместе с изображением подается информация о том, какие пиксели нужно заменить.* '''Слепое восстановление изображения''' (англ. blind inpainting). В решениях данной проблемы модель сама определяет, где на изобрежениеизображении поврежденные пиксели. Модели слепого восстановления чаще всего занимаются устранением шумов (англ. denoising). В данном случае текстом покрыто 18качестве шума, например, может быть наложенный текст (см Рис.77% площади2).]]
Подрисовка обычно разделяется на две задачи:* '''Управляемая подрисовка'''(англ. non-blind inpainting). В этой задаче на вход модели вместе с изображением подается информация о том, какие пиксели нужно заменить.* '''Слепая подрисовка'''(англ. blind inpainting). В решениях данной проблемы модель сама определяет, где на изображении дефектные пиксели. Модели слепой подрисовки чаще всего занимаются устранением шумов (англ. denoising). В качестве шума может быть как примененный фильтр к изображению, так и наложенный текст. Пример работы модели удаления наложенного текста приведен на картинке справаэтом конспекте преимущественно речь пойдет про управляемое восстановление.
В этом конспекте преимущественно речь пойдет про управляемую подрисовку.== Традиционные методы ==
== Простые Для решения данной задачи существует множество различных методов, в том числе простых. Почти все простые методы ==основаны на следующей концепции: заполнение отсутствующих частей пикселями, идентичными соседним пикселям или похожими на них. Такие методы наиболее подходят для задачи устранения шума или небольших дефектов изображения. Но на изображениях, где отсутствует значительная часть данных, эти методы дают плохое качество изображения на выходе.
Для решения данной задачи существуют множество различных методов, в том числе простых. Почти все простые методы основаны на следующей концепции: заполнение отсутствующих частей пикселями, идентичными соседним пикселям или похожими на них. Такие методы часто зависят от множества факторов и наиболее подходят для задачи устранения шума или небольших дефектов изображения. Но на изображениях, где отсутствует значительная часть данных, эти методы дают плохое качество выходного изображения. Есть два основных простых способа восстанавливать данныеметода восстановления данных:# Быстрый пошаговый метод (англ. Fast marching method)<ref>[https://www.researchgate.net/publication/238183352_An_Image_Inpainting_Technique_Based_on_the_Fast_Marching_Method An Image Inpainting Technique Based onthe Fast Marching Method, Alexandru Telea]</ref>. Этот метод двигается от границ области, которую нужно закраситьзаполнить, к ее эпицентруцентру, постепенно закрашивая восстанавливая пиксели. Каждый новый пиксель вычисляется как взвешенная сумма известных соседних пикселей.# Метод Навье-Стокса (англ. Navier-Stokes method)<ref>[https://www.math.ucla.edu/~bertozzi/papers/cvpr01.pdf Navier-Stokes, Fluid Dynamics, and Image and Video Inpainting, M. Bertalmio, A. L. Bertozzi, G. Sapiro]</ref>. Метод основывается на том, что грани границы объектов в на изображении должны быть непрерывными. Цвета Значения пикселей вычисляются из известных областей около гранейвокруг испорченной части. Метод основывается на дифференциальных уравнениях в частных производных.
Современные методы машинного обучения для решения данной задачи часто базируются В отличие от приведенных выше методов, глубокое обучение позволяет в процессе восстановления изображения учитывать его семантику. В этом случае алгоритм заполнения отсутствующих областей основывается на глубоких нейронных сетях для классификации изображенийтом, [[Автокодировщик|автокодировщиках (autoencoder)]] и [[Generative_Adversarial_Nets_(GAN)|генеративно-состязательных сетях (GAN)]]какие объекты расположены на изображении.
Сети В сетях обычно имеют модель используется архитектура [[Автокодировщик|автокодировщиков (англ. autoencoder)]] {{---}} сначала идут слои кодирующие, а потом декодирующие изображение. Функция потерь побуждает заставляет модель изучать другие свойства изображения, а не просто копировать его из входных данных в выходные. Именно это предоставляет возможность позволяет научить модель заполнять недостающие пиксели.
=== Виды сверток ===
Помимо классической свертки в задаче подрисовки широко применяют другие виды сверток<center><tex>L_{percept} = \sum\limits_{q}\frac{\|\Theta_{q}(I_{gen}) - \Theta_{q}(I_{gt})\|}{N_{\Theta_{q}(I_{gt})}} + \sum\limits_{q}\frac{\|\Theta_{q}(I_{comp}) - \Theta_{q}(I_{gt})\|}{N_{\Theta_{q}(I_{gt})}}</tex>, которые дают лучшее качество выходного изображения.</center>
==== Расширенная свертка где <tex>I_{comp}</tex> {{---}} изображение <tex>I_{gen}</tex>, в котором нестертые части заменены на части из <tex>I_{gt}</tex>; <tex>\Theta_{q}(Dilated convolutionx) ====</tex> {{---}} карта признаков, полученная <tex>q</tex>-ым слоем VGG-16.
Похожа * '''Style loss'''. Считает корреляцию между признаками на пуллинг и свертку с шагомкаждом слое, но позволяетчто на самом деле является матрицей Грама<ref>[https:* Экспоненциально расширить рецептивное поле без потери качества //en.wikipedia.org/wiki/Gramian_matrix Gramian matrix, Wikipedia]</ref>. Согласно алгоритму [[Neural Style Transfer|нейронного переноса стиля (англ. Neural Style Transfer, NST)]] матрица Грама содержит информацию о текстуре и цвете изображения* Получить большее рецептивное поле при тех же затратах на вычисления . Таким образом style loss сравнивает сгенерированное и памяти, сохранив качество оригинальное изображенияна схожесть стилей.
Формула отличается от классической только коэффициентом расширения l:
Пример:где <tex>G_q(x) = (\Theta_{q}(I_{x}))^T (\Theta_{q}(I_{x}))</tex> {{---}} матрица Грама для выполнения автокорреляции на карте признаков VGG-16; <tex>C_{q}</tex> {{---}} размерность матрицы Грама.
{| |- |[[Файл:Dilated_convolution* '''Total variation loss'''.png|border|700px|thumb|left|Расширенная сверткаОценивает однородность полученного изображения.]] | 1-, 2- и 4-расширенные свертки с классическими ядрами 3x3, 5x5 и 9x9 соответственно. Красные точки обозначают ненулевые веса, остальные веса ядра равны нулю. Выделенные синие области обозначают рецептивные поля. |}
==== Частичная свертка (Partial convolution) ====
Частичная свертка позволяет решить две проблемы предыдущих подходов глубокого обучения:# Предположение<center><tex>L_{tv} = \sum\limits_{(i,j) \in R}\frac{\|I_{comp}^{i,j+1} - I_{comp}^{i, что испорченные области имеют простую форму j}\|}{N_{I_{comp}}} + \sum\limits_{(прямоугольнуюi,j).# Заполнение испорченной области одним цветом и применение свертки ко всему изображению вне зависимости от того\in R}\frac{\|I_{comp}^{i+1,j} - I_{comp}^{i, какие пиксели испорченыj}\|}{N_{I_{comp}}}</tex>, а какие нет.</center>
Слой свертки состоит из:где <tex>XI_{comp}</tex> {{---}} значения пикселейизображение <tex>I_{gen}</tex>,в котором нестертые части заменены на части из <tex>I_{gt}</tex>M; <tex>N_{I_{comp}}</tex> {{---}} маска, указывающая на то какие пиксели испорчены.количество пикселей в <tex>I_{comp}</tex>
<tex>x* ' = \begin{cases} W^T(X\bigodot M)\frac{sum(1)}{sum(M)}+b, & \mbox{if } sum(M)>0 \\ 0, & \mbox{otherwise} \end{cases}</tex>''Adversarial loss'''. Сравнивает генерируемые и оригинальные границы объектов в изображении.
Поэлементное перемножение <tex>X</tex> и <tex>M</tex> позволяет получить результат, зависящий только от правильных пикселей, а <tex>\frac{sum(1)}{sum(M)}</tex> нормализует этот результат, так как количество правильных пикселей на каждом слое свертки различается.
Маска обновляется так:<center><tex>L_{adv} = \mathbb{E}[\log D(H_{gt}, I_{gray})] + \mathbb{E}[\log (1 - D(H_{gen}, I_{gray}))]</tex>,</center>
Если результат свертки зависел хоть от одного реального пикселя* '''Feature-matching loss'''. Сравнивает изображения по признакам, то на следующем слое свертки результирующий пиксель не будет считаться испорченным. Таким образом с каждым слоем свертки маска заполняется пока не будет полностью заполнена единицамиизвлекаемыми из всех слоев дискриминатора.
==== Стробированная свертка (Gated convolution) ====
Разделение пикселей только на правильные и испорченные не позволяет:# Контролировать восстановление изображения и вносить некоторую дополнительную информацию.# Сохранить информацию об испорченной области<center><tex>L_{FM} = \mathbb{E}[\sum\limits_{i=1}^L \frac{1}{N_i} \|D^{(i)}(H_{gt} - D^{(i)}(H_{gen}))\| ]</tex>, так как постепенно все пиксели становятся правильными.</center>
Вместо жесткой маски, которая обновляется по некоторым правилам, стробированная свертка учится автоматически извлекать маску из данных:где <tex>L</tex> {{---}} количество слоев дискриминатора; <tex>N_i</tex> {{---}} число нейронов на <tex>i</tex>-ом слое дискриминатора; <tex>D^{(i)}</tex> {{---}} значения дискриминатора на слое <tex>i</tex>;
<tex>\begin{array}{rcl} Gating_{yПри обучении обычно используется комбинация функций потерь с некоторыми весами,x} & = & \sum \sum W_g \cdot I \\ Feature_{yкоторые являются гиперпараметрами. В моделях,x} & = & \sum \sum W_f \cdot I \\ O_{yгде вдобавок используется дискриминатор,x} & = & \phi (Feature_{y,x}) \bigodot \sigma (Gating_{y,x}) \end{array}</tex>функция потерь от его выхода также подмешивается к итоговой функции потерь.
Данная свертка учится динамическому отбору признаков для каждого слоя изображения и каждой логической области маски, значительно улучшая однородность цвета и качество исправления испорченных областей различных форм.== Примеры современных моделей ==
Существует большое множество различных функций потерь при методе обучение модели через сравнение сгенерированного изображения с оригинальным=== SC-FEGAN<ref name="SC-FEGAN">[https://github. Примеры: * '''L1com/run-loss''' или '''Peryoungjoo/SC-pixel loss''FEGAN Face Editing Generative Adversarial Network with User'. Оценивает точность восстановления каждого пикселя по отдельности.s Sketch and Color, Youngjoo Jo, Jongyoul Park]</ref> ===
<center><tex>L_{Дискриминатор данной сети принимает на вход сгенерированное изображение, маску и рисунок пользователя. Итоговая функция потерь формируется из выхода дискриминатора и функций сравнения изображения с оригинальным (per-pixel} = \frac{1}{N_{I_{gt}}}\|M \odot (I_{gen} - I_{gt})\| + \alpha \frac{1}{N_{I_{gt}}}\|(1 - M) \odot (I_{gen} - I_{gt}loss, perceptual loss, style loss)\|</tex></center>.
:<tex>I_{gen}</tex> {{---}} выход генератора; <tex>I_{gt}</tex> {{---}} оригинальное изображние (англ. ground truth); <tex>N_a</tex> {{---}} количество элементов в объекте <tex>a</tex>; <tex>M</tex> {{---}} бинарная маска; <tex>\alpha</tex> {{---}} гиперпараметр, <tex>\odot</tex> - поэлементное перемножение.
* '''Perceptual loss'''. Cравнивает признаки полученного и исходного изображений, полученные с помощью модели VGG-16<ref>[https[Файл://arxivDeepFillv2_model.org/pdf/1409jpeg|thumb|300px|left|Рисунок 5.1556v6Сеть DeepFillv2.pdf Very Deep Convolutional Networks for Large-Scale Image Recognition, Karen Simonyan, Andrew Zisserman]<ref name="DeepFillv2"/ref>.]]
<center><tex>L_Главная идея этой модели {percept} = \sum\limits_{q}\frac{\|\Theta_{q}(I_{gen}) - \Theta_{q}(I_{gt})\|}{N_{\Theta_{q}(I_{gt})}} + \sum\limits_{q}\frac{\|\Theta_{q}(I_{comp}) - \Theta_{q}(I_{gt})\|}{N_{\Theta_{q}(I_{gt})-}}</tex></center>использование стробированной свертки, которая позволила добиться хорошего качества вписывания при восстановлении изображения с разными формами испорченных областей. Также можно использовать рисунок пользователя в качестве входных данных.
:<tex>I_{comp}</tex> В данной модели используется вариант генеративно-состязательной сети {{---}} изображение SN-PatchGAN. Дискриминатор этой сети в каждой точке вычисляет кусочно-линейную функцию потерь, формируя таким образом <tex>I_{gen}h \times w \times c</tex>генеративно-состязательных сетей, в котором нестертые части заменены каждая из которых сосредотачивается на части различных частях и свойствах изображения. Генератор, состоящий из двух сетей (грубой и сети повышающей качество изображения), используют модель кодировщик-декодировщик вместо U-Net<texref>I_{gt}<[https://arxiv.org/tex>; <tex>\Theta_{q}(x)<pdf/tex> {{1505.04597.pdf U---}} карта признаковNet: Convolutional Networks for Biomedical Image Segmentation, Olaf Ronneberger, Philipp Fischer, полученная <tex>qThomas Brox]</texref>-ым слоем VGG-16, в которой все слои классической свертки заменены на стробированные. Полностью архитектура сети приведена на Рисунке 5.
* '''Style loss'''. Сравнивает текстуру и цвета изображений, используя матрицу Грама<ref>[https://en.wikipedia.org/wiki/Gramian_matrix Gramian matrix, Wikipedia]</ref>.----
<center><tex>L_Главное отличие этой модели от других {style} = \sum\limits_{q}\frac{1}{C_q C_q} \| \frac{G_q(I_{gen})-G_q(I_{gt--})}{N_q}\|</tex></center>способность выдавать несколько вариантов заполнения отсутствующих областей изображения. Обычно модели генерируют только один вариант, пытаясь приблизиться к оригинальному изображению. Используя же данную модель, человек может выбрать то сгенерированное изображение, которое выглядит более реалистичным, получая таким образом более качественные изображения на выходе.
:<tex>G_q(x) = (\Theta_{q}(I_{x}))^T (\Theta_{q}(I_{x}))</tex> Данная модель добивается такого эффекта путем пропускания входного изображения через две параллельные сети. Первая сеть {{---}} матрица Грама для выполнения автокорреляции на карте признаков VGG-16; <tex>C_{q}</tex> реконструирующая. Она пытается приблизить выходное изображение к оригинальному. Вторая сеть {{---}} размерность матрицы Грамагенерирующая, работающая с априорным распределением отсутствующих областей и выборками известных пикселей. Каждая сеть имеет свой дискриминатор, помогающий обучить модель. Кроме выхода дискриминатора для обучения также используются функции сравнения полученного изображения с оригинальным.
* '''Total variation loss'''----[[Файл:EdgeConnect_sample. Оценивает однородность полученного изображенияjpg|thumb|400px|Рисунок 6.Пример работы модели EdgeConnect.<ref name="EdgeConnect"/>]]
<center><tex>L_{tv} = \sum\limits_{(i,j) \in R}\frac{I_{comp}^{i,j+1} - I_{comp}^{i,j}}{N_{I_{comp}}} + \sum\limits_{(i,j) \in R}\frac{I_{comp}^{i+1,j} - I_{comp}^{i,j}}{N_{I_{comp}}}</tex></center>EdgeConnect разбивает задачу вписывания на две части: # Выделение границ изображения и предсказание границ утраченной части изображения. # Использование сгенерированных границ для заполнения утраченной части изображения.
При обучении обычно В обоих частях используется комбинация функций потерь генеративно-состязательная сеть. Генераторы состоят из кодировщика, нескольких остаточных блоков с некоторыми весами, которые являются гиперпараметрамирасширенной сверткой и декодировщика (см Рис. 7). В моделях, где вдобавок Для дискриминатора используется дискриминаторPatchGAN<ref>[https://paperswithcode.com/method/patchgan PatchGan, функция потерь от его выхода также подмешивается к итоговой функции потерьPapersWithCode]</ref>.
=== DeepFillv2Для генерации ребер сначала выделяются границы существующей части изображения с помощью Canny edge detector<ref>[https://githuben.comwikipedia.org/run-youngjoowiki/SC-FEGAN Free-Form Image Inpainting with Gated Convolution, Jiahui Yu, Zhe Lin, Jimei Yang, Xiaohui Shen, Xin LuCanny_edge_detector Canny edge detector, Thomas HuangWikipedia]</ref> ===. Потом полученная граница вместе с маской и черно-белым изображением дается генератору. В качестве целевой функции потерь для тренировки сети берется комбинация двух функций: adversarial loss и feature-matching loss. Также для стабилизации обучения генератора и дискриминатора используется спектральная нормализация.
[[Файл:DeepFillv2_modelДля восстановления генератор получает на вход испорченное изображение и границы, которые составлены из реальных и сгенерированных на предыдущем этапе.jpeg|thumb|450px|Сеть DeepFillv2В результате генерируется полное изображение. Так же, как и на предыдущем этапе, используется составная функция потерь из adversarial loss, perceptual loss и style loss.]]
Главная идея данной модели {{---}} это использование стробированной сверткиОднако сети не удается предсказать достаточно хорошую границу, которая позволила добиться хорошего качества вписывания при восстановлении если отсутствует большая часть изображения с разными формами испорченных областей. Также данная модель может использовать набросок пользователя в качестве входных данныхили объект имеет сложную структуру.
Кроме того, в данной модели предлагается Также данную модель можно использовать вариант генеративно состязательной сети {{---}} SN-PatchGANдля соединения двух изображений (см Рис. Дискриминатор этой сети в каждой точке вычисляет кусочно-линейную функцию потерь, формируя таким образом <tex>h \times w \times c</tex> генеративно состязательных сетей, каждая из которых сосредотачивается на различных частях и свойствах изображения8) или удаления лишних объектов с фотографий.
Генератор, состоящий из двух сетей (грубой и сети повышающей качество изображения) имеет слой адаптации. Обе сети используют модель кодировщик{|-декодировщик вместо U-Net<ref>valign="top" |[[httpsФайл://arxivEdgeConnect_merge.org/pdf/1505jpg|thumb|700px| Рисунок 8.04597Пример соединения двух изображения моделью EdgeConnect.pdf U-Net: Convolutional Networks for Biomedical Image Segmentation, Olaf Ronneberger, Philipp Fischer, Thomas Brox]<ref name="EdgeConnect"/ref>, в которой все слои классической свертки заменены на стробированные.]] |}
[[Файл:scгде <tex>E(x, x_0)</tex> {{---}} это функция потерь, зависящая от решаемой задачи, а <tex>f_{\theta}(z)</tex> {{--fegan_result.jpg|thumb|450px|Пример работы модели SC-FEGAN}} некоторая сверточная сеть.]]
Данная модель позволяет производить высококачественные Алгоритм решения задачи (см Рис. 9):# Инициализируем <tex>\theta</tex> случайными весами.# На каждой итерации:## Сеть <tex>f</tex> с текущими весами <tex>\theta</tex> получает на вход фиксированный тензор <tex>z</tex> и возвращает восстановленное изображение <tex>x</tex>.## С помощью сгенерированного изображения лиц, учитывая передаваемые пользователем эскизы x и цвета на области маски исходного изображения <tex>x_0</tex> вычисляется функция потерь <tex>E(стертых частях изображенияx;x0)</tex>. Иными словами пользователь может легко редактировать изображения, стирая фрагменты, которые он хочет изменить, и подставляя туда эскизы и## Веса <tex>\theta</или цветаtex> обновляются так, которые будут отражены в генерируемом фрагментечтобы минимизировать уравнение (1).
Основа данной сети patchGAN {{--В качестве <tex>f</tex> предлагается использовать сеть U-}} дискриминатор принимает на вход несколько каналов изображения. В данном случае помимо выходного изображения генератора и маски, дискриминатор принимает еще слой пользовательского ввода (эскизы и цвета)net с пропускающими соединениями.
Итоговая Для вписывания части изображения используется следующая функция потерь формируется из выхода дискриминатора и функций сравнения изображения с оригинальным : <tex>E(x, x_0) = \|(perx -pixel lossx_0) * m \|^2</tex>, perceptual loss, style loss)где <tex>m</tex> {{---}} маска.
rollbackEdits.php mass rollback
[[Файл:inpainting_sample.jpg|thumb|400px|Рисунок 1. Пример восстановления изображения. (a) {{В разработке---}}оригинальное изображение, (b) {{---}} изображение со стертыми частями, (с) {{---}} изображение, полученное в результате восстановления.<ref name="SC-FEGAN"/>]]
== Виды восстановления изображения ==
== Глубокое обучение ==
[[Файл:inpainting_network.jpg|thumb|550px|Рисунок 3. Пример GAN для inpainting.]] Глубокое обучение позволяет в процессе подрисовки учитывать семантику изображения (в отличие от приведенных выше простых методов)<ref>[http://iizuka.cs.tsukuba.ac.jp/projects/completion/data/completion_sig2017. То есть в данном случае заполнение отсутствующих областей основывается на контекстеpdf Globally and Locally Consistent Image Completion, вносимым самим изображениемSatoshi Lizuka, объектахEdgar Simo-Serra, находящихся на изображении, и их классах.Hiroshi Ishikawa]</ref>]]
Для того, чтобы понимать, какую часть изображения нужно заполнить, на вход сети кроме самого изображения подается слой маски с информацией о об испорченных пикселях, где данные отсутствуют.
Обучение может происходить через сравнение оригинального изображения и синтетического, сгенерированного сетью или через [[Generative_Adversarial_Nets_(GAN)|генеративно-состязательную сеть(GAN)]]. Во втором случае для обучения используется дискриминатор, который определяет фейковое настоящее ли изображение подали ему на вход. В современных моделях обычно используют совмещенный подход: функции потерь зависят и от исходного изображения, и от выхода дискриминатора.
В ранних моделях часто использовались применялись два дискриминатора(см Рис. 3):
# Локальный дискриминатор (англ. Local Discriminator). Ему подавалась на вход только сгенерированная часть изображения.
# Глобальный дискриминатор (англ. Global Discriminator). В данном случае на вход подавалось все изображение целиком.
Однако в современных моделях чаще используется один дискриминатор, который принимает на вход не только канал с выходным изображениемвосстановленное изображение, но и канал с маской (такие сети часто называются patchGAN)маску. Современные модели чаще всего принимают на вход маски произвольной формы (англ. free-form mask), при работе с которыми локальный дискриминатор показывает плохое качество. Именно поэтому концепция двух дискриминаторов стала не популярнойнепопулярной. === Свертки === Для вписывания изображения помимо классической свертки широко используются другие способы перехода от слоя к слою. Подробнее про свертки можно прочитать в конспекте [[Сверточные нейронные сети]].# '''Расширенная свертка (англ. Dilated convolution)'''. Данный способ позволяет сохранить качество изображении, уменьшив затраты на память и вычисления.# '''Частичная свертка (англ. Partial convolution).''' Данная свертка дает лучшее качество на масках произвольной формы. Классическая свертка предполагает, что все пиксели валидны, а частичная учитывает количество стертых пикселей в рассматриваемой матрице. # '''Стробированная свертка (англ. Gated convolution).''' Данная свертка позволяет сохранять информацию о маске и эскизах пользователя во всех слоях сети, что дает возможность получить лучшее качество. === Функции потерь === Существует большое множество различных функций потерь при методе обучения модели через сравнение сгенерированного изображения с оригинальным. Примеры: * '''L1-loss''' или '''Per-pixel loss'''. Оценивает точность восстановления каждого пикселя по отдельности. <center><tex>L_{per-pixel} = \frac{1}{N_{I_{gt}}}\|M \odot (I_{gen} - I_{gt})\| + \alpha \frac{1}{N_{I_{gt}}}\|(1 - M) \odot (I_{gen} - I_{gt})\|</tex>,</center> где <tex>I_{gen}</tex> {{---}} выход генератора; <tex>I_{gt}</tex> {{---}} оригинальное изображение (англ. ground truth); <tex>N_a</tex> {{---}} количество элементов в объекте <tex>a</tex>; <tex>M</tex> {{---}} бинарная маска; <tex>\alpha</tex> {{---}} гиперпараметр, <tex>\odot</tex> {{---}} поэлементное перемножение. * '''Perceptual loss'''. Cравнивает признаки сгенерированного и исходного изображений, полученные с помощью модели VGG-16<ref>[https://arxiv.org/pdf/1409.1556v6.pdf Very Deep Convolutional Networks for Large-Scale Image Recognition, Karen Simonyan, Andrew Zisserman]</ref>.
<center><tex>(F *_L_{lstyle} k)(p) = \sum\limits_{s+lt=pq}\frac{1}{C_q C_q}F\| \frac{G_q(sI_{gen})k-G_q(tI_{gt})}{N_q}\|</tex>,</center>
где <tex>m' = \beginI_{casesgray} 1, & \mbox</tex> {{---}} черно-белое оригинальное изображение; <tex>H_{gt}</tex> {{if ---} sum(M)} границы объектов оригинального изображения; <tex>0 \\ 0, & \mboxH_{otherwisegen} \end</tex> {cases{---}} генерируемые границы; <tex>D</tex> {{---}} дискриминатор;
[[Файл:sc-fegan_result.jpg|thumb|300px|Рисунок 4. Пример работы модели SC-FEGAN.<ref name=== Функции потерь ==="SC-FEGAN"/>]]
SC-FEGAN позволяет создавать высококачественные изображения лиц за счет эскизов, передаваемых пользователем вместо стертых частей изображения. Иными словами пользователь может стереть фрагмент, который он хочет изменить, нарисовать на его месте желаемый объект, и полученный эскиз, а также его цветовая палитра, будут отражены в сгенерированном фрагменте.
=== DeepFillv2<ref name="DeepFillv2">[https://github.com/csqiangwen/DeepFillv2_Pytorch Free-Form Image Inpainting with Gated Convolution, Jiahui Yu, Zhe Lin, Jimei Yang, Xiaohui Shen, Xin Lu, Thomas Huang]</ref> ===
=== Pluralistic Image Completion<ref>[https://github.com/lyndonzheng/Pluralistic-Inpainting Pluralistic Image Completion, Chuanxia Zheng, Tat-Jen Cham, Jianfei Cai]</ref> ===
=== EdgeConnect<ref name="EdgeConnect">[https://arxiv.org/pdf/1901.00212.pdf EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning, Kamyar Nazeri, Eric Ng, Tony Joseph, Faisal Z. Qureshi, Mehran Ebrahimi]</ref> ===
{|-valign="top" |[[Файл:EdgeConnect_network.jpg|thumb|700px|Рисунок 7. Сеть EdgeConnect. <tex>G_1</tex> {{---}} генератор границ, <tex>G_2</tex> {{---}} генератор изображения, <tex>D_1</tex> и <tex>D_2</tex> {{---}} дискриминаторы.<ref name= Примеры современных моделей =="EdgeConnect"/>]] |}
----
=== SC-FEGANDeep Image Prior<refname="DeepImagePrior">[https://githubarxiv.comorg/run-youngjoopdf/SC-FEGAN Face Editing Generative Adversarial Network with User's Sketch and Color1711.10925v4.pdf Deep Image Prior, Youngjoo JoDmitry Ulyanov, Jongyoul ParkAndrea Vedaldi, Victor Lempitsky]</ref> === [[Файл:DeepImagePrior_minimization.jpeg|thumb|550px|Рисунок 9. Процесс восстановления изображения с помощью Deep Image Prior.<ref name="DeepImagePrior"/>]] Как известно, большинство методов глубокого обучения требуют больших наборов данных для тренировки. В отличие от них Deep Image Prior не требует никакой предварительной обучающей выборки кроме одного изображения, которое надо исправить. Для этого сеть учится извлекать полезную информации из самого обрабатываемого изображения. Данный метод применяется для таких задач как вписывание части изображения, удаление шума и увеличение разрешения фотографий. Сформулируем данную задачу как задачу минимизации: <tex>\theta^{*} = \underset{\theta} {\mathrm{argmin}} ~E(f_{\theta}(z), x_0), \;\; x^{*} = f_{\theta^{*}}(z) \;\; (1)</tex>
== См. также ==
*[[Автокодировщик]]
*[[Generative Adversarial Nets (GAN)|Генеративно-состязательныe сети]]
*[[Neural Style Transfer]]
== Примечания ==