Изменения

← Предыдущая правка

Вписывание части изображения

13 831 байт добавлено, 19:24, 4 сентября 2022

м

rollbackEdits.php mass rollback

[[Файл:inpainting_sample.jpg|thumb|400px|Рисунок 1. Пример восстановления изображения. (a) {{~~В разработке~~---}}оригинальное изображение, (b) {{---}} изображение со стертыми частями, (с) {{---}} изображение, полученное в результате восстановления.<ref name="SC-FEGAN"/>]]

'''~~Inpainting~~Восстановление изображения ''' (англ. inpainting) {{---}} это процесс ~~восстановление испорченных или утраченных~~ замены поврежденных частей ~~изображений и видео~~изображения на реалистичные фрагменты. ~~В основном, этот процесс происходит~~'''Вписывание части изображения''' {{---}} это подзадача восстановления, ~~используя фоновую информацию и заполняя недостающие данные в определенной области визуального ввода~~которая опирается на имеющуюся неиспорченную часть изображении для замены поврежденной.

~~Методы данной области~~ Алгоритмы вписывания части изображения применяются ~~как~~ для редактирования изображений или для их восстановления ~~изображений~~, если их часть ~~которых~~ была утрачена или ~~подвержена некоторым дефектам, так и для редактирования изображений~~повреждена. С помощью современных моделей можно вырезать ненужные объекты или изменить их внешний вид (например, ~~лишних людей на фотографиях), а также гибко редактировать изображения (например изменить~~ поменять цвет глаз у человека ~~на фото~~).

~~{|align="center"~~

~~|-valign="top"~~

|[[Файл:inpainting_sample.jpg|thumb|400px|(a) - оригинальное изображение, (b) - изображение со стертыми частями, (с) - изображение, полученное в результате inpainting]]

|}

== Виды восстановления изображения ==

~~== Виды вписывания ==~~[[Файл:denoising_sample.jpg|thumb|550px|Рисунок 2. Пример устранения текста, наложенного на изображение. В данном случае текстом покрыто 18.77% площади.<ref>[https://www.researchgate.net/publication/220903053_Fast_Digital_Image_Inpainting Fast Digital Image Inpainting, Manuel M. Oliveira, Brian Bowen, Richard McKenna, Yu-Sung Chang]</ref>]]

~~[[Файл~~Восстановление изображения разделяется на две задачи:~~denoising_sample~~* '''Управляемое восстановление изображения''' (англ.~~jpg|thumb|450px|Пример устранения наложенного текста~~ non-blind inpainting). В этой задаче вместе с изображением подается информация о том, какие пиксели нужно заменить.* '''Слепое восстановление изображения''' (англ. blind inpainting). В решениях данной проблемы модель сама определяет, где на ~~изобрежении~~изображении поврежденные пиксели. Модели слепого восстановления чаще всего занимаются устранением шумов (англ. denoising). В ~~данном случае текстом покрыто 18~~качестве шума, например, может быть наложенный текст (см Рис.~~77% площади~~2).]]

~~Задача inpainting обычно разделяется на две задачи:~~* Non-blind inpainting {{---}} информация о том, какие пиксели в изображении нужно заменить, подается на вход модели. * Blind inpainting {{---}} модель должна сама определить, где на изображении пиксели, которые нужно заменить. Эту задачу также называют denoising (устранение шума), так как модели blind inpainting почти всегда устраняют именно шумы. В качестве шума может быть как примененный фильтр к изображению, так и наложенный текст. Пример работы модели удаления наложенного текста приведен на картинке справаэтом конспекте преимущественно речь пойдет про управляемое восстановление.

~~В конспекте далее речь пойдет только про non-blind inpainting.~~== Традиционные методы ==

~~== Простые~~ Для решения данной задачи существует множество различных методов, в том числе простых. Почти все простые методы ==основаны на следующей концепции: заполнение отсутствующих частей пикселями, идентичными соседним пикселям или похожими на них. Такие методы наиболее подходят для задачи устранения шума или небольших дефектов изображения. Но на изображениях, где отсутствует значительная часть данных, эти методы дают плохое качество изображения на выходе.

Для решения данной задачи существуют несколько разных методов. В этой части речь пойдет о простых решениях. Почти все простые методы основаны на следующей концепции: заполнение отсутствующих частей пикселями, идентичными соседним пикселям или похожими на них. Такие методы часто зависят от множества факторов и наиболее подходят для задачи устранения шума или небольших дефектов изображения. Но на изображениях, где отсутствует значительная часть данных, эти методы дают плохое качество выходного изображения. Есть два основных простых ~~способа восстанавливать данные~~метода восстановления данных:# Быстрый пошаговый метод (англ. Fast marching method)<ref>[https://www.researchgate.net/publication/238183352_An_Image_Inpainting_Technique_Based_on_the_Fast_Marching_Method An Image Inpainting Technique Based onthe Fast Marching Method, Alexandru Telea]</ref>. Этот метод двигается от границ области, которую нужно ~~закрасить~~заполнить, к ее ~~эпицентру~~центру, постепенно ~~закрашивая~~ восстанавливая пиксели. Каждый новый пиксель вычисляется как взвешенная сумма известных соседних пикселей.# Метод Навье - Стокса (англ. Navier-Stokes method)<ref>[https://www.math.ucla.edu/~bertozzi/papers/cvpr01.pdf Navier-Stokes, Fluid Dynamics, and Image and Video Inpainting, M. Bertalmio, A. L. Bertozzi, G. Sapiro]</ref>. Метод основывается на том, что ~~грани~~ границы объектов в на изображении должны быть непрерывными. ~~Цвета~~ Значения пикселей вычисляются ~~на основе известных~~ из областей ~~около граней~~вокруг испорченной части. Метод основывается на дифференциальных уравнениях в частных производных.

== Глубокое обучение ==

[[Файл:inpainting_network.jpg|thumb|~~580px~~550px|Рисунок 3. Пример GAN для inpainting.<ref>[http://iizuka.cs.tsukuba.ac.jp/projects/completion/data/completion_sig2017.pdf Globally and Locally Consistent Image Completion, Satoshi Lizuka, Edgar Simo-Serra, Hiroshi Ishikawa]</ref>]]

~~Глубокого~~ В отличие от приведенных выше методов, глубокое обучение позволяет в ~~восстановлении пикселей~~ процессе восстановления изображения учитывать его семантику ~~изображения (в отличие от приведенных выше способов)~~. ~~То есть заполнение~~ В этом случае алгоритм заполнения отсутствующих областей основывается на ~~контексте~~том, ~~вносимым самим изображением, объектах, находящихся~~ какие объекты расположены на изображении~~, и их классах~~.

~~Современные методы машинного обучения для решения данной задачи часто базируются~~ Для того, чтобы понимать, какую часть изображения нужно заполнить, на глубоких нейронных сетях для классификации изображений, автокодировщиках (autoencoder) и генеративно-состязательных сетях (GAN)вход сети кроме самого изображения подается слой маски с информацией об испорченных пикселях.

~~Для того~~В сетях обычно используется архитектура [[Автокодировщик|автокодировщиков (англ. autoencoder)]] {{---}} сначала идут слои кодирующие, ~~чтобы понимать, какую часть изображения нужно заполнить, на вход сети кроме самого~~ а потом декодирующие изображение. Функция потерь заставляет модель изучать другие свойства изображения ~~подается слой маски с информацией о пикселях~~, ~~где данные отсутствуют~~а не просто копировать его из входных данных в выходные. Именно это позволяет научить модель заполнять недостающие пиксели.

~~Сети обычно имеют модель автокодировщиков~~ Обучение может происходить через сравнение оригинального изображения и синтетического, сгенерированного сетью или через [[Generative_Adversarial_Nets_(GAN)|генеративно- ~~сначала идут слои кодирующие~~состязательную сеть (GAN)]]. Во втором случае для обучения используется дискриминатор, ~~а потом декодирующие~~ который определяет настоящее ли изображениеподали ему на вход. ~~Функция~~ В современных моделях обычно используют совмещенный подход: функции потерь ~~побуждает модель изучать другие свойства~~ зависят и от исходного изображения, а не просто копировать его из входных данных в выходные. Именно предоставляет возможность научить модель заполнять недостающие пикселии от выхода дискриминатора.

~~Обучение может происходить через сравнение оригинального~~ В ранних моделях часто применялись два дискриминатора (см Рис. 3):# Локальный дискриминатор (англ. Local Discriminator). Ему подавалась на вход только сгенерированная часть изображения ~~и синтетического, сгенерированного сетью или через генеративно-состязательную сеть~~. ~~Во втором~~ # Глобальный дискриминатор (англ. Global Discriminator). В данном случае ~~для обучения~~ на вход подавалось все изображение целиком.Однако в современных моделях используется один дискриминатор, который ~~определяет фейковое ли~~ принимает на вход не только восстановленное изображение ~~подали ему~~ , но и маску. Современные модели чаще всего принимают на входмаски произвольной формы (англ. free-form mask), при работе с которыми локальный дискриминатор показывает плохое качество. В современных моделях обычно используют совмещенный подход: функции потерь зависят и от исходного изображения и от выхода дискриминатораИменно поэтому концепция двух дискриминаторов стала непопулярной.

~~В ранних моделях часто использовались два дискриминатора:# Локальному (англ. Local Discriminator) подавался на вход только сгенерированная часть изображения.# Глобальному (англ. Global Discriminator) подавалось на вход все изображения целиком.~~Однако в современных моделях чаще используется один дискриминатор, который принимает на вход не только канал с выходным изображением, но и канал с маской (такие сети часто называются patchGAN). Современные модели чаще всего работают с масками произвольно формы (англ. free-form mask), при работе с которыми локальный дискриминатор показывает плохое качество. Именно поэтому концепция двух дискриминаторов стала не популярной.=== Свертки ===

~~=== Виды сверток ===~~Для вписывания изображения помимо классической свертки широко используются другие способы перехода от слоя к слою. Подробнее про свертки можно прочитать в конспекте [[Сверточные нейронные сети]].# '''Расширенная свертка (англ. Dilated convolution)'''. Данный способ позволяет сохранить качество изображении, уменьшив затраты на память и вычисления.# '''Частичная свертка (англ. Partial convolution).''' Данная свертка дает лучшее качество на масках произвольной формы. Классическая свертка предполагает, что все пиксели валидны, а частичная учитывает количество стертых пикселей в рассматриваемой матрице. # '''Стробированная свертка (англ. Gated convolution).''' Данная свертка позволяет сохранять информацию о маске и эскизах пользователя во всех слоях сети, что дает возможность получить лучшее качество.

=== Функции потерь ===

Существует большое множество различных функций ~~при~~ потерь при методе ~~обучение~~ обучения модели через сравнение сгенерированного изображения с оригинальным.

Примеры:

* '''L1-loss''' или '''Per-pixel loss''' . Оценивает точность восстановления каждого пикселя по отдельности. <center><tex>L_{per-pixel} = \frac{1}{N_{I_{gt}}}\|M \odot (I_{gen} - I_{gt})\| + \alpha \frac{1}{N_{I_{gt}}}\|(1 - M) \odot (I_{gen} - I_{gt})\|</tex>,</center> где <tex>I_{gen}</tex> {{---}} выход генератора; <tex>I_{gt}</tex> {{---}} оригинальное изображение (англ. ground truth); <tex>N_a</tex> {{---}} количество элементов в объекте <tex>a</tex>; <tex>M</tex> {{---}} бинарная маска; <tex>\alpha</tex> {{---}} гиперпараметр, <tex>\odot</tex> {{---}} поэлементное перемножение. * '''Perceptual loss'''. Cравнивает признаки сгенерированного и исходного изображений, полученные с помощью модели VGG-16<ref>[https://arxiv.org/pdf/1409.1556v6.pdf Very Deep Convolutional Networks for Large-Scale Image Recognition, Karen Simonyan, Andrew Zisserman]</ref>. <center><tex>L_{percept} = \sum\limits_{q}\frac{\|\Theta_{q}(I_{gen}) - \Theta_{q}(I_{gt})\|}{N_{\Theta_{q}(I_{gt})}} + \sum\limits_{q}\frac{\|\Theta_{q}(I_{comp}) - \Theta_{q}(I_{gt})\|}{N_{\Theta_{q}(I_{gt})}}</tex>,</center> где <tex>I_{comp}</tex> {{---}} изображение <tex>I_{gen}</tex>, в котором нестертые части заменены на части из <tex>I_{gt}</tex>; <tex>\Theta_{q}(x)</tex> {{---}} ~~оценивает точность восстановления каждого пикселя~~ карта признаков, полученная <tex>q</tex>-ым слоем VGG-16. * '''Style loss'''. Считает корреляцию между признаками на каждом слое, что на самом деле является матрицей Грама<ref>[https://en.wikipedia.org/wiki/Gramian_matrix Gramian matrix, Wikipedia]</ref>. Согласно алгоритму [[Neural Style Transfer|нейронного переноса стиля (англ. Neural Style Transfer, NST)]] матрица Грама содержит информацию о текстуре и цвете изображения. Таким образом style loss сравнивает сгенерированное и оригинальное изображения на схожесть стилей. <center><tex>L_{style} = \sum\limits_{q}\frac{1}{C_q C_q} \| \frac{G_q(I_{gen})-G_q(I_{gt})}{N_q}\|</tex>,</center> где <tex>G_q(x) = (\Theta_{q}(I_{x}))^T (\Theta_{q}(I_{x}))</tex> {{---}} матрица Грама для выполнения автокорреляции на карте признаков VGG-16; <tex>C_{q}</tex> {{---}} размерность матрицы Грама. * '''Total variation loss'''. Оценивает однородность полученного изображения. <center><tex>L_{tv} = \sum\limits_{(i,j) \in R}\frac{\|I_{comp}^{i,j+1} - I_{comp}^{i,j}\|}{N_{I_{comp}}} + \sum\limits_{(i,j) \in R}\frac{\|I_{comp}^{i+1,j} - I_{comp}^{i,j}\|}{N_{I_{comp}}}</tex>,</center> где <tex>I_{comp}</tex> {{---}} изображение <tex>I_{gen}</tex>, в котором нестертые части заменены на части из <tex>I_{gt}</tex>; <tex>N_{I_{comp}}</tex> {{---}} количество пикселей в <tex>I_{comp}</tex> * '''Adversarial loss'''. Сравнивает генерируемые и оригинальные границы объектов в изображении. <center><tex>L_{adv} = \mathbb{E}[\log D(H_{gt}, I_{gray})] + \mathbb{E}[\log (1 - D(H_{gen}, I_{gray}))]</tex>,</center> где <tex>I_{gray}</tex> {{---}} черно-белое оригинальное изображение; <tex>H_{gt}</tex> {{---}} границы объектов оригинального изображения; <tex>H_{gen}</tex> {{---}} генерируемые границы; <tex>D</tex> {{---}} дискриминатор; * '''Feature-matching loss'''. Сравнивает изображения по ~~отдельности~~признакам, извлекаемыми из всех слоев дискриминатора.

~~<center><tex>L_{per-pixel} = \frac{1}{N_{I_{gt}}}\|M \odot (I_{gen} - I_{gt})\| + \alpha \frac{1}{N_{I_{gt}}}\|(1 - M) \odot (I_{gen} - I_{gt})\|</tex></center>~~

<center><tex>L_{FM} = \mathbb{E}[\sum\limits_{i=1}^L \frac{1}{N_i} \|D^{(i)}(H_{gt} - D^{(i)}(H_{gen}))\| ]</tex>,</center>

:где <tex>~~N_a~~L</tex> {{---}} количество ~~элементов в объекте <tex>a</tex>~~слоев дискриминатора; <tex>MN_i</tex> {{---}} ~~бинарная маска;~~ число нейронов на <tex>~~I_{gen}~~i</tex> {{-~~--}} выход генератора~~ом слое дискриминатора; <tex>I_D^{~~gt}</tex> {{---}} оригинальное изображние~~ (~~англ. ground truth~~i)~~; <tex>\alpha~~}</tex> {{---}} ~~гиперпараметр,~~ значения дискриминатора на слое <tex>~~\odot~~i</tex> ~~- поэлементное перемножение.~~;

* '''Perceptual loss''' {{---}} сравнивает признаки полученного и исходного изображенийПри обучении обычно используется комбинация функций потерь с некоторыми весами, которые являются гиперпараметрами. В моделях, где вдобавок используется дискриминатор, ~~полученные из изображения с помощью модели VGG-16~~функция потерь от его выхода также подмешивается к итоговой функции потерь.

~~<center><tex>L_{percept}~~ = ~~\sum\limits_{q}\frac{\|\Theta_{q}(I_{gen}) - \Theta_{q}(I_{gt})\|}{N_{\Theta_{q}(I_{gt})}} + \sum\limits_{q}\frac{\|\Theta_{q}(I_{comp}) - \Theta_{q}(I_{gt})\|}{N_{\Theta_{q}(I_{gt})}}</tex></center>~~= Примеры современных моделей ==

[[Файл:~~<tex>I_{comp}</tex> {{~~sc-fegan_result.jpg|thumb|300px|Рисунок 4. Пример работы модели SC-~~-}} изображение <tex>I_{gen}</tex>, в котором нестертые части заменены на части из <tex>I_{gt}~~FEGAN.<~~/tex>; <tex>\Theta_{q}(x)</tex> {{~~ref name="SC-~~--}} карта признаков, полученная <tex>q<~~FEGAN"/~~tex~~>~~-ым слоем VGG-16.~~]]

* '''Style loss''' {{=== SC-FEGAN<ref name="SC-FEGAN">[https://github.com/run-youngjoo/SC-~~}} сравнивает текстуру и цвета изображений~~FEGAN Face Editing Generative Adversarial Network with User's Sketch and Color, ~~используя матрицу Грама.~~Youngjoo Jo, Jongyoul Park]</ref> ===

~~<center><tex>L_{style} = \sum\limits_{q}\frac{1}{C_q C_q} \| \frac{G_q(I_{gen})~~SC-~~G_q(I_{gt})}{N_q}\|</tex></center>~~FEGAN позволяет создавать высококачественные изображения лиц за счет эскизов, передаваемых пользователем вместо стертых частей изображения. Иными словами пользователь может стереть фрагмент, который он хочет изменить, нарисовать на его месте желаемый объект, и полученный эскиз, а также его цветовая палитра, будут отражены в сгенерированном фрагменте.

~~:<tex>G_q~~Дискриминатор данной сети принимает на вход сгенерированное изображение, маску и рисунок пользователя. Итоговая функция потерь формируется из выхода дискриминатора и функций сравнения изображения с оригинальным (xper-pixel loss, perceptual loss, style loss) ~~= (\Theta_{q}(I_{x}))^T (\Theta_{q}(I_{x}))</tex> {{---}} матрица Грамма для выполнения автокорреляции на карте признаков VGG~~. -~~16; <tex>C_{q}</tex> {{~~---~~}} размерность матрицы Грама.~~

* '''Total variation loss''' {{---}} оценивает однородность полученного изображения[[Файл:DeepFillv2_model.jpeg|thumb|300px|left|Рисунок 5. Сеть DeepFillv2.<ref name="DeepFillv2"/>]]

=== DeepFillv2<~~center~~ref name="DeepFillv2">~~<tex>L_{tv} = \sum\limits_{(i~~[https://github.com/csqiangwen/DeepFillv2_Pytorch Free-Form Image Inpainting with Gated Convolution,~~j) \in R}\frac{I_{comp}^{i~~Jiahui Yu,~~j+1} - I_{comp}^{i~~Zhe Lin,~~j}}{N_{I_{comp}}} + \sum\limits_{(i~~Jimei Yang,~~j) \in R}\frac{I_{comp}^{i+1~~Xiaohui Shen,~~j} - I_{comp}^{i~~Xin Lu,~~j}}{N_{I_{comp}}}~~Thomas Huang]</~~tex></center~~ref>===

~~При обучении обычно используется комбинация функций потерь~~ Главная идея этой модели {{---}} использование стробированной свертки, которая позволила добиться хорошего качества вписывания при восстановлении изображения с ~~некоторыми весами, которые являются гиперпараметрами~~разными формами испорченных областей. В моделях, где вдобавок используется GAN, функция потерь от выхода дискриминатора также подмешивается к итоговой функции потерьТакже можно использовать рисунок пользователя в качестве входных данных.

~~== Пример современных моделей ==~~В данной модели используется вариант генеративно-состязательной сети {{---}} SN-PatchGAN. Дискриминатор этой сети в каждой точке вычисляет кусочно-линейную функцию потерь, формируя таким образом <tex>h \times w \times c</tex> генеративно-состязательных сетей, каждая из которых сосредотачивается на различных частях и свойствах изображения. Генератор, состоящий из двух сетей (грубой и сети повышающей качество изображения), используют модель кодировщик-декодировщик вместо U-Net<ref>[https://arxiv.org/pdf/1505.04597.pdf U-Net: Convolutional Networks for Biomedical Image Segmentation, Olaf Ronneberger, Philipp Fischer, Thomas Brox]</ref>, в которой все слои классической свертки заменены на стробированные. Полностью архитектура сети приведена на Рисунке 5.

~~=== DeepFill v2 ===~~----

~~Главная идея данной модели это использование стробированной свертки~~=== Pluralistic Image Completion<ref>[https://github.com/lyndonzheng/Pluralistic-Inpainting Pluralistic Image Completion, которая позволила добиться хорошего качества вписывания при восстановлении изображения с разной формы испорченными областями. Также данная модель может использовать набросок пользователя в качестве входных данных.Chuanxia Zheng, Tat-Jen Cham, Jianfei Cai]</ref> ===

Более того, чтобы добиться более высокого качества вписывания, предлагается использовать вариант генеративно состязательной сети Главное отличие этой модели от других {{-- SN-~~PatchGAN~~}} способность выдавать несколько вариантов заполнения отсутствующих областей изображения. ~~Дискриминатор этой сети в каждой точке вычисляет кусочно-линейную функцию потерь~~Обычно модели генерируют только один вариант, пытаясь приблизиться к оригинальному изображению. Используя же данную модель, человек может выбрать то сгенерированное изображение, которое выглядит более реалистичным, ~~формируя~~ получая таким образом ~~h x w x c генеративно состязательных сетей, каждая из которых сосредотачивается~~ более качественные изображения на ~~различных частях и свойствах изображения~~выходе.

~~Генератор, состоящий из двух сетей (грубой и~~ Данная модель добивается такого эффекта путем пропускания входного изображения через две параллельные сети ~~повышающей качество изображения) также адаптируется~~. ~~Обе сети используют модель кодировщик~~Первая сеть {{---}} реконструирующая. Она пытается приблизить выходное изображение к оригинальному. Вторая сеть {{--~~декодировщик вместо U~~-~~Net~~}} генерирующая, работающая с априорным распределением отсутствующих областей и выборками известных пикселей. Каждая сеть имеет свой дискриминатор, ~~в которой все слои классической свертки заменены на стробированные~~помогающий обучить модель. Кроме выхода дискриминатора для обучения также используются функции сравнения полученного изображения с оригинальным.

----

[[Файл:EdgeConnect_sample.jpg|thumb|400px|Рисунок 6. Пример работы модели EdgeConnect.<ref name="EdgeConnect"/>]]

=== EdgeConnect<ref name="EdgeConnect">[https://arxiv.org/pdf/1901.00212.pdf EdgeConnect: Generative Image Inpainting with Adversarial Edge Learning, Kamyar Nazeri, Eric Ng, Tony Joseph, Faisal Z. Qureshi, Mehran Ebrahimi]</ref> ===

EdgeConnect разбивает задачу вписывания на две части:

# Выделение границ изображения и предсказание границ утраченной части изображения.

# Использование сгенерированных границ для заполнения утраченной части изображения.

В обоих частях используется генеративно-состязательная сеть. Генераторы состоят из кодировщика, нескольких остаточных блоков с расширенной сверткой и декодировщика (см Рис. 7). Для дискриминатора используется PatchGAN<ref>[https://paperswithcode.com/method/patchgan PatchGan, PapersWithCode]</ref>.

{|-valign="top"

|[[Файл:EdgeConnect_network.jpg|thumb|700px|Рисунок 7. Сеть EdgeConnect. <tex>G_1</tex> {{---}} генератор границ, <tex>G_2</tex> {{---}} генератор изображения, <tex>D_1</tex> и <tex>D_2</tex> {{---}} дискриминаторы.<ref name="EdgeConnect"/>]]

|}

Для генерации ребер сначала выделяются границы существующей части изображения с помощью Canny edge detector<ref>[https://en.wikipedia.org/wiki/Canny_edge_detector Canny edge detector, Wikipedia]</ref>. Потом полученная граница вместе с маской и черно-белым изображением дается генератору. В качестве целевой функции потерь для тренировки сети берется комбинация двух функций: adversarial loss и feature-matching loss. Также для стабилизации обучения генератора и дискриминатора используется спектральная нормализация.

Для восстановления генератор получает на вход испорченное изображение и границы, которые составлены из реальных и сгенерированных на предыдущем этапе. В результате генерируется полное изображение. Так же, как и на предыдущем этапе, используется составная функция потерь из adversarial loss, perceptual loss и style loss.

Однако сети не удается предсказать достаточно хорошую границу, если отсутствует большая часть изображения или объект имеет сложную структуру.

Также данную модель можно использовать для соединения двух изображений (см Рис. 8) или удаления лишних объектов с фотографий.

{|-valign="top"

|[[Файл:EdgeConnect_merge.jpg|thumb|700px| Рисунок 8. Пример соединения двух изображения моделью EdgeConnect.<ref name="EdgeConnect"/>]]

|}

----

=== Deep Image Prior<ref name="DeepImagePrior">[https://arxiv.org/pdf/1711.10925v4.pdf Deep Image Prior, Dmitry Ulyanov, Andrea Vedaldi, Victor Lempitsky]</ref> ===

[[Файл:DeepImagePrior_minimization.jpeg|thumb|550px|Рисунок 9. Процесс восстановления изображения с помощью Deep Image Prior.<ref name="DeepImagePrior"/>]]

Как известно, большинство методов глубокого обучения требуют больших наборов данных для тренировки. В отличие от них Deep Image Prior не требует никакой предварительной обучающей выборки кроме одного изображения, которое надо исправить. Для этого сеть учится извлекать полезную информации из самого обрабатываемого изображения. Данный метод применяется для таких задач как вписывание части изображения, удаление шума и увеличение разрешения фотографий.

Сформулируем данную задачу как задачу минимизации:

<tex>\theta^{*} =\underset{\theta} {\mathrm{argmin}} ~E(f_{\theta}(z), x_0), \;\; x^{*} =~~= SC-FEGAN ===~~f_{\theta^{*}}(z) \;\; (1)</tex>

~~[[Файл:sc~~где <tex>E(x, x_0)</tex> {{---}} это функция потерь, зависящая от решаемой задачи, а <tex>f_{\theta}(z)</tex> {{--~~fegan_result.jpg|thumb|450px|Пример работы модели SC~~-~~FEGAN~~}} некоторая сверточная сеть.]]

~~Данная модель позволяет производить высококачественные~~ Алгоритм решения задачи (см Рис. 9):# Инициализируем <tex>\theta</tex> случайными весами.# На каждой итерации:## Сеть <tex>f</tex> с текущими весами <tex>\theta</tex> получает на вход фиксированный тензор <tex>z</tex> и возвращает восстановленное изображение <tex>x</tex>.## С помощью сгенерированного изображения ~~лиц, учитывая передаваемые пользователем эскизы~~ x и ~~цвета на области маски~~ исходного изображения <tex>x_0</tex> вычисляется функция потерь <tex>E(~~стертых частях изображения~~x;x0)</tex>. Иными словами пользователь может легко редактировать изображения, стирая фрагменты, которые он хочет изменить, и подставляя туда эскизы и## Веса <tex>\theta</~~или цвета~~tex> обновляются так, ~~которые будут отражены в генерируемом фрагменте~~чтобы минимизировать уравнение (1).

~~Основа данной сети patchGAN~~ В качестве <tex>f</tex> предлагается использовать сеть U- дискриминатор принимает на вход несколько каналов изображения. В данном случае помимо выходного изображения генератора и маски, дискриминатор принимает еще слой пользовательского ввода (эскизы и цвета)net с пропускающими соединениями.

~~Итоговая~~ Для вписывания части изображения используется следующая функция потерь ~~формируется из функций сравнения изображения с оригинальным~~ : <tex>E(x, x_0) = \|(~~per~~x -~~pixel loss~~x_0) * m \|^2</tex>, ~~perceptual loss, style loss) и выхода дискриминатора~~где <tex>m</tex> {{---}} маска.

== ~~Применение~~ См. также ==*[[Глубокое обучение]]*[[Сверточные нейронные сети]]*[[Автокодировщик]]*[[Generative Adversarial Nets (GAN)|Генеративно-состязательныe сети]]*[[Neural Style Transfer]]

~~Inpainting применяется для различных целей:~~== Примечания ==<references/>

== Источники информации ==* ~~Восстановление старых фотографий~~[https://heartbeat.fritz.ai/guide-to-image-inpainting-using-machine-learning-to-edit-and-correct-defects-in-photos-3c1b0e13bbd0 Guide to Image Inpainting: Using machine learning to edit and correct defects in photos, Heartbeat]* ~~Удаление шума с изображения~~[https://wandb.ai/site/articles/introduction-to-image-inpainting-with-deep-learning Introduction to image inpainting with deep learning, Weights & Biases]* ~~Удаление ненужных объектов с фото~~[https://towardsdatascience.com/pushing-the-limits-of-deep-image-inpainting-using-partial-convolutions-ed5520775ab4 Pushing the Limits of Deep Image Inpainting Using Partial Convolutions, Towards Data Science]* ~~Гибкое и простое редактирование фото с помощью эскизов и цветов~~[https://towardsdatascience.com/understanding-2d-dilated-convolution-operation-with-examples-in-numpy-and-tensorflow-with-d376b3972b25 Understanding 2D Dilated Convolution Operation with Examples in Numpy and Tensorflow with Interactive Code, Towards Data Science]

[[Категория: Машинное обучение]]

[[Категория: Глубокое обучение]]

[[Категория: Нейронные сети]]

[[Категория: Компьютерное зрение]]

Maintenance script

1632

правки

Изменения

Вписывание части изображения

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты