Вписывание части изображения — различия между версиями
Fedleonid (обсуждение | вклад) |
Fedleonid (обсуждение | вклад) |
||
Строка 29: | Строка 29: | ||
# Метод Навье - Стокса (англ. Navier-Stokes method). Метод основывается на том, что грани объектов в изображении должны быть непрерывными. Цвета пикселей вычисляются на основе известных областей около граней. Метод основывается на дифференциальных уравнениях в частных производных. | # Метод Навье - Стокса (англ. Navier-Stokes method). Метод основывается на том, что грани объектов в изображении должны быть непрерывными. Цвета пикселей вычисляются на основе известных областей около граней. Метод основывается на дифференциальных уравнениях в частных производных. | ||
+ | == Глубокое обучение == | ||
+ | |||
+ | Глубокого обучение позволяет в восстановлении пикселей учитывать семантику изображения (в отличие от приведенных выше способов). То есть заполнение отсутствующих областей основывается на контексте, вносимым самим изображением, объектах, находящихся на изображении, и их классах. | ||
+ | |||
+ | Современные методы машинного обучения для решения данной задачи часто базируются на глубоких нейронных сетях для классификации изображений, автокодировщиках (autoencoder) и генеративно-состязательных сетях (GAN). | ||
+ | |||
+ | Для того, чтобы понимать, какую часть изображения нужно заполнить, на вход сети кроме самого изображения подается слой маски с информацией о пикселях, где данные отсутствуют. | ||
+ | |||
+ | Сети обычно имеют модель автокодировщиков - сначала идут слои кодирующие, а потом декодирующие изображение. Функция потерь побуждает модель изучать другие свойства изображения, а не просто копировать его из входных данных в выходные. Именно предоставляет возможность научить модель заполнять недостающие пиксели. | ||
+ | |||
+ | Обучение может происходить через сравнение оригинального изображения и синтетического, сгенерированного сетью или через генеративно-состязательную сеть. Во втором случае для обучения используется дискриминатор, который определяет фейковое ли изображение подали ему на вход. В современных моделях обычно используют совмещенный подход. Функции потерь зависят и от исходного изображения и от выхода дискриминатора. | ||
[[Категория: Машинное обучение]] | [[Категория: Машинное обучение]] |
Версия 02:19, 6 января 2021
Inpainting — процесс восстановление испорченных или утраченных частей изображений и видео. В основном, этот процесс происходит, используя фоновую информацию и заполняя недостающие данные в определенной области визуального ввода.
Методы данной области применяются как для восстановления изображений, часть которых была утрачена или подвержена некоторым дефектам, так и для редактирования изображений. С помощью современных моделей можно вырезать ненужные объекты (например, лишних людей на фотографиях), а также гибко редактировать изображения (например изменить цвет глаз у человека на фото).
Виды вписывания
Задача inpainting обычно разделяется на две задачи:
- Non-blind inpainting - информация о том, какие пиксели в изображении нужно заменить, подается на вход модели.
- Blind inpainting - модель должна сама определить, где на изображении пиксели, которые нужно заменить. Эту задачу также называют denoising (устранение шума), так как модели blind inpainting почти всегда устраняют именно шумы. В качестве шума может быть как примененный фильтр к изображению, так и наложенный текст. Пример работы модели удаления наложенного текста приведен на картинке справа.
В конспекте далее речь пойдет только про non-blind inpainting.
Простые методы
Для решения данной задачи существуют несколько разных методов. В этой части речь пойдет о простых решениях. Почти все простые методы основаны на следующей концепции: заполнение отсутствующих частей пикселями, идентичными соседним пикселям или похожими на них. Такие методы часто зависят от множества факторов и наиболее подходят для задачи устранения шума или небольших дефектов изображения. Но на изображениях, где отсутствует значительная часть данных, эти методы дают плохое качество выходного изображения.
Есть два основных простых способа восстанавливать данные:
- Быстрый пошаговый метод (англ. Fast marching method). Этот метод двигается от границ области, которую нужно закрасить, к ее эпицентру, постепенно закрашивая пиксели. Каждый новый пиксель вычисляется как взвешенная сумма известных соседних пикселей.
- Метод Навье - Стокса (англ. Navier-Stokes method). Метод основывается на том, что грани объектов в изображении должны быть непрерывными. Цвета пикселей вычисляются на основе известных областей около граней. Метод основывается на дифференциальных уравнениях в частных производных.
Глубокое обучение
Глубокого обучение позволяет в восстановлении пикселей учитывать семантику изображения (в отличие от приведенных выше способов). То есть заполнение отсутствующих областей основывается на контексте, вносимым самим изображением, объектах, находящихся на изображении, и их классах.
Современные методы машинного обучения для решения данной задачи часто базируются на глубоких нейронных сетях для классификации изображений, автокодировщиках (autoencoder) и генеративно-состязательных сетях (GAN).
Для того, чтобы понимать, какую часть изображения нужно заполнить, на вход сети кроме самого изображения подается слой маски с информацией о пикселях, где данные отсутствуют.
Сети обычно имеют модель автокодировщиков - сначала идут слои кодирующие, а потом декодирующие изображение. Функция потерь побуждает модель изучать другие свойства изображения, а не просто копировать его из входных данных в выходные. Именно предоставляет возможность научить модель заполнять недостающие пиксели.
Обучение может происходить через сравнение оригинального изображения и синтетического, сгенерированного сетью или через генеративно-состязательную сеть. Во втором случае для обучения используется дискриминатор, который определяет фейковое ли изображение подали ему на вход. В современных моделях обычно используют совмещенный подход. Функции потерь зависят и от исходного изображения и от выхода дискриминатора.