Задача трансляции изображений — различия между версиями
Spovar (обсуждение | вклад) (Добавлена метка, что статья находится в разработке.) |
Spovar (обсуждение | вклад) (→Описание задачи) |
||
Строка 10: | Строка 10: | ||
== Описание задачи == | == Описание задачи == | ||
+ | |||
+ | Задача разделяется на два вида в зависимости от тренировочных данных. <br> | ||
+ | Различие заключается в том, что в одном случае, у нас есть четкое представление результата, который должен получиться, в то время как в другом случае, у нас есть только множество, определяющее стиль желаемого результата, но четкого результата нет. | ||
+ | |||
+ | [[File:Paired_vs_unpaired_training_data.png|400px|right|thumb|Виды тренировочных данных для задачи трансляции изображений.]] | ||
=== Обучение на парных изображениях === | === Обучение на парных изображениях === | ||
− | === Обучение на непарных изображениях === | + | '''Обучение трансляции изображения с помощью парных изображений''' — это сопряженная трансляция одного изображения в другое. То есть тренировочные данные состоят из такого множества изображений, где каждому входному изображению соответствует выходное изображение, содержащее первое с другим стилем. |
+ | |||
+ | Примерами приложения такой задачи являются следующие трансляции изображений: | ||
+ | * черно-белое изображение {{---}} цветное | ||
+ | * сегментация изображения (англ. segmentation map) {{---}} реальная картинка | ||
+ | * линии-края (англ. edges) {{---}} фотография | ||
+ | * генерация разных поз и одежды на человеке | ||
+ | * описывающий изображение текст {{---}} фотография | ||
+ | |||
+ | [[File:Examples_paired_translation.jpg|700px|center|thumb|Примеры применения задачи трансляции изображения с парными тренировочными данными. (Pix2Pix)<ref>[https://github.com/phillipi/pix2pix Pix2Pix {{---}} GitHub]</ref>]] | ||
+ | |||
+ | === Обучение на непарных изображениях === | ||
+ | |||
+ | '''Обучение трансляции изображения с помощью непарных изображений''' — это такая трансляция изображений, тренировочные данные которой состоят из двух независимых групп, описывающих свой стиль, а цель которой является научиться отображать эти две группы так, чтобы содержание изображений (общее) сохранялось, а стиль (уникальные элементы изображений) переносился. | ||
+ | |||
+ | Пример: | ||
+ | * тренировочные данные {{---}} два множества: <code>{реальные фотографии}, {картины К.Моне}</code> | ||
+ | * приложение {{---}} взяли любую фотографию, например, поле с цветами; получили поле с цветами в стиле К.Моне. | ||
+ | |||
+ | [[File:Examples_unpaired_translation.jpeg|700px|center|thumb|Примеры применения задачи трансляции изображения с непарными тренировочными данными. (CycleGan)<ref>[https://github.com/junyanz/CycleGAN CycleGAN {{---}} GitHub]</ref>]] | ||
== Pix2Pix == | == Pix2Pix == |
Версия 16:16, 9 января 2021
Определение: |
Задача трансляции изображения (англ. Image-to-image translation) — это область задач компьютерного зрения, цель которой состоит в том, чтобы научиться строить соответствия между входным и выходным изображениями, используя тренировочные данные. Другими словами, задача состоит в том, чтобы научиться преобразовывать изображение из одной области в другую, получая в итоге изображение со стилем (характеристиками) последней. |
Содержание
Описание задачи
Задача разделяется на два вида в зависимости от тренировочных данных.
Различие заключается в том, что в одном случае, у нас есть четкое представление результата, который должен получиться, в то время как в другом случае, у нас есть только множество, определяющее стиль желаемого результата, но четкого результата нет.
Обучение на парных изображениях
Обучение трансляции изображения с помощью парных изображений — это сопряженная трансляция одного изображения в другое. То есть тренировочные данные состоят из такого множества изображений, где каждому входному изображению соответствует выходное изображение, содержащее первое с другим стилем.
Примерами приложения такой задачи являются следующие трансляции изображений:
- черно-белое изображение — цветное
- сегментация изображения (англ. segmentation map) — реальная картинка
- линии-края (англ. edges) — фотография
- генерация разных поз и одежды на человеке
- описывающий изображение текст — фотография
Обучение на непарных изображениях
Обучение трансляции изображения с помощью непарных изображений — это такая трансляция изображений, тренировочные данные которой состоят из двух независимых групп, описывающих свой стиль, а цель которой является научиться отображать эти две группы так, чтобы содержание изображений (общее) сохранялось, а стиль (уникальные элементы изображений) переносился.
Пример:
- тренировочные данные — два множества:
{реальные фотографии}, {картины К.Моне}
- приложение — взяли любую фотографию, например, поле с цветами; получили поле с цветами в стиле К.Моне.
Pix2Pix
Pix2PixHD
См. также
- Компьютерное зрение
- Generative Adversarial Nets (GAN)
- Сверточные нейронные сети
- Сегментация изображений