Компьютерное зрение

Материал из Викиконспекты
Перейти к: навигация, поиск

Компьютерное зрение — это научное направление в области искусственного интеллекта и связанные с ним технологии получения изображений объектов реального мира, их обработки и использования полученных данных для решения разного рода прикладных задач без участия (полного или частичного) человека.


Задачи компьютерного зрения

Идентификация

Задача идентификации состоит в том, чтобы классифицировать изображение целиком. Для этого на изображении выделяются ключевые области на изображении и по ним происходит классификация, например с помощью решающих деревьев, или сверточных нейронных сетей

Распознавание объектов

Задача состоит в том, чтобы по изображению суметь выделить на нем некоторый набор объектов. Пока задача не решена в общем случае – алгоритм не может классифицировать случайные объекты на изображении. Однако способен распознавать заранее заученный набор объектов с достаточно высокой точностью.

Самым простым методом детекции объектов является метод скользящего окна(R-CNN), при котором мы проходимся некоторым окном фиксированного размера по каждому кусочку картинки, и применяем к нему простой классификатор, обученный распознавать заранее определенный набор объектов. Модификации этого метода, такие как Faster R-CNN применяются до сих пор

Сегментация изображения

Задача похожая на детекцию объектов, но в отличие от нее требуется не окружить найденные объекты рамками, а выделить пиксели, которые этот объекты составляют. Сегментация применяется во многих областях, например, в производстве для индикации дефектов при сборке деталей, в медицине для первичной обработки снимков, также для составления карт местности по снимкам со спутников. Самый простой алгоритм сегментации – WaterShred, заключающийся в разделении на куски функции от координат пикселей, начиная с минимумов этой функции

Оценка положения(Pose Estimation)

Задача, в некотором роде продолжающая задачу сегментации. Заключается в выделении некоторого каркаса объекта и предсказании его дальнейшего движения. Чаще всего применяется к обработке. Положения людей на фотографии. В зависимости от количества рассматриваемых людей различают single-person и multi-person pose estimation . Различие состоит в том, что во втором случае необходимо также учитывать, что объекты могут накладываться. Друг на друга. Для выполнения этой задачи сначала обрезается фон, оставляя только изображения непосредственно объектов, а затем для каждого из объектов с помощью сверточных нейронных сетей выделяются области суставов, которые затем соединяются.

Распознавание текста

Одна из ключевых задач компьютерного зрения. Сначала с помощью алгоритмов детекции выделяется область в которой текст написан, затем производится непосредственно распознавание текста например с помощью алгоритмов сегментации. При этом задачи распознавания текста написанного на листе бумаги, и распознавания текста написанного где-то на изображении (“in the wild”), сильно различаются, в силу наличия в последнем случае помех, которые мешают выделить конкретные буквы. В этом случае может помочь, например обучение предсказания буквы по остальным буквам в слове.

Генерация объектов

Задача состоит в том, чтобы по известному набору объектов научится создавать похожие объекты, но при этом не совпадающие ни с одним из тестовых. Например создавать анимационных персонажей в стилистике мультфильма, нарисовав руками только пару из них. Для этого применяют такие архитектуры как GAN, при которой сеть делится на две, одна из которых стремится создать объект, а вторая его отбраковать, или вариационный автокодировщик.

Примечания

Ссылки

  1. [1] - задача Pose Estimation
  2. [2] - Статья на Хабре, краткий обзор задач компьютерного зрения