Изменения

Перейти к: навигация, поиск

Задача нахождения объектов на изображении

1873 байта добавлено, 11:34, 7 апреля 2020
Постановка задачи
==Постановка задачи==
 
[[Файл:IoU.jpg|300px|thumb|right|Примеры влияния взаимного положения bounding box-ов на метрику IoU]]
Задача нахождения объектов на изображении может быть поставлена различным образом и включает в себя класс других задач, помогающих определить, какие объекты находятся на изображении и где они расположены в сетке пикселей исходного изображения.
Задача семантической сегментации (англ. semantic segmentation) {{---}} задача, в которой на вход модели подаётся изображение, а на выходе для каждого пикселя является метка принадлежности этого пикселя к определённой категории. Например, если в исходном изображении человек переходит дорогу, то для каждого пикселя необходимо вывести, является ли этот пиксель частью человеческого тела, профиля дороги, знака дорожного движения, неба, или какого-то другого типа. Существенный недостаток применения одной лишь семантической сегментации относительно задач, связанных с распознаванием объектов {{---}} маркировка пикселей по принадлежности только к типу объекта, что не создаёт различия между объектами как таковыми. Например, если назвать "объектом" связную область пикселей, характеризующих одинаковый тип, то два объекта, перегораживающих друг друга на исходном изображении, будут определены как один объект, что в корне неверно. Задача семантической сегментации изображения с дифференцированием объектов называется задачей сегментации экземпляров (англ. instance segmentation). Модели, решающие задачу сегментации экземпляров, применяются, в том числе, для подсчёта людей в массовых скоплениях, для автомобилей с автоматическим управлением.
 
Задача классификации с локализацией (англ. classification and localization) {{---}} задача, в которой в дополнение к предсказанию метки категории класса определяется рамка, ограничивающая местоположение экземпляра объекта на картинке. Как правило, рамка имеет прямоугольную форму, её стороны ориентированы параллельно осям исходного изображения, а площадь является минимальной при условии полного нахождения экземпляра объекта внутри этой рамки. Такую прямоугольную рамку называют термином bounding box. Bounding box можно задать при помощи центра, ширины и высоты, а также можно обучить модель не только верной классификации, но и максимально точному определению границ рамки. В качестве метрики для определения местоположения bounding box-а чаще всего используется Intersection over Union: $IoU = \frac{S(A \cup B)}{S(A \cap B)}$, где $A$ и $B$ - предсказанный bounding box и настоящий bounding box соответственно. $IoU$ равно нулю в случае непересекающихся bounding box-ов и равно единице в случае идеального наложения.
==Семантическая сегментация==
107
правок

Навигация