Изменения

Перейти к: навигация, поиск

Задача нахождения объектов на изображении

2946 байт добавлено, 04:49, 10 апреля 2020
Подходы к решению задачи детекции объектов
|[[Файл:Anchors-Faster-R-CNN.png|300px|thumb|right|Anchor-ы в Faster R-CNN]]
|}
 
===Mask R-CNN===
 
Mask R-CNN {{---}} улучшение алгоритма Faster R-CNN, предложенное в 2017 году и обеспечивающее осуществлять возможность сегментации экземпляров объектов, а не только составление ограничивающих рамок с классификацией. В Mask R-CNN к традиционным для алгоритмов семейства R-CNN метке класса и координатам ограничивающей рамки добавляется также маска объекта {{---}} прямоугольная матрица принадлежности пикселя текущему объекту. Маски предсказываются для каждого класса с помощью классификации без наличия информации о том, что изображено в регионе, что выдяеляет отдельный классификатор на последнем уровне сети. Потребность предсказания маски обусловила несколько архитектурных изменений относительно Faster R-CNN: ключевым является использование RoIAlign вместо RoIPooling. RoIPooling хорошо подходит для масштабирования ограничивающих рамок, однако, для маски такой метод оказывается недостаточно точным. RoIAlign не использует округлений сдвигов для пулинга, а сохраняет значения с плавающей точкой, используя билинейную интерполяцию. Это обеспечило более точное выделение маски объекта.
 
Модель Mask R-CNN совершила прорыв в задачах сегментации экземпляров, детекции объектов и определения поз людей на фотографии (англ. human pose estimation). Функция потерь является общей и включает три компонента {{---}} классификация, регрессия границ рамки и регрессия значений маски. Это позволило обеспечить взаимопомощь определения сдвигов границ объектов и более точного определения маски.
 
{|align="center"
|-valign="top"
|[[Файл:Mask-R-CNN.png|300px|thumb|right|Схема работы Mask R-CNN]]
|[[Файл:Mask-R-CNN-Example.png|300px|thumb|right|Пример семантической сегментации объектов посредством Mask R-CNN]]
|}
 
===YOLO===
107
правок

Навигация