Изменения

Задача нахождения объектов на изображении

82 байта добавлено, 13:45, 7 апреля 2020

м

Chapters

|}

==~~R-CNN~~Подходы к решению задачи детекции объектов==

[[Файл:R-CNN.png|300px|thumb|right|Схема работы R-CNN]]

Селективный поиск, в свою очередь, тоже можно обучать с помощью линейной регрессии параметров региона {{---}} ширины, высоты, центра. Этот метод, названный bounding-box regression, позволяет более точно выделить объект. В качестве данных для регрессии используются признаки, полученные в результате работы CNN.

===Fast R-CNN===

[[Файл:Fast-R-CNN.png|300px|thumb|right|Схема работы Fast R-CNN]]

За счёт того, что в R-CNN для каждого из 2000 регионов классификация производится отдельно, обучение сети занимает большой объём времени. Оригинальной версии алгоритма R-CNN для обработки каждого тестового изображения требовалось порядка 47 секунд, поэтому его авторы предложили алгоритм, улучшающий производительность - Fast R-CNN. Его характерной особенностью является подача на вход CNN всего изображения для формирования карты объектов. Преобразование признаков к фиксированному размеру производится с помощью Region of Interest (RoI). Принцип RoI заключается в делении региона сетку, размер ячеек которой совпадает с размерностью выхода, после чего по ячейкам сетки проводится выбор максимального значения. Таким образом, операция свёртки применяется только один раз для каждого изображения. Также в Fast R-CNN используется совместное обучение SVM, CNN и bounding-box регрессора вместо независимого обучения.

===Faster R-CNN===

Fast R-CNN, как и оригинальный алгоритм R-CNN, использует для нахождения регионов селективный поиск. Несмотря на то, что за счёт единоразовой свёртки время обучения на одном тестовом изображении алгоритмом снизилось с 49 до 2.3 секунд, селективный поиск, который выполняет предложения регионов, является узким местом в производительности Fast R-CNN. Авторы алгоритма Faster R-CNN, призванного решить эту проблему, предложили вычислять регионы с помощью отдельного модуля Region Proposal Network (RPN). RPN является свёрточной сетью, выполняющей роль генератора предложений. Исходное изображение является входом свёрточной сети, генерирующей карту признаков. Сгенерированная карта признаков попадает в RPN, после чего значения передаются в два полносвязных слоя {{---}} box-regression-layer (сокр. reg layer), прогнозирующий значения смещения для bounding box-ов, и box-classification-layer (сокр. cls layer), классифицирующий изображения в пределах предлагаемой области. Также важную роль играют anchor-ы - рамки с разными положениями и размерами для скользящего окна. Anchor-ы используются для расчёта вероятностей нахождения объекта внутри рамки cls-слоем, а за сдвиг их местоположения отвечает reg-слой.

Agentdolphin

107

правок

Изменения

Задача нахождения объектов на изображении

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты