Изменения

Определение положения человека

188 байт добавлено, 00:51, 23 января 2021

→‎OpenPose (2018)

|[[file:Openposeschema.png|500px|thumb|Рисунок 10 [[https://arxiv.org/pdf/1611.08050.pdf x]]]]

|}

Логика архитектуры OpenPose следующая: во-первых, входное RGB-изображение (~~рис. 1а~~рисунок 11а) подается как вход в многослойную CNN с двумя ветвями. Две ветви означают, что CNN производит два разных вывода. На рисунке 10 верхняя ветвь, показанная бежевым цветом, предсказывает карты достоверности (англ. confidence map) (~~рис. 1b~~рисунок 11b) расположения различных частей тела. Нижняя ветвь, показанная синим цветом, предсказывает поля сходства фрагментов (англ. affinity field, PAFs) (~~рис. 1c~~рисунок 11c), которые представляют степень связи между различными частями тела.

Многоступенчатость: на первом этапе (левая половина рисунка 10) сеть создает начальный набор карт достоверности обнаружения S и набор полей сходства для части L. Затем на каждой последующей стадии (правая половина рисунка 10) прогнозы из обеих ветвей на предыдущем этапе, вместе с характеристиками исходного изображения F, объединяются (обозначены знаком + на рисунке 10) и используются для получения более точных прогнозов. В реализации OpenPose последним этапом t выбран шестой.

На рис. 3 показаны положительные преимущества многослойной архитектуры. В этом примере мы наблюдаем некоторую начальную путаницу между левой и правой частями тела на первых нескольких этапах. Но по мере того, как слой увеличивается, сеть различает их лучше.

В конце карты достоверности и поля сходства обрабатываются методом жадного вывода (~~рис. 1d~~рисунок 11d) для вывода двумерных ключевых точек для всех людей на изображении (~~рис~~рисунок 11e). ~~1e)~~{|align="left"|-valign="top"|[[file:Openpose example.png|800px|thumb|Рисунок 11 [[https://arxiv.org/pdf/1611.08050.pdf x]]]]|}

Важной особенностью является скорость работы данного решения. На рисунке 11 12 представлено сравнение времени работы трех доступных библиотек, решающих задачу определения положения человека (в одинаковых условиях на одинаковом аппаратном обеспечении): OpenPose, Alpha-Pose (fast Pytorch version), и Mask R-CNN. Время исполнения OpenPose является константным, в то время как у Alpha-Pose и Mask R-CNN линейно растет с числом людей на исходных данных.

{|align="left"

|-valign="top"

|[[file:Openpose vs competition.png|300px|thumb| Рисунок 11 12 [[https://github.com/CMU-Perceptual-Computing-Lab/openpose/blob/master/README.md x]]]]

|}

242203

125

правок

Изменения

Определение положения человека

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты