Изменения

Перейти к: навигация, поиск

Определение положения человека

2101 байт добавлено, 00:46, 23 января 2021
OpenPose (2018)
{|align="right"
|-valign="top"
|[[file:Openpose vs competitionOpenposeschema.png|300px500px|thumb| Рисунок 10 [[https://githubarxiv.comorg/CMU-Perceptual-Computing-Labpdf/openpose/blob/master/README1611.08050.md pdf x]]]]|} Логика архитектуры OpenPose следующая: во-первых, входное RGB-изображение (рис. 1а) подается как вход в многослойную CNN с двумя ветвями. Две ветви означают, что CNN производит два разных вывода. На рисунке 10 верхняя ветвь, показанная бежевым цветом, предсказывает карты достоверности (англ. confidence map) (рис. 1b) расположения различных частей тела. Нижняя ветвь, показанная синим цветом, предсказывает поля сходства фрагментов (англ. affinity field, PAFs) (рис. 1c), которые представляют степень связи между различными частями тела.Многоступенчатость: на первом этапе (левая половина рисунка 10) сеть создает начальный набор карт достоверности обнаружения S и набор полей сходства для части L. Затем на каждой последующей стадии (правая половина рисунка 10) прогнозы из обеих ветвей на предыдущем этапе, вместе с характеристиками исходного изображения F, объединяются (обозначены знаком + на рисунке 10) и используются для получения более точных прогнозов. В реализации OpenPose последним этапом t выбран шестой.На рис. 3 показаны положительные преимущества многослойной архитектуры. В этом примере мы наблюдаем некоторую начальную путаницу между левой и правой частями тела на первых нескольких этапах. Но по мере того, как слой увеличивается, сеть различает их лучше.В конце карты достоверности и поля сходства обрабатываются методом жадного вывода (рис. 1d) для вывода двумерных ключевых точек для всех людей на изображении (рис. 1e).  <br><br><br><br><br><br><br><br><br>Важной особенностью является скорость работы данного решения. На рисунке 10 11 представлено сравнение времени работы трех доступных библиотек, решающих задачу определения положения человека (в одинаковых условиях на одинаковом аппаратном обеспечении): OpenPose, Alpha-Pose (fast Pytorch version), и Mask R-CNN. Время исполнения OpenPose является константным, в то время как у Alpha-Pose и Mask R-CNN линейно растет с числом людей на исходных данных.<br><br>Архитектура решения кратко изображена на рисунке 11: решение является многослойной CNN с двумя ветвями. Каждый слой в первой ветви предсказывает карту уверенности S^t, и каждый слой второй ветви предсказывает сходство фрагментов (англ. ''PAFs'') L^t. После каждого слоя, результаты каждой ветви, вместе с признаками изображения, объединяются для следующего слоя.
{|align="left"
|-valign="top"
|[[file:OpenposeschemaOpenpose vs competition.png|500px300px|thumb|Рисунок 11 [[https://arxivgithub.orgcom/pdfCMU-Perceptual-Computing-Lab/1611.08050openpose/blob/master/README.pdf md x]]]]
|}
<br><br><br><br><br><br><br><br><br><br><br><br><br>
* [https://arxiv.org/abs/1511.06645 DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation, Leonid Pishchulin, Eldar Insafutdinov, Siyu Tang, Bjoern Andres, Mykhaylo Andriluka, Peter Gehler, Bernt Schiele, 2016]
* [https://github.com/CMU-Perceptual-Computing-Lab/openpose/blob/master/README.md OpenPose github page]
* [https://medium.com/analytics-vidhya/understanding-openpose-with-code-reference-part-1-b515ba0bbc73 Understanding OpenPose (with code reference)— Part 1]
[[Категория: Машинное обучение]]
[[Категория: Компьютерное зрение]]
Анонимный участник

Навигация