Изменения

Перейти к: навигация, поиск

Определение положения человека

193 байта добавлено, 21 январь
OpenPose
===OpenPose===
{|align="left"
|-valign="top"
|[[file:Openpose.jpg|300px|thumb| [https://github.com/CMU-Perceptual-Computing-Lab/openpose/blob/master/README.md Рисунок 9 Примеры результатов работы алгоритма]]]
|}
Первая система, решающая задачу определения поз для нескольких людей (англ. ''Multi person estimation'') в режиме реального времени. Определяет 135 ключевых точек для каждого человека. Поддерживает определение не только крупных частей, но и отдельных пальцев и их движений. Для обучения использовался CMU Panoptic Studio dataset<ref name="CMU Panoptic Studio dataset">[http://domedb.perception.cs.cmu.edu/ CMU Panoptic Studio dataset]</ref>, состоящий из съемок людей с большого числа ракурсов в специальном куполе, оснащенном 500 камерами<ref name="OpenPose – ИИ для понимания роботами языка тела из CMU">[https://robotics.ua/news/ai/6256-cmu_openpose_ai_dlya_ponimaniya_robotami_yazyka_tela ИИ для понимания роботами языка тела из CMU, 2017]</ref>.
<br><br><br><br><br><br><br><br>
{|align="right"
|-valign="top"
|[[file:Openposevs competition.jpgpng|400px|thumb| [https://github.com/CMU-Perceptual-Computing-Lab/openpose/blob/master/README.md Рисунок 9 Примеры результатов работы алгоритма10]]]|}Первая системаВажной особенностью является скорость работы данного решения. На рисунке 10 представлено сравнение времени работы трех доступных библиотек, решающая решающих задачу определения поз для нескольких положения человека (в одинаковых условиях на одинаковом аппаратном обеспечении): OpenPose, Alpha-Pose (fast Pytorch version), и Mask R-CNN. Время исполнения OpenPose является константным, в то время как у Alpha-Pose и Mask R-CNN линейно растет с числом людей на исходных данных.<br><br>Архитектура решения кратко изображена на рисунке 11: решение является многослойной CNN с двумя ветвями. Каждый слой в первой ветви предсказывает карту уверенности S^t, и каждый слой второй ветви предсказывает сходство фрагментов (англ. ''Multi person estimationPAFs'') в режиме реального времениL^t. Определяет 135 ключевых точек для После каждого человека. Поддерживает определение не только крупных частейслоя, но и отдельных пальцев и их движений. Для обучения использовался CMU Panoptic Studio dataset<ref name="CMU Panoptic Studio dataset">[http://domedb.perception.cs.cmu.edu/ CMU Panoptic Studio dataset]</ref>результаты каждой ветви, состоящий из съемок людей вместе с большого числа ракурсов в специальном куполепризнаками изображения, оснащенном 500 камерами<ref name="OpenPose – ИИ объединяются для понимания роботами языка тела из CMU">[https://robotics.ua/news/ai/6256-cmu_openpose_ai_dlya_ponimaniya_robotami_yazyka_tela ИИ для понимания роботами языка тела из CMU, 2017]</ref>. Важной особенностью является скорость работы данного решенияследующего слоя.
{|align="left"
|-valign="top"
|[[file:Openpose vs competition.png|400px|thumb| [https://github.com/CMU-Perceptual-Computing-Lab/openpose/blob/master/README.md Рисунок 10 Сравнение времени работы трех доступных библиотек, решающих задачу определения положения человека (в одинаковых условиях на одинаковом аппаратном обеспечении): OpenPose, Alpha-Pose (fast Pytorch version), и Mask R-CNN. Время исполнения OpenPose является константным, в то время как у Alpha-Pose и Mask R-CNN линейно растет с числом людей на исходных данных.]]]|[[file:Openposeschema.png|400px|thumb| [https://arxiv.org/pdf/1611.08050.pdf Рис. Рисунок 11 Архитектура многослойной CNN с двумя ветвями. Каждый слой в первой ветви предсказывает карту уверенности S^t, и каждый слой второй ветви предсказывает сходство фрагментов (англ. ''PAFs'') L^t. После каждого слоя, результаты каждой ветви, вместе с признаками изображения, объединяются для следующего слоя]]]
|}
<br><br><br><br><br><br><br><br><br><br><br><br><br><br><br><br><br><br><br><br><br><br>
== См. также ==
Анонимный участник

Навигация