Изменения

Перейти к: навигация, поиск

Определение положения человека

165 байт добавлено, 16:44, 23 января 2021
Методы решения
{|align="right"
|-valign="top"
|[[file:challenging.png|300px|thumb| Рисунок 6 Примеры результатов работы алгоритма [[https://arxiv.org/pdf/1312.4659.pdf xИсточник]]]]
|}
DeepPose<ref name="DeepPose">[https://arxiv.org/pdf/1312.4659.pdf DeepPose: Human Pose Estimation via Deep Neural Networks, Alexander Toshev, Christian Szegedy, 2014]</ref> {{---}} первая значимая разработка с использованием [[глубокое обучение|глубокого обучения]] для задачи определения положения человека. Модель продемонстрировала высокую эффективность и превзошла существовавшие на тот момент решения.
|-valign="top"
|[[file:Deepposeschema.PNG|800px|thumb| Рисунок 7 Слева: схематичное изображение глубокой нейронной сети для регрессии. Мы визуализируем слои сети с соответствующими размерами, где сверточные слои {{---}} голубые, а полносвязные {{---}} зеленые. Параметр свободных слоёв не показан. <br>Справа: на шаге $s$, a уточняющий регрессор применяется на фрагменте изображения чтобы улучшить результат предыдущего шага
[[https://arxiv.org/pdf/1312.4659.pdf xИсточник]]]]
|}
<br><br><br><br><br><br><br><br><br><br><br><br><br><br><br>
{|align="right"
|-valign="top"
|[[file:Deepposepcp.png|400px|thumb| Рисунок 8 [[https://arxiv.org/pdf/1312.4659.pdf xИсточник]]]]
|}
Оценка эффективности решения проводилась на нескольких наборах данных, в частности на LSP (Leeds sports dataset)<ref name="LSP">[https://sam.johnson.io/research/lsp.html LSP dataset]</ref> и FLIC (Frames Labeled In Cinema)<ref name="FLIC">[https://bensapp.github.io/flic-dataset.html FLIC dataset]</ref>. На наборе данных LSP оценивался процент корректно определенных частей (англ. ''Percentage of Correct Parts'', '''''PCP'''''). Сводная таблица представлена на рисунке 8. Оценка производилась на первом, втором и третьем слоях, а также на пяти других решениях: Dantone et al.<ref name="Dantone">M. Dantone, J. Gall, C. Leistner, and L. Van Gool. Human pose estimation using body parts dependent joint regressors. In CVPR, 2013</ref>, Tian et al.<ref name="Tian">Y. Tian, C. L. Zitnick, and S. G. Narasimhan. Exploring the spatial hierarchy of mixture models for human pose estimation. In ECCV, 2012</ref>, Johnson et al.<ref name="Johnson">S. Johnson and M. Everingham. Learning effective human pose estimation from inaccurate annotation. In CVPR, 2011</ref>, Wang et al.<ref name="Wang">F. Wang and Y. Li. Beyond physical connections: Tree models in human pose estimation. In CVPR, 2013</ref>, Pishchulin<ref name="Pishchulin">L. Pishchulin, M. Andriluka, P. Gehler, and B. Schiele. Poselet conditioned pictorial structures. In CVPR, 2013</ref>. Наилучший результат в столбце выделен жирным.
{|align="right"
|-valign="top"
|[[file:Deepcutexamle.png|400px|thumb| Рисунок 9 [[https://arxiv.org/pdf/1511.06645.pdf xИсточник]]]]
|}
DeepCut<ref name="DeepCut">[https://arxiv.org/pdf/1511.06645.pdf DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation, Leonid Pishchulin, Eldar Insafutdinov, Siyu Tang, Bjoern Andres, Mykhaylo Andriluka, Peter Gehler, and Bernt Schiele, 2016]</ref> решает задачу определения поз для нескольких людей (англ. ''Multi person Pose estimation'') и находитс в открытом [https://github.com/eldar/deepcut доступе].
{|align="left"
|-valign="top"
|[[file:Deepcutgraphics.png|400px|thumb| Рисунок 10 [[https://arxiv.org/pdf/1511.06645.pdf xИсточник]]]]|[[file:Deepcuttable.png|400px|thumb| Рисунок 11 [[https://arxiv.org/pdf/1511.06645.pdf xИсточник]]]]
|}
<br><br><br><br><br><br><br><br><br><br><br><br><br>
{|align="left"
|-valign="top"
|[[file:Openpose.jpg|300px|thumb| Рисунок 12 Примеры результатов работы алгоритма [[https://github.com/CMU-Perceptual-Computing-Lab/openpose/blob/master/README.md xИсточник]]]]
|}
OpenPose<ref name="OpenPose">[https://arxiv.org/pdf/1812.08008.pdf OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields, Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, and Yaser Sheikh, 2019]</ref> {{---}} первая система, решающая задачу определения поз для нескольких людей (англ. ''Multi person Pose estimation'') в режиме реального времени c открытым [https://github.com/CMU-Perceptual-Computing-Lab/openpose исходным кодом].
{|align="left"
|-valign="top"
|[[file:Openpose example.png|800px|thumb|Рисунок 13 [[https://arxiv.org/pdf/1611.08050.pdf xИсточник]]]]
|}
<br><br><br><br><br><br><br><br><br><br>
{|align="right"
|-valign="top"
|[[file:Openposeschema.png|500px|thumb|Рисунок 14 [[https://arxiv.org/pdf/1611.08050.pdf xИсточник]]]]
|}
{|align="left"
|-valign="top"
|[[file:Openposestagebystage.png|600px|thumb|Рисунок 15. Результаты на слоях 1, 3 и 6 [[https://arxiv.org/pdf/1611.08050.pdf xИсточник]]]]
|}
{|align="right"
|-valign="top"
|[[file:Openpose vs competition.png|300px|thumb| Рисунок 16 [[https://github.com/CMU-Perceptual-Computing-Lab/openpose/blob/master/README.md xИсточник]]]]
|}
Важной особенностью является скорость работы данного решения. На рисунке 16 представлено сравнение времени работы трех доступных библиотек, решающих задачу определения положения человека (в одинаковых условиях на одинаковом аппаратном обеспечении): OpenPose, Alpha-Pose<ref name="Alpha-Pose">[https://github.com/MVIG-SJTU/AlphaPose AlphaPose, Hao-Shu Fang, Shuqin Xie, Yu-Wing Tai and Cewu Lu, 2018]</ref> (fast Pytorch version), и Mask R-CNN<ref name="MaskR-CNN">[https://arxiv.org/abs/1703.06870 Mask R-CNN, Kaiming He, Georgia Gkioxari, Piotr Dollár, Ross Girshick, 2018]</ref>. Время исполнения OpenPose является постоянным, в то время как у Alpha-Pose и Mask R-CNN линейно растет с числом людей на исходных данных.
125
правок

Навигация