Изменения

Перейти к: навигация, поиск

Определение положения человека

1440 байт добавлено, 20:46, 28 января 2021
Нет описания правки
{{В разработке}}
 
'''Определение положения человека''' (англ. ''Human pose estimation'') {{---}} частный случай задачи [[Сегментация изображений | сегментации изображения]] из раздела [[Компьютерное зрение | компьютерного зрения]] о нахождении и локализации частей тела человека на изображениях или видео (рассматривается как последовательность изображений). Чаще всего позицией человека называют набор соединённых ключевых точек (англ. ''Joint''), соответствующих суставам (плечи, локти, кисти, тазобедренные суставы, колени, стопы) и другим ключевым точкам (шея, голова, центр торса). Эту задачу можно рассматривать в двух или трёх измерениях, от чего зависит сложность задачи и практические применения результатов. Также задачу можно разделить на два подтипа: определение положения для одного человека (англ. ''Single Person Pose Estimation''), определение положения для нескольких человек (англ. ''Multi Person Pose Estimation'')
|}
AlphaPose<ref name="AlphaPose">[https://arxiv.org/abs/1612.00137 RMPE: Regional Multi-Person Pose Estimation, Hao-Shu Fang1, Shuqin Xie, Yu-Wing Tai, Cewu Lu1, 2018]</ref> позволяет решать проблему определения положения как одного, так и нескольких человек в режиме реального времени. Данное решение задачи региональной оценки позы для нескольких человек (англ. ''Region Multi Person Estimation'', '''''RMPE''''') призвано облегчить оценку позы при наличии неточных окружающих рамок (англ. ''bounding box'') человека. Решение доступно для общего пользования и опубликовано на [https://github.com/MVIG-SJTU/AlphaPose GitHub].
<br><br><br><br><br><br><br><br><br><br>
Структура решения состоит из трех компонентов: сеть симметричных пространственных преобразователей (англ. ''Symmetric Spatial Transformer Network'', '''''SSTN'''''), параметрическое не-максимальное подавление позы (англ. ''Parametric Pose Non-maximum Suppression'', '''NMS'''<ref name="NMS">[https://towardsdatascience.com/non-maximum-suppression-nms-93ce178e177c Non-maximum Suppression, Sambasivarao. K, 2019]</ref>)) и генератор предложений с указанием позы (англ. ''Pose-Guided Proposals Generator'', '''''PGPG''''').
Структура решения состоит из трех компонентов: симметричная сеть пространственных преобразователей (англ. ''Symmetric Spatial Transformer Network'', '''''SSTN'''''), параметрическое не-максимальное подавление позы (англ. ''Parametric Pose Non-maximum Suppression'', '''NMS'''<ref name="NMS">[https://towardsdatascience.com/non-maximum-suppression-nms-93ce178e177c Non-maximum Suppression, Sambasivarao. K, 2019]</ref>)) и генератор предложений с указанием позы (англ. ''Pose-Guided Proposals Generator'', '''''PGPG''''').  На рисунке 10 показан процесс работы решения. Сеть симметричных пространственных преобразователей состоит из сети пространственных преобразователей (англ. ''Spatial Transformer Network'', '''''STN''''') и сети обратных пространственных преобразований (англ. ''Spatial De-Transformer Network'', '''''SDTN'''''). Модуль '''''STN ''''' отдает результаты своей работы на вход определителю поз (англ. ''Single Person Pose Estimator'', '''''SPPE'''''), который, в свою очередь отдает свои результаты модулю '''''SDTN'''''. '''''STN ''''' получает предложения предположения относительно людей {{---}} выделенные окружающими рамками потенциальные фигуры, $а '''''SDTN ''''' генерирует предложения по позициям этих окончательные предположения о позах людей$. Параллельный определитель поз (англ. ''Single Person Pose Estimator'', '''''SPPE''''') действует как дополнительный регуляризатор на этапе обучения. Наконец, выполняется параметрическое не-максимальное подавление позы (англ. ''Parametric Pose Non-maximum Suppression'', '''NMS'''<ref name="NMS">[https://towardsdatascience.com/non-maximum-suppression-nms-93ce178e177c Non-maximum Suppression, Sambasivarao. K, 2019]</ref>) для устранения избыточных оценок позы. В отличие от традиционного обучения, мы обучаем модуль '''''SSTN + SPPE ''''' на изображениях, сгенерированных генератором предложений с указанием позы (англ. ''Pose-Guided Proposals Generator'', '''''PGPG''''').
Если говорить о внутренних нюансах реализации решения, '''''STN ''''' базируется на ResNet18Детектор <ref name="ResNet">[https://docs.exponenta.ru/deeplearning/ref/resnet18.html Non-maximum ResNet18]</ref>, детектор людей {{- --}} на VGG <ref name="VGG">[https://arxiv.org/abs/1409.1556 Very Deep Convolutional Networks for Large-Scale Image RecognitionKaren Simonyan, Andrew Zisserman, 2014]</ref> SSD-500SPE <ref name="SSD">[https://arxiv.org/abs/1512.02325 SSD: Single Shot MultiBox Detector, Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng- Yang Fu, Alexander C. Berg, 2015]</ref>, '''''SPPE''''' представляет собой 8 последовательных сетей вида "песочые часы" (англ. ''8-stack hourglass network''<ref name="hourglassnetwork">[https://arxiv.org/abs/1603.06937 Stacked Hourglass Networks for Human Pose Estimation, Alejandro Newell, Kaiyu Yang, Jia Deng, 2016]</ref>).
{|align="left"
|}
<br><br><br><br><br><br><br><br><br><br><br><br>
Для обучения использовались наборы Так как AlphaPose, как и OpenPose, является решением, работающим в реальном времени, то сравнение этих двух решений наиболее интересно. На наборе данных MPII HumanPose, а также MSCOCO Human Pose<ref name="MPII">[http://human-pose.mpi-inf.mpg.de/ MPII Human Pose]</ref> было выполнено сравнение вероятности корректности определения ключевой точки (англ. ''Probability of Correct Keypoint Challange'', '''''PCK'''''). Результаты представлены в таблице на рисунке 11.
{|align="left"
174
правки

Навигация