125
правок
Изменения
→AlphaPose (2015)
<br><br><br><br><br><br><br><br><br><br>
Структура решения состоит из трех компонентов: сеть симметричных пространственных преобразователей (англ. ''Symmetric Spatial Transformer Network'', '''''SSTN'''''), параметрическое не-максимальное подавление позы (англ. ''Parametric Pose Non-maximum Suppression'', '''NMS'''<ref name="NMS">[https://towardsdatascience.com/non-maximum-suppression-nms-93ce178e177c Non-maximum Suppression, Sambasivarao. K, 2019]</ref>)) и генератор предложений с указанием позы (англ. ''Pose-Guided Proposals Generator'', '''''PGPG'''''). На рисунке 10 показан процесс работы решения. Сеть симметричных пространственных преобразователей состоит из сети пространственных преобразователей (англ. ''Spatial Transformer Network'', '''''STN''''') и сети обратных пространственных преобразований (англ. ''Spatial De-Transformer Network'', '''''SDTN'''''). Модуль STN отдает результаты своей работы на вход определителю поз (англ. ''Single Person Pose Estimator'', '''''SPPE'''''), который, в свою очередь отдает свои результаты модулю SDTN. STN получает предложения людей {{---}} выделенные окружающими рамками потенциальные фигуры, $а SDTN генерирует предложения по позициям этих людей$. Параллельный определитель поз (англ. ''Single Person Pose Estimator'', '''''SPPE ''''') действует как дополнительный регуляризатор на этапе обучения. Наконец, выполняется параметрическое не-максимальное подавление позы (англ. ''Parametric Pose Non-maximum Suppression'', '''NMS'''<ref name="NMS">[https://towardsdatascience.com/non-maximum-suppression-nms-93ce178e177c Non-maximum Suppression, Sambasivarao. K, 2019]</ref>) для устранения избыточных оценок позы. В отличие от традиционного обучения, мы обучаем модуль SSTN + SPPE на изображениях, сгенерированных генератором предложений с указанием позы (англ. ''Pose-Guided Proposals Generator'', '''''PGPG''''').Идея в том, что они добавили так называемый spatial transformer network (STN), который выделяет человека (одного!) с выделенного прямоугольника (bounding box), чтобы детекторуSingle Person Estimation было намного проще. В целом работает так: находим границы людей, разбиваем на прямоугольники, потом прогоняем через STN и потом уже просто SPE
STN базируется на ResNet18
Детектор людей - VGG SSD-500
SPE - 8-stack hourglass network
{|align="left"