Изменения

Перейти к: навигация, поиск

Определение положения человека

2055 байт добавлено, 22:57, 23 января 2021
AlphaPose (2015)
<br><br><br><br><br><br><br><br><br><br>
Структура решения состоит из трех компонентов: сеть симметричных пространственных преобразователей (англ. ''Symmetric Spatial Transformer Network'', '''''SSTN'''''), параметрическое не-максимальное подавление без максимума позы (англ. ''Parametric Pose Non Maximum -maximum Suppression'', '''NMS'''<ref name="NMS">[https://towardsdatascience.com/non-maximum-suppression-nms-93ce178e177c Non-maximum Suppression, Sambasivarao. K, 2019]</ref>)) и генератор предложений с указанием позы (англ. ''Pose-Guided Proposals Generator'', '''''PGPG'''''). На рисунке 10 показан процесс работы решения. Сеть симметричных пространственных преобразователей состоит из сети пространственных преобразователей (англ. ''Spatial Transformer Network'', '''''STN''''') и генератор сети обратных пространственных преобразований (англ. ''Spatial De-Transformer Network'', '''''SDTN'''''). Модуль STN отдает результаты своей работы на вход определителю поз (англ. ''Single Person Pose Estimator'', '''''SPPE'''''), который, в свою очередь отдает свои результаты модулю SDTN. STN получает предложения людей {{---}} выделенные окружающими рамками потенциальные фигуры, а SDTN генерирует предложения по позициям этих людей. Параллельный SPPE действует как дополнительный регуляризатор на этапе обучения. Наконец, выполняется параметрическое не-максимальное подавление позы (англ. ''Parametric Pose Non-maximum Suppression'', '''NMS'''<ref name="NMS">[https://towardsdatascience.com/non-maximum-suppression-nms-93ce178e177c Non-maximum Suppression, Sambasivarao. K, 2019]</ref>) для устранения избыточных оценок позы. В отличие от традиционного обучения, мы обучаем модуль SSTN + SPPE на изображениях, сгенерированных генератором предложений с указанием позы (англ. ''Pose-Guided Proposals Generator'', '''''PGPG''''').
Идея в том, что они добавили так называемый spatial transformer network (STN), который выделяет человека (одного!) с выделенного прямоугольника (bounding box), чтобы детектору
Single Person Estimation было намного проще. В целом работает так: находим границы людей, разбиваем на прямоугольники, потом прогоняем через STN и потом уже просто SPE
125
правок

Навигация