125
правок
Изменения
→AlphaPose (2015)
<br><br><br><br><br><br><br><br><br><br>
Структура решения состоит из трех компонентов: сеть симметричных пространственных преобразователей (англ. ''Symmetric Spatial Transformer Network'', '''''SSTN'''''), параметрическое подавление без максимума позы (англ. ''Parametric Pose Non Maximum Suppression'', '''''NMS''''') и генератор предложений с указанием позы (англ. ''Pose-Guided Proposals Generator'', '''''PGPG''''').
Идея в том, что они добавили так называемый spatial transformer network (STN), который выделяет человека (одного!) с выделенного прямоугольника (bounding box), чтобы детектору
Single Person Estimation было намного проще. В целом работает так: находим границы людей, разбиваем на прямоугольники, потом прогоняем через STN и потом уже просто SPE