Определение положения человека — различия между версиями

Версия 17:46, 21 января 2021

Эта статья находится в разработке!

Определение положения человека (англ. Human pose estimation) — частный случай задачи сегментации изображения из раздела компьютерного зрения о нахождении и локализации частей тела человека на изображениях или видео (рассматривается как последовательность изображений). Чаще всего позицией человека называют набор соединённых ключевых точек (англ. Joint), соответствующих суставам (плечи, локти, кисти, тазобедренные суставы, колени, стопы) и другим ключевым точкам (шея, голова, центр торса). Эту задачу можно рассматривать в двух или трёх измерениях, от чего зависит сложность задачи и практические применения результатов. Также задачу можно разделить на два подтипа: определение положения для одного человека (англ. Single Person Estimation), определение положения для нескольких человек (англ. Multi Person Estimation)

Содержание

1 Постановка задачи
- 1.1 Single Person Estimation
- 1.2 Multi Person Estimation
2 Область применения
3 Методы решения
4 См. также
5 Примечания
6 Источники информации

Постановка задачи

Single Person Estimation

Задача заключается в определении положения одного человека по фото или видео. Важным условием является то, что на изображении должен быть только один человек, иначе гарантировать корректное выполнение невозможно. В качестве результата необходимо получить набор соединённых точек, указывающих на соответствующие части тела. Сложности заключаются в том, чтобы отделить друг от друга разные части тела, корректно определять положение конечностей, скрытых за другими объектами, а также корректно отличать левые части тела от правых, независимо от поворота человека на изображении.

Рис. 1 Исходная картинка

Рис. 2 Результат работы алгоритма для одного человека

Multi Person Estimation

Эта задача имеет более высокую сложность, т.к. необходимо обнаружить множество человек на изображении, а затем определить положение для каждого человека из множества обнаруженных людей. Основная сложность в том, чтобы корректно определить и отличить друг от друга части тела, принадлежащие разным людям, а так же решить все сложности связанные с Single Person Estimation.

Рис. 3 Исходная картинка с несколькими людьми

Рис. 4 Промежуточный этап разделения людей

Рис. 5 Итоговый результат работы алгоритма

Область применения

Кинематограф и анимация — CGI^[1] (англ. computer-generated imagery, букв. «изображения, сгенерированные компьютером») и захват движения^[2] (англ. Motion capture). Несмотря на то, что в настоящий момент чаще используется маркерный способ, при котором человек надевает костюм с датчиками движения, в последние годы большое развитие получил безмаркерный способ, основанный на компьютерном зрении.
Видеоигры — широко применяется в дополненной реальности (англ. Augmented Reality, AR^[3]) и виртуальной реальности (англ. Virtual Reality, VR^[4]). Захват движения (англ. Motion tracking) также используется в консольных игровых решениях. Помимо этого, определение положения человека необходимо непосредственно в производстве видеоигр, для этого, опять же, используется технология CGI^[1].
Человеко-компьютерное взаимодействие (англ. Human-computer interaction) — здесь определение положения человека используется для взаимодействия с роботами или компьютерами, для отдачи команд компьютерным системам. Примером такого взаимодействия можно назвать уже упомянутый захват движения при игре на консолях.
Биомеханика спорта (англ. Sport motion analysis) — анализ движений при тренировке и соревнованиях. Используется для лучшего понимания процессов, происходящих при занятии спортом, для предотвращения травм и растяжений, и для установления новых рекордов. Информация, полученная в ходе анализа, используется также для создания профессионального инвентаря.

Методы решения

DeepPose

Первая значимая разработка с использованием глубокого обучения для задачи определения положения человека. Модель продемонстрировала высокую эффективность и превзошла существовавшие на тот момент решения. В этом подходе оценка позы формулируется как задача CNN-регрессии по суставам (ключевым точкам) тела. Для большей эффективности используется каскад из нескольких CNN. Важной особенностью является то, что обрабатывается человек целиком, что позволяет корректно определять позу, даже если некоторые суставы скрыты.

Если рассматривать архитектуру, модель основана на AlexNet^[5] (7 слоёв) и дополнительном финальном слое, выводящем пары координат ключевых точек. Обучение модели производится с использованием функции потерь L2^[6] для регрессии (англ. L2 loss for regression).

Рис. 6 Примеры результатов работы алгоритма

Рис. 7 Слева: схематичное изображение глубокой нейронной сети для регрессии. Мы визуализируем слои сети с соответствующими размерами, где сверточные слои — голубые, а полностью связные — зеленые. Параметр свободных слоёв не показан.
Справа: на шаге s, a уточняющий регрессор применяется на фрагменте изображения чтобы улучшить результат предыдущего шага

DeepCut

Решает задачу определения поз для нескольких людей (англ. Multi person estimation). Данный подход предполагает одновременное решение задач определения частей тела и отделения друг от друга частей тела разных людей: определяется количество людей в сцене, идентифицируются закрытые части тела и устраняется неоднозначность частей тела людей, находящихся в непосредственной близости друг от друга. Это отличает данное решение от многих других, сначала выявляющих людей, а затем оценивающие их положения. Авторы предлагают разделение и разметку набора гипотез о частях тела, созданных с помощью детекторов частей на основе CNN. Неявно выполняется не-максимальное подавление (англ. Non-maximum Suppression, NMS^[7]) для набора возможных частей и производится группировка, чтобы сформировать конфигурации частей тела с учетом геометрических ограничений и ограничений внешнего вида.

Рис. 8 (a) начальное определение возможных частей и попарных связей между всеми обнаруженными частями, которые (b) кластеризуются по принадлежности одному человеку (один цвет - один человек) и каждая часть помечается меткой соответствующего этой части класса (разные цвета и символы относятся к разным частям тела); (c) демонстрация результата.

OpenPose

Первая система, решающая задачу определения задачу определения поз для нескольких людей (англ. Multi person estimation) в режиме реального времени. Определяет 135 ключевых точек для каждого человека. Поддерживает определение не только крупных частей, но и отдельных пальцев и их движений. Для обучения использовался CMU Panoptic Studio dataset^[8], состоящий из съемок людей с большого числа ракурсов в специальном куполе, оснащенном 500 камерами^[9]. Важной особенностью является скорость работы данного решения.

Рис. 9 Примеры результатов работы алгоритма

Рис. 10 Сравнение времени работы трех доступных библиотек, решающих задачу определения положения человека (в одинаковых условиях на одинаковом аппаратном обеспечении): OpenPose, Alpha-Pose (fast Pytorch version), и Mask R-CNN. Время исполнения OpenPose является константным, в то время как у Alpha-Pose и Mask R-CNN линейно растет с числом людей на исходных данных.

Рис. 11 Архитектура многослойной CNN с двумя ветвями. Каждый слой в первой ветви предсказывает карту уверенности S^t, и каждый слой второй ветви предсказывает сходство фрагментов (англ. PAFs) L^t. После каждого слоя, результаты каждой ветви, вместе с признаками изображения, объединяются для следующего слоя

См. также

Примечания

Источники информации

[CGI-1] 1,0 ^1,1 CGI

[motion-capture-2] Захват движения

[AR-3] Дополненная реальность

[VR-4] Виртуальная реальность

[alexNet-5] Сверточная нейросеть AlexNet, Павел Глек, 2018

[regularization-6] L2 регуляризация

[NMS-7] Non-maximum Suppression, Sambasivarao. K, 2019

[CMU_Panoptic_Studio_dataset-8] CMU Panoptic Studio dataset

[OpenPose_.E2.80.93_.D0.98.D0.98_.D0.B4.D0.BB.D1.8F_.D0.BF.D0.BE.D0.BD.D0.B8.D0.BC.D0.B0.D0.BD.D0.B8.D1.8F_.D1.80.D0.BE.D0.B1.D0.BE.D1.82.D0.B0.D0.BC.D0.B8_.D1.8F.D0.B7.D1.8B.D0.BA.D0.B0_.D1.82.D0.B5.D0.BB.D0.B0_.D0.B8.D0.B7_CMU-9] ИИ для понимания роботами языка тела из CMU, 2017

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

@@ Строка 5: / Строка 5: @@
 == Постановка задачи ==
 === Single Person Estimation ===
-Задача заключается в определении положения одного человека по фото или видео. Важным условием является то, что на изображении должен быть только один человек, иначе гарантировать корректное выполнение невозможно. В качестве результата необходимо получить набор соединённых точек, указывающих на соответствующие части тела. Сложности заключаются в том, чтобы отделить друг от друга разные части тела, корректно определять положение конечностей, скрытых за другими объектами, а так же корректно отличать левые части тела от правых, независимо от поворота человека на изображении.
+Задача заключается в определении положения одного человека по фото или видео. Важным условием является то, что на изображении должен быть только один человек, иначе гарантировать корректное выполнение невозможно. В качестве результата необходимо получить набор соединённых точек, указывающих на соответствующие части тела. Сложности заключаются в том, чтобы отделить друг от друга разные части тела, корректно определять положение конечностей, скрытых за другими объектами, а также корректно отличать левые части тела от правых, независимо от поворота человека на изображении.
 {|align="left"
 |-valign="top"

Определение положения человека — различия между версиями

Версия 17:46, 21 января 2021

Содержание

Постановка задачи

Single Person Estimation

Multi Person Estimation

Область применения

Методы решения

DeepPose

DeepCut

OpenPose

См. также

Примечания

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты