125
правок
Изменения
→DeepPose (2013)
|[[file:challenging.png|300px|thumb| Рисунок 6 Примеры результатов работы алгоритма [[https://arxiv.org/pdf/1312.4659.pdf x]]]]
|}
DeepPose<ref name="DeepPose">[https://arxiv.org/pdf/1312.4659.pdf DeepPose: Human Pose Estimation via Deep Neural Networks, Alexander Toshev, Christian Szegedy, 2014]</ref> {{---}} первая значимая разработка с использованием [[глубокое обучение|глубокого обучения]] для задачи определения положения человека. Модель продемонстрировала высокую эффективность и превзошла существовавшие на тот момент решения. Оценка позы формулируется как задача как совместную [[линейная регрессия|регрессию]] по ключевым точкам (англ. ''Joint'') и решается при помощи [[сверточные нейронные сети|сверточных нейронных сетей]] [[глубокое обучение|глубокого обучения]] (англ. ''convolutional DNN''). Полное изображение и 7-слойная обобщенная [[сверточные нейронные сети|сверточная нейронная сеть]] [[глубокое обучение|глубокого обучения]] используются в качестве входных данных для [[линейная регрессия|регрессии]] по местоположению каждого сустава тела. У этого решения есть два преимущества.
Во-первых, глубокая нейронная сеть (англ. DNN) может захватывать полный контекст каждой ключевой точки - каждый регрессор сустава использует полное изображение
как входной сигнал. Во-вторых, данный подход существенно проще формулируется в сравнении с методами, основанными на графических моделях - нет необходимости явно проектировать представления элементов и детекторы для отдельных частей тела; нет необходимости явно разрабатывать топологию модели и взаимодействия между суставами. Вместо этого для данной проблемы можно обучить обобщенную сверточную DNN.
Кроме того, авторы используют каскад основанных на DNN предсказателей позы. Такой каскад позволяет повысить точность (англ. precision) совместной локализации ключевых точек. Начиная с начальной оценки позы, на основе полного изображения обучаются регрессоры на основе DNN, который уточняют совместные прогнозы с помощью фрагментов изображений с более высоким разрешением.
Важной особенностью является то, что обрабатывается человек целиком, что позволяет корректно определять позу, даже если некоторые суставы скрыты.