Изменения
→DeepPose (2013)
|[[file:challenging.png|300px|thumb| Рисунок 6 Примеры результатов работы алгоритма [[https://arxiv.org/pdf/1312.4659.pdf x]]]]
|}
DeepPose<ref name="DeepPose">[https://arxiv.org/pdf/1312.4659.pdf DeepPose: Human Pose Estimation via Deep Neural Networks, Alexander Toshev, Christian Szegedy, 2014]</ref> {{---}} первая значимая разработка с использованием [[глубокое обучение|глубокого обучения]] для задачи определения положения человека. Модель продемонстрировала высокую эффективность и превзошла существовавшие на тот момент решения. В этом подходе оценка Оценка позы формулируется как задача как совместную [[линейная регрессия|регрессию]] по ключевым точкам (англ. ''Joint'') и решается при помощи [[Сверточные сверточные нейронные сети|сверточной нейронной сети сверточных нейронных сетей]] [[глубокое обучение|глубокого обучения]] (англ. ''CNNconvolutional DNN''). Полное изображение и 7-слойная обобщенная [[сверточные нейронные сети|сверточная нейронная сеть]] [[глубокое обучение|глубокого обучения]] используются в качестве входных данных для [[линейная регрессия|регрессии]] по суставам местоположению каждого сустава тела. У этого решения есть два преимущества.Во-первых, глубокая нейронная сеть (ключевым точкамангл. DNN) может захватывать полный контекст каждой ключевой точки - каждый регрессор сустава использует полное изображениекак входной сигнал. Во-вторых, данный подход существенно проще формулируется в сравнении с методами, основанными на графических моделях - нет необходимости явно проектировать представления элементов и детекторы для отдельных частей тела; нет необходимости явно разрабатывать топологию модели и взаимодействия между суставами. Вместо этого для данной проблемы можно обучить обобщенную сверточную DNN. Для большей эффективности используется Кроме того, авторы используют каскад из нескольких [[Сверточные нейронные сети|CNN]]основанных на DNN предсказателей позы. Такой каскад позволяет повысить точность (англ. precision) совместной локализации ключевых точек. Начиная с начальной оценки позы, на основе полного изображения обучаются регрессоры на основе DNN, который уточняют совместные прогнозы с помощью фрагментов изображений с более высоким разрешением. Важной особенностью является то, что обрабатывается человек целиком, что позволяет корректно определять позу, даже если некоторые суставы скрыты.
Если рассматривать архитектуру, модель основана на AlexNet<ref name="alexNet">[https://neurohive.io/ru/vidy-nejrosetej/alexnet-svjortochnaja-nejronnaja-set-dlja-raspoznavanija-izobrazhenij/ Сверточная нейросеть AlexNet, Павел Глек, 2018]</ref> (7 слоёв) и дополнительном финальном слое, выводящем пары координат ключевых точек. Обучение модели производится с использованием [[функция потерь и эмпирический риск|функции потерь]] L2<ref name="regularization">[http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F L2 регуляризация]</ref> для регрессии (англ. ''L2 loss for regression'').