Изменения

Перейти к: навигация, поиск

Карта глубины

123 байта убрано, 09:51, 22 января 2021
Неконтролируемое обучение Глубины и визуальной Одометрии из Видео (CVPR 2017)
Здесь представлены результаты, полученные на Китти 2015 стерео 200 обучающего набора изображений неравенства.
=== Неконтролируемое обучение Глубины и визуальной Одометрии Обучение без учителя для поиска карты глубины из Видео видео (CVPR 2017) ===
Авторы данной статьи <ref name="cvrp">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" [https://arxiv.org/abs/1704.07813v2]</ref> предлагают методику неконтролируемого обучения без учителя для оценки глубины монокуляра одной картинки и движения камеры из беспорядочной видео нарезки. Метод использует  [[Файл:dnn.png|thumb|400px| рис. 5. Aрхитектура сети с губиной одного вида и многовидового позиционирования. В жертву приносятся близлежащие виды в пользу объекта с использованием расчетов глубины и позиционированияна базе DispNet <ref name="cvrp">Tinghui Zhou, Matthew Brown, Noah Snavely, David G.Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" Figure 4</ref>]] Авторы предлагают программы для совместного освоения сверточных нейронных сетей (CNN Convolutional Neural Networks) Будем использовать сверточные нейронные сети c глубиной одного вида и многовидовой камерой из неупорядоченного видеоряда. Метод базируется на синтезе видов. Сеть загружает фото объекта в качестве данных ввода и выводит карту глубины на каждый пиксель. Вид объекта может быть синтезирован исходя из глубины на каждый пиксель снимка, позиционирования и четкости ближнего вида. Синтез может быть дифференцирован с CNN по геометрии и модулям позиционирования.Авторы взяли на вооружение архитектуру DispNet<ref name="dispNet"> Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer "A Large Dataset to Train Convolutional Networksfor Disparity, Optical Flow, and Scene Flow Estimation" [https://arxiv.org/pdf/1512.02134.pdf]</ref>, которая сконструирована в виде енкодера - декодера с пропущенными соединениями и многомасштабными блоками предсказания. Функция активации ReLU отслеживает все сверточные слои кроме предсказанных.Вид объекта со всех источников формирует входные данные в сеть позиционной оценки. На выходе получается относительная позиция между видом объекта и видом каждого источника. Сеть состоит из двух 7 шаговых сверток за которым следует свертка 1 х 1 с каналами вывода 6* (N-1). Они соответствует трем углам Эйлера и 3D представления для каждого источника. Общая средняя применяется к сумме предсказаний на всех точках пространства. Кроме последнего слоя свертки, где нелинейная активация применяется, все другие отслеживаются функцией активации ReLU. Сеть объяснимых предсказаний дает доступ к первым пяти закодированным слоям сети позиционирования. За ней следует 5 слоев обратной свертки с многомасштабными блоками предсказаний. Кроме слоев предсказаний все уровни свертки и обратной свертки отслеживаются ReLU.
=== Прогнозирование глубины без датчиков: использование структуры для неконтролируемого обучения по монокулярным видео (AAAI 2019) ===
89
правок

Навигация