Изменения

Карта глубины

19 байт убрано, 12:41, 22 января 2021

→‎Неконтролируемая оценка глубины монокуляра с консистенцией слева направо (CVPR 2017)

=== Неконтролируемая оценка глубины монокуляра с консистенцией слева направо (CVPR 2017) ===

В данной работе предлагается сверточная нейронная сеть, обученная выполнять оценку глубины одного изображения без истинных данных ~~о глубине наземной истины~~. Авторы предлагают сетевую архитектуру, которая выполняет сквозную неконтролируемую оценку глубины монокуляра с потерей обучения, что обеспечивает согласованность глубины слева направо внутри сети.

Сеть оценивает глубину, выводя диспропорции, которые искажают левое изображение, чтобы соответствовать правому. Левое входное изображение используется для вывода диспропорций слева направо и справа налево. Сеть генерирует предсказанное изображение с обратным отображением с помощью билинейного сэмплера. Это приводит к полностью дифференциальной модели формирования изображения.

Сверточная архитектура вдохновлена Диснеем. Он Она состоит из двух частей—кодера и декодера. Декодер использует пропуск соединений из блоков активации кодера ~~для разрешения деталей~~ , чтобы распознавать детали с ~~более~~ высоким разрешением. Сеть предсказывает две карты диспропорций — слева направо и справа налево.

В процессе обучения сеть генерирует изображение путем выборки пикселей из противоположного стереоизображения. Модель формирования изображения использует сэмплер изображений из пространственной трансформаторной сети (STN) для выборки входного изображения с помощью карты диспаритетов. Используемая билинейная выборка локально дифференцируема.

Здесь представлены результаты, полученные на Китти 2015 стерео 200 обучающего набора изображений неравенства.

=== ~~Обучение без учителя для~~ Неконтролируемое обучение поиска карты глубины из видео (CVPR 2017) ===

Авторы данной статьи <ref name="cvrp_dnn">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" [https://arxiv.org/abs/1704.07813v2]</ref> предлагают методику ~~обучения без учителя для~~ неконтролируемой оценки глубины одной картинки и движения камеры из беспорядочной видео нарезки.

[[Файл:dnn.png|thumb|400px| ~~рис.~~ Рисунок 5. Aрхитектура сети на базе DispNet <ref name="cvrp">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" Figure 4</ref>]]

Будем использовать сверточные нейронные сети c глубиной одного вида и многовидовой камерой из неупорядоченного видеоряда. Метод базируется на синтезе видов. Сеть загружает фото объекта в качестве данных ввода и выводит карту глубины на каждый пиксель. Вид объекта может быть синтезирован исходя из глубины на каждый пиксель снимка, позиционирования и четкости ближнего вида. Синтез может быть дифференцирован с CNN по геометрии и модулям позиционирования.

Авторы взяли на вооружение архитектуру DispNet<ref name="dispNet"> Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer "A Large Dataset to Train Convolutional Networks

for Disparity, Optical Flow, and Scene Flow Estimation" [https://arxiv.org/pdf/1512.02134.pdf]</ref>, которая сконструирована в виде енкодера - декодера с пропущенными соединениями и многомасштабными блоками предсказания. Функция активации ReLU отслеживает все сверточные слои кроме предсказанных.

Вид объекта со всех источников формирует входные данные в сеть позиционной оценки. На выходе получается относительная позиция между видом объекта и видом каждого источника. Сеть состоит из двух 7 шаговых сверток за которым следует свертка 1 х 1. ~~Кроме~~ За исключением последнего слоя свертки, где применяется нелинейная активация ~~применяется~~, все другие отслеживаются функцией активации ReLU. Сеть объяснимых предсказаний дает доступ к первым пяти закодированным слоям сети позиционирования. За ней ~~следует~~ следуют 5 слоев обратной свертки с многомасштабными блоками предсказаний. Кроме слоев предсказаний все уровни свертки и обратной свертки отслеживаются ReLU.

=== Прогнозирование глубины без датчиков: использование структуры для обучения без учителя по монокулярным видео (AAAI 2019) ===

Анонимный участник

109.252.193.207

Изменения

Карта глубины

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты