Изменения

Перейти к: навигация, поиск

Карта глубины

8355 байт добавлено, 09:56, 22 января 2021
Прогнозирование глубины без датчиков: использование структуры для неконтролируемого обучения по монокулярным видео (AAAI 2019)
* '''Неплоская карта глубины''': ищем одно-канальную (или неплоскую) карту глубины, то есть карту глубины, где каждый пиксель, либо на глубине 0, либо на глубине 1.
 
=== Неконтролируемая оценка глубины монокуляра с консистенцией слева направо (CVPR 2017) ===
 
В данной работе предлагается сверточная нейронная сеть, обученная выполнять оценку глубины одного изображения без данных о глубине наземной истины. Авторы предлагают сетевую архитектуру, которая выполняет сквозную неконтролируемую оценку глубины монокуляра с потерей обучения, что обеспечивает согласованность глубины слева направо внутри сети.
Сеть оценивает глубину, выводя диспропорции, которые искажают левое изображение, чтобы соответствовать правому. Левое входное изображение используется для вывода диспропорций слева направо и справа налево. Сеть генерирует предсказанное изображение с обратным отображением с помощью билинейного сэмплера. Это приводит к полностью дифференциальной модели формирования изображения.
Сверточная архитектура вдохновлена Диснеем. Он состоит из двух частей—кодера и декодера. Декодер использует пропуск соединений из блоков активации кодера для разрешения деталей с более высоким разрешением. Сеть предсказывает две карты диспропорций — слева направо и справа налево.
В процессе обучения сеть генерирует изображение путем выборки пикселей из противоположного стереоизображения. Модель формирования изображения использует сэмплер изображений из пространственной трансформаторной сети (STN) для выборки входного изображения с помощью карты диспаритетов. Используемая билинейная выборка локально дифференцируема.
Здесь представлены результаты, полученные на Китти 2015 стерео 200 обучающего набора изображений неравенства.
 
=== Обучение без учителя для поиска карты глубины из видео (CVPR 2017) ===
 
Авторы данной статьи <ref name="cvrp_dnn">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" [https://arxiv.org/abs/1704.07813v2]</ref> предлагают методику обучения без учителя для оценки глубины одной картинки и движения камеры из беспорядочной видео нарезки.
 
[[Файл:dnn.png|thumb|400px| рис. 5. Aрхитектура сети на базе DispNet <ref name="cvrp">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" Figure 4</ref>]]
 
Будем использовать сверточные нейронные сети c глубиной одного вида и многовидовой камерой из неупорядоченного видеоряда. Метод базируется на синтезе видов. Сеть загружает фото объекта в качестве данных ввода и выводит карту глубины на каждый пиксель. Вид объекта может быть синтезирован исходя из глубины на каждый пиксель снимка, позиционирования и четкости ближнего вида. Синтез может быть дифференцирован с CNN по геометрии и модулям позиционирования.
Авторы взяли на вооружение архитектуру DispNet<ref name="dispNet"> Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer "A Large Dataset to Train Convolutional Networks
for Disparity, Optical Flow, and Scene Flow Estimation" [https://arxiv.org/pdf/1512.02134.pdf]</ref>, которая сконструирована в виде енкодера - декодера с пропущенными соединениями и многомасштабными блоками предсказания. Функция активации ReLU отслеживает все сверточные слои кроме предсказанных.
Вид объекта со всех источников формирует входные данные в сеть позиционной оценки. На выходе получается относительная позиция между видом объекта и видом каждого источника. Сеть состоит из двух 7 шаговых сверток за которым следует свертка 1 х 1. Кроме последнего слоя свертки, где нелинейная активация применяется, все другие отслеживаются функцией активации ReLU. Сеть объяснимых предсказаний дает доступ к первым пяти закодированным слоям сети позиционирования. За ней следует 5 слоев обратной свертки с многомасштабными блоками предсказаний. Кроме слоев предсказаний все уровни свертки и обратной свертки отслеживаются ReLU.
 
=== Прогнозирование глубины без датчиков: использование структуры для обучения без учителя по монокулярным видео (AAAI 2019) ===
 
Данная статья <ref name="aaai"> Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova "Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos" [https://arxiv.org/abs/1811.06152v1]</ref> посвящена задаче обучения без учителя глубины сцены и эго-движения робота, где наблюдение обеспечивается видеозаписями с одной камеры. Это делается путем введения геометрической структуры в процесс обучения. Он включает в себя моделирование сцены и отдельных объектов, эго-движения камеры и движения объектов, изучаемых с помощью монокулярных видеовходов. Авторы вводят модель движения объекта, которая имеет ту же архитектуру, что и сеть эго-движения. Она принимает последовательность изображений RGB в качестве входных данных и дополняется предварительно вычисленными масками сегментации экземпляров. Работа модели движения заключается в том, чтобы научиться предсказывать векторы трансформации каждого объекта в трехмерном пространстве. Это создает видимость наблюдаемого объекта в соответствующем целевом кадре.
== См. также ==
89
правок

Навигация