Изменения

Перейти к: навигация, поиск

Карта глубины

2464 байта добавлено, 19:30, 4 сентября 2022
м
rollbackEdits.php mass rollback
В целом, данная сеть показывает более точные результаты предсказания глубины.
=== Построение с помощью PlanetNet (2018)===
Так же есть архитектуры, решающие данную задачу и без обучения на карте смещений, построенной с помощью двух изображений. Одной из таких является '''PlaneNet'''.
'''PlaneNet'''<ref name="planetNet"> Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa "PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image" [https://arxiv.org/abs/1804.06278v1]</ref> {{---}} глубокая нейронная сеть, построенная на расширенных остаточных сетях (aнгл. Dilated Residual Networks или DRN)<ref name="drn"> Fisher Yu, Vladlen Koltun, Thomas Funkhouser "Dilated Residual Networks" [https://arxiv.org/abs/1705.09914]</ref>. Она получает карту глубин путем композиции выходов трех подзадач:
[[Файл:plane_netPlane net2.pngjpg|thumb|500px| Рисунок 4. Прогнозируемые PlaneNet параметры по одной rgb картинке: cегметация плоскости, параметры плоскостей, неплоская карта глубины<ref name="img4"> Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa "PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image" Figure 2.</ref>.]]
* '''Параметры плоскостей''': пытаемся предсказать количество плоскостей $K$, а после ищем на изображение $K $ плоских поверхностей, каждая поверхность задаётся тремя параметрами<math>P_i</math>: нормальная, прямая и сдвиг. Функцию ошибки определим следующим образом: <math>L = \sum_{i=1}^{K} \min_{j \in [1, \hat K]} \| \hat P_j - P_i \|</math>, где <math>\hat K, \hat P_i</math> и <math>K, P_i</math>, предсказанные и реальные количество и параметры плоскостей, соответственно.
* [[Сегментация изображений|'''Сегментация плоскости''']]: ищем группы пикселей, каждая из которых характеризует один смысловой объект. Используем перекрёстную энтропию<ref name="cross-entropy"> О перекрёстной энтропии [https://ml-cheatsheet.readthedocs.io/en/latest/loss_functions.html]</ref>, как функцию потерь.
* '''Неплоская карта глубины''': ищем одно-канальную (или неплоскую) карту глубины, то есть карту глубины, где каждый пиксель, либо на глубине 0, либо на глубине 1.
Авторы обучали и тестировали данные на NYUv2<ref>Датасет NYUv2[https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html]</ref>.
=== Неконтролируемая оценка Обучение без учителя поиска карты глубины монокуляра с консистенцией слева направо из видео (CVPR 2017) ===
В Авторы данной работе предлагается сверточная нейронная сетьстатьи <ref name="cvrp_dnn">Tinghui Zhou, обученная выполнять оценку глубины одного изображения без данных о глубине наземной истины. Авторы предлагают сетевую архитектуруMatthew Brown, которая выполняет сквозную неконтролируемую оценку глубины монокуляра с потерей обученияNoah Snavely, что обеспечивает согласованность глубины слева направо внутри сетиDavid G.Сеть оценивает глубину, выводя диспропорции, которые искажают левое изображение, чтобы соответствовать правомуLowe "Unsupervised Learning of Depth and Ego-Motion from Video" [https://arxiv. Левое входное изображение используется для вывода диспропорций слева направо и справа налевоorg/abs/1704. Сеть генерирует предсказанное изображение с обратным отображением с помощью билинейного сэмплера. Это приводит к полностью дифференциальной модели формирования изображения.Сверточная архитектура вдохновлена Диснеем. Он состоит из двух частей—кодера и декодера. Декодер использует пропуск соединений из блоков активации кодера для разрешения деталей с более высоким разрешением. Сеть предсказывает две карты диспропорций — слева направо 07813v2]</ref> предлагают методику оценки глубины одной картинки без учителя и справа налево.В процессе обучения сеть генерирует изображение путем выборки пикселей из противоположного стереоизображения. Модель формирования изображения использует сэмплер изображений движения камеры из пространственной трансформаторной сети (STN) для выборки входного изображения с помощью карты диспаритетов. Используемая билинейная выборка локально дифференцируема.Здесь представлены результаты, полученные на Китти 2015 стерео 200 обучающего набора изображений неравенствабеспорядочной видео нарезки.
[[Файл:Dnn.jpeg|thumb|400px| Рисунок 5. Aрхитектура сети на базе DispNet <ref name=== Неконтролируемое обучение Глубины и визуальной Одометрии из Видео (CVPR 2017) ==="cvrp">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" Figure 4</ref>]]
Авторы предлагают методику неконтролируемого обучения для оценки глубины монокуляра и движения камеры из беспорядочной видео нарезки. Метод использует Будем использовать сверточные нейронные сети с губиной одного вида и многовидового позиционирования. В жертву приносятся близлежащие виды в пользу объекта с использованием расчетов глубины и позиционирования.Авторы предлагают программы для совместного освоения сверточных нейронных сетей (CNN Convolutional Neural Networks) c глубиной одного вида и многовидовой камерой из неупорядоченного видеоряда. Метод базируется на синтезе видов. Сеть загружает фото объекта в качестве данных ввода и выводит карту глубины на каждый пиксельглубину пикселя. Вид объекта может быть синтезирован исходя из глубины на каждый пиксель каждого пикселя снимка, позиционирования и четкости ближнего вида. Синтез может быть дифференцирован с CNN по геометрии и модулям позиционирования.Авторы взяли на вооружение архитектуру DispNet<ref name="dispNet"> Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer "A Large Dataset to Train Convolutional Networksfor Disparity, Optical Flow, and Scene Flow Estimation" [https://arxiv.org/pdf/1512.02134.pdf]</ref>, которая сконструирована в виде енкодера - энкодера и декодера с пропущенными соединениями и многомасштабными блоками предсказания. Функция активации ReLU отслеживает все сверточные слои кроме предсказанных.Вид объекта со всех источников формирует входные данные в сеть позиционной оценки. На выходе получается относительная позиция между видом объекта и видом каждого источника. Сеть состоит из двух 7 шаговых сверток за которым следует свертка 1 х 1 с каналами вывода 6* (N-1). Они соответствует трем углам Эйлера и 3D представления для каждого источника. Общая средняя применяется к сумме предсказаний на всех точках пространства. Кроме За исключением последнего слоя свертки, где применяется нелинейная активация применяется, все другие отслеживаются функцией активации ReLU. Сеть объяснимых предсказаний дает доступ к первым пяти закодированным слоям сети позиционирования. За ней следует следуют 5 слоев обратной свертки с многомасштабными блоками предсказаний. Кроме слоев предсказаний все уровни свертки и обратной свертки отслеживаются ReLU. Авторы проверяли данную методику на KITTY<ref> Датасет kitty[http://www.cvlibs.net/datasets/kitti/]</ref>.
=== Прогнозирование Неконтролируемая оценка глубины без датчиков: использование структуры для неконтролируемого обучения по монокулярным видео монокуляра с консистенцией слева направо (AAAI 20192017) ===
Эта статья посвящена задаче бесконтрольного изучения глубины сцены и эго-движения робота, где наблюдение обеспечивается монокулярными видеозаписями[[Файл:Samplers. Это делается путем введения геометрической структуры в процесс обученияjpg|thumb|240px| Рисунок 6. Он включает в себя моделирование сцены и отдельных объектовПримерная архитектура сети с консистенцией слева направо <ref name="cvrp2017">Clément Godard, эго-движения камеры и движения объектовOisin Mac Aodha, изучаемых с помощью монокулярных видеовходовGabriel J. Авторы также вводят метод онлайнBrostow "Unsupervised Monocular Depth Estimation with Left-уточнения.Авторы вводят модель движения объекта, которая имеет ту же архитектуру, что и сеть эго-движения. Однако он специализируется на предсказании движения отдельных объектов в 3D. Он принимает последовательность изображений RGB в качестве входных данных. Он дополняется предварительно вычисленными масками сегментации экземпляров. Работа модели движения заключается в том, чтобы научиться предсказывать векторы трансформации каждого объекта в трехмерном пространстве. Это создает видимость наблюдаемого объекта в соответствующем целевом кадре.На рисунке ниже показаны результаты, полученные с использованием этой модели.Right Consistency" Figure 3 </ref>]]
В данной работе<ref name="leftrigth"> Clément Godard, Oisin Mac Aodha, Gabriel J. Brostow "Unsupervised Monocular Depth Estimation with Left-Right Consistency" [https://arxiv.org/abs/1609.03677v3]</ref> предлагается сверточная нейронная сеть, обученная выполнять оценку глубины одного изображения без реальных данных. Авторы предлагают сетевую архитектуру, которая выполняет сквозную оценку глубины изображения, полученного с 1 камеры, без учителя, что обеспечивает согласованность глубины слева направо внутри сети.
Сеть оценивает глубину, выводя смещения, которые искажают левое изображение, чтобы соответствовать правому. Левое входное изображение используется для вывода смещений слева направо и справа налево. Сеть генерирует предсказанное изображение с обратным отображением с помощью билинейного сэмплера. Это приводит к полностью дифференциальной модели формирования изображения.
Сверточная архитектура вдохновлена так же DispNet'ом. Она состоит из двух частей—кодера и декодера. Декодер использует пропуск соединений из блоков активации кодера, чтобы распознавать детали с высоким разрешением. Сеть предсказывает две карты смещений — слева направо и справа налево.
В процессе обучения сеть генерирует изображение путем выборки пикселей из противоположного стереоизображения. Модель формирования изображения использует сэмплер изображений из пространственной трансформаторной сети (STN) для выборки входного изображения с помощью карты смещений. Авторы обучали и тестировали данные на KITTY.
=== Прогнозирование глубины без датчиков: использование структуры для обучения без учителя по монокулярным видео (2019) ===
 
[[Файл:ego.jpeg|thumb|500px| Рисунок 7. Сравнение обычного метода построения карты глубин с помощью эго-движения и предложенного в статье, который использует движения для различных 3D объектов <ref name="aaaif">Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova "Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos" Figure 2 </ref>]]
 
'''Визуальная одометрия''' <ref name="визуальная одометрия">Статья о визуальной одометрии[https://en.wikipedia.org/wiki/Visual_odometry]</ref> {{---}} метод оценки положения и ориентации робота или иного устройства в пространстве с помощью анализа последовательности изображений, снятых установленной на нем камерой.
 
Данная статья <ref name="aaai"> Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova "Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos" [https://arxiv.org/abs/1811.06152v1]</ref> посвящена задаче обучения без учителя глубины сцены и визуальной одометрии робота, где наблюдение обеспечивается видеозаписями с одной камеры. Это делается путем введения геометрической структуры в процесс обучения. Он включает в себя моделирование сцены и отдельных объектов, одометрии камеры и движения объектов, изучаемых с помощью монокулярных видеовходов. Авторы вводят модель движения объекта, которая имеет ту же архитектуру, что и сеть определения визуальной одометрии. Она принимает последовательность изображений RGB в качестве входных данных и дополняется предварительно вычисленными масками сегментации экземпляров. Работа модели движения заключается в том, чтобы научиться предсказывать векторы трансформации каждого объекта в трехмерном пространстве. Это создает видимость наблюдаемого объекта в соответствующем целевом кадре. Авторы проверяли прогнозирование глубины на KITTY.
== См. также ==
== Источники информации ==
* Чугунов Р.А. Чугунов, Кульневич А.Д. Кульневич, Аксенов С.В. Аксенов "Методика построения карт глубины стереоизображения с помощью капсульной нейронной сети" //Доклады Томского государственного университета систем управления и радиоэлектроники. – 2019. – Т. 22. – №. 1.[https://cyberleninka.ru/article/n/metodika-postroeniya-kart-glubiny-stereoizobrazheniya-s-pomoschyu-kapsulnoy-neyronnoy-seti/viewer] * Alexey Kurakin "Основы стереозрения" [https://habr.com/ru/post/130300/]
* Dmitriy Vatolin "Камеры глубины — тихая революция" Alhashim I., Wonka P. High quality monocular depth estimation via transfer learning. arXiv 2018 //arXiv preprint arXiv:1812.11941. [https://habrarxiv.comorg/ru/post/457524pdf/1812.11941.pdf]
* Ibraheem Alhashim Eigen D., Puhrsch C., Peter Wonka "High Quality Monocular Fergus R. Depth Estimation via Transfer Learning" map prediction from a single image using a multi-scale deep network //Advances in neural information processing systems. – 2014. – Т. 27. – С. 2366-2374. [https://arxiv.org/pdf/18121406.119412283.pdf]
* David EigenPrakash S., Christian Puhrsch, Rob Fergus "Depth Map Prediction from a Single Imageusing a Multi-Scale Deep Network Gu G. Simultaneous localization and mapping with depth prediction using capsule networks for uavs //arXiv preprint arXiv:1808.05336. – 2018. [https://arxiv.org/pdf/14061808.228305336.pdf]
* Sunil PrakashMa X., Geng Z., Gaelan Gu "Simultaneous Localization And Mapping with depth Prediction using Capsule Networks for UAVs" Bie Z. Depth Estimation from Single Image Using CNN-Residual Network //SemanticScholar. – 2017. [https://arxivwww.semanticscholar.org/pdfpaper/Depth-Estimation-from-Single-Image-Using-Network-Geng/1808.05336.pdfd79e7fc68e088f094a22910049117e586705bb7d?p2df]
[[Категория:Машинное обучение]]
[[Категория: Компьютерное зрение]]
1632
правки

Навигация