Изменения

Перейти к: навигация, поиск

Карта глубины

2466 байт добавлено, 19:30, 4 сентября 2022
м
rollbackEdits.php mass rollback
В целом, данная сеть показывает более точные результаты предсказания глубины.
=== Построение с помощью PlanetNet (2018)===
Так же есть архитектуры, решающие данную задачу и без обучения на карте смещений, построенной с помощью двух изображений. Одной из таких является '''PlaneNet'''.
'''PlaneNet'''<ref name="planetNet"> Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa "PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image" [https://arxiv.org/abs/1804.06278v1]</ref> {{---}} глубокая нейронная сеть, построенная на расширенных остаточных сетях (aнгл. Dilated Residual Networks или DRN)<ref name="drn"> Fisher Yu, Vladlen Koltun, Thomas Funkhouser "Dilated Residual Networks" [https://arxiv.org/abs/1705.09914]</ref>. Она получает карту глубин путем композиции выходов трех подзадач:
[[Файл:plane_netPlane net2.pngjpg|thumb|500px| Рисунок 4. Прогнозируемые PlaneNet параметры по одной rgb картинке: cегметация плоскости, параметры плоскостей, неплоская карта глубины<ref name="img4"> Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa "PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image" Figure 2.</ref>.]]
* '''Параметры плоскостей''': пытаемся предсказать количество плоскостей $K$, а после ищем на изображение $K $ плоских поверхностей, каждая поверхность задаётся тремя параметрами<math>P_i</math>: нормальная, прямая и сдвиг. Функцию ошибки определим следующим образом: <math>L = \sum_{i=1}^{K} \min_{j \in [1, \hat K]} \| \hat P_j - P_i \|</math>, где <math>\hat K, \hat P_i</math> и <math>K, P_i</math>, предсказанные и реальные количество и параметры плоскостей, соответственно.
* [[Сегментация изображений|'''Сегментация плоскости''']]: ищем группы пикселей, каждая из которых характеризует один смысловой объект. Используем перекрёстную энтропию<ref name="cross-entropy"> О перекрёстной энтропии [https://ml-cheatsheet.readthedocs.io/en/latest/loss_functions.html]</ref>, как функцию потерь.
* '''Неплоская карта глубины''': ищем одно-канальную (или неплоскую) карту глубины, то есть карту глубины, где каждый пиксель, либо на глубине 0, либо на глубине 1.
Авторы обучали и тестировали данные на NYUv2<ref>Датасет NYUv2[https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html]</ref>.
=== Неконтролируемая оценка Обучение без учителя поиска карты глубины монокуляра с консистенцией слева направо из видео (CVPR 2017) ===
В Авторы данной работе предлагается сверточная нейронная сетьстатьи <ref name="cvrp_dnn">Tinghui Zhou, обученная выполнять оценку глубины одного изображения без данных о глубине наземной истины. Авторы предлагают сетевую архитектуруMatthew Brown, которая выполняет сквозную неконтролируемую оценку глубины монокуляра с потерей обученияNoah Snavely, что обеспечивает согласованность глубины слева направо внутри сетиDavid G.Сеть оценивает глубину, выводя диспропорции, которые искажают левое изображение, чтобы соответствовать правомуLowe "Unsupervised Learning of Depth and Ego-Motion from Video" [https://arxiv. Левое входное изображение используется для вывода диспропорций слева направо и справа налевоorg/abs/1704. Сеть генерирует предсказанное изображение с обратным отображением с помощью билинейного сэмплера. Это приводит к полностью дифференциальной модели формирования изображения.Сверточная архитектура вдохновлена Диснеем. Он состоит из двух частей—кодера и декодера. Декодер использует пропуск соединений из блоков активации кодера для разрешения деталей с более высоким разрешением. Сеть предсказывает две карты диспропорций — слева направо 07813v2]</ref> предлагают методику оценки глубины одной картинки без учителя и справа налево.В процессе обучения сеть генерирует изображение путем выборки пикселей из противоположного стереоизображения. Модель формирования изображения использует сэмплер изображений движения камеры из пространственной трансформаторной сети (STN) для выборки входного изображения с помощью карты диспаритетов. Используемая билинейная выборка локально дифференцируема.Здесь представлены результаты, полученные на Китти 2015 стерео 200 обучающего набора изображений неравенствабеспорядочной видео нарезки.
[[Файл:Dnn.jpeg|thumb|400px| Рисунок 5. Aрхитектура сети на базе DispNet <ref name=== Неконтролируемое обучение Глубины и визуальной Одометрии из Видео (CVPR 2017) ==="cvrp">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" Figure 4</ref>]]
Авторы предлагают методику неконтролируемого обучения для оценки глубины монокуляра и движения камеры из беспорядочной видео нарезки. Метод использует Будем использовать сверточные нейронные сети с губиной одного вида и многовидового позиционирования. В жертву приносятся близлежащие виды в пользу объекта с использованием расчетов глубины и позиционирования.Авторы предлагают программы для совместного освоения сверточных нейронных сетей (CNN Convolutional Neural Networks) c глубиной одного вида и многовидовой камерой из неупорядоченного видеоряда. Метод базируется на синтезе видов. Сеть загружает фото объекта в качестве данных ввода и выводит карту глубины на каждый пиксельглубину пикселя. Вид объекта может быть синтезирован исходя из глубины на каждый пиксель каждого пикселя снимка, позиционирования и четкости ближнего вида. Синтез может быть дифференцирован с CNN по геометрии и модулям позиционирования.Авторы взяли на вооружение архитектуру DispNet<ref name="dispNet"> Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer "A Large Dataset to Train Convolutional Networksfor Disparity, Optical Flow, and Scene Flow Estimation" [https://arxiv.org/pdf/1512.02134.pdf]</ref>, которая сконструирована в виде енкодера - энкодера и декодера с пропущенными соединениями и многомасштабными блоками предсказания. Функция активации ReLU отслеживает все сверточные слои кроме предсказанных.Вид объекта со всех источников формирует входные данные в сеть позиционной оценки. На выходе получается относительная позиция между видом объекта и видом каждого источника. Сеть состоит из двух 7 шаговых сверток за которым следует свертка 1 х 1 с каналами вывода 6* (N-1). Они соответствует трем углам Эйлера и 3D представления для каждого источника. Общая средняя применяется к сумме предсказаний на всех точках пространства. Кроме За исключением последнего слоя свертки, где применяется нелинейная активация применяется, все другие отслеживаются функцией активации ReLU. Сеть объяснимых предсказаний дает доступ к первым пяти закодированным слоям сети позиционирования. За ней следует следуют 5 слоев обратной свертки с многомасштабными блоками предсказаний. Кроме слоев предсказаний все уровни свертки и обратной свертки отслеживаются ReLU. Авторы проверяли данную методику на KITTY<ref> Датасет kitty[http://www.cvlibs.net/datasets/kitti/]</ref>.
=== Прогнозирование Неконтролируемая оценка глубины без датчиков: использование структуры для неконтролируемого обучения по монокулярным видео монокуляра с консистенцией слева направо (AAAI 20192017) ===
Эта [[Файл:Samplers.jpg|thumb|240px| Рисунок 6. Примерная архитектура сети с консистенцией слева направо <ref name="cvrp2017">Clément Godard, Oisin Mac Aodha, Gabriel J. Brostow "Unsupervised Monocular Depth Estimation with Left-Right Consistency" Figure 3 </ref>]] В данной работе<ref name="leftrigth"> Clément Godard, Oisin Mac Aodha, Gabriel J. Brostow "Unsupervised Monocular Depth Estimation with Left-Right Consistency" [https://arxiv.org/abs/1609.03677v3]</ref> предлагается сверточная нейронная сеть, обученная выполнять оценку глубины одного изображения без реальных данных. Авторы предлагают сетевую архитектуру, которая выполняет сквозную оценку глубины изображения, полученного с 1 камеры, без учителя, что обеспечивает согласованность глубины слева направо внутри сети.Сеть оценивает глубину, выводя смещения, которые искажают левое изображение, чтобы соответствовать правому. Левое входное изображение используется для вывода смещений слева направо и справа налево. Сеть генерирует предсказанное изображение с обратным отображением с помощью билинейного сэмплера. Это приводит к полностью дифференциальной модели формирования изображения.Сверточная архитектура вдохновлена так же DispNet'ом. Она состоит из двух частей—кодера и декодера. Декодер использует пропуск соединений из блоков активации кодера, чтобы распознавать детали с высоким разрешением. Сеть предсказывает две карты смещений — слева направо и справа налево.В процессе обучения сеть генерирует изображение путем выборки пикселей из противоположного стереоизображения. Модель формирования изображения использует сэмплер изображений из пространственной трансформаторной сети (STN) для выборки входного изображения с помощью карты смещений. Авторы обучали и тестировали данные на KITTY. === Прогнозирование глубины без датчиков: использование структуры для обучения без учителя по монокулярным видео (2019) === [[Файл:ego.jpeg|thumb|500px| Рисунок 7. Сравнение обычного метода построения карты глубин с помощью эго-движения и предложенного в статье, который использует движения для различных 3D объектов <ref name="aaaif">Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova "Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos" Figure 2 </ref>]] '''Визуальная одометрия''' <ref name="визуальная одометрия">Статья о визуальной одометрии[https://en.wikipedia.org/wiki/Visual_odometry]</ref> {{---}} метод оценки положения и ориентации робота или иного устройства в пространстве с помощью анализа последовательности изображений, снятых установленной на нем камерой. Данная статья <ref name="aaai"> Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova "Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos" [https://arxiv.org/abs/1811.06152v1]</ref> посвящена задаче бесконтрольного изучения обучения без учителя глубины сцены и эго-движения визуальной одометрии робота, где наблюдение обеспечивается монокулярными видеозаписямис одной камеры. Это делается путем введения геометрической структуры в процесс обучения. Он включает в себя моделирование сцены и отдельных объектов, эго-движения одометрии камеры и движения объектов, изучаемых с помощью монокулярных видеовходов. Авторы также вводят метод онлайн-уточнения.Авторы вводят модель движения объекта, которая имеет ту же архитектуру, что и сеть эго-движения. Однако он специализируется на предсказании движения отдельных объектов в 3Dопределения визуальной одометрии. Он Она принимает последовательность изображений RGB в качестве входных данных. Он и дополняется предварительно вычисленными масками сегментации экземпляров. Работа модели движения заключается в том, чтобы научиться предсказывать векторы трансформации каждого объекта в трехмерном пространстве. Это создает видимость наблюдаемого объекта в соответствующем целевом кадре.На рисунке ниже показаны результаты, полученные с использованием этой моделиАвторы проверяли прогнозирование глубины на KITTY.
== См. также ==
== Источники информации ==
* Чугунов Р.А. Чугунов, Кульневич А.Д. Кульневич, Аксенов С.В. Аксенов "Методика построения карт глубины стереоизображения с помощью капсульной нейронной сети" //Доклады Томского государственного университета систем управления и радиоэлектроники. – 2019. – Т. 22. – №. 1.[https://cyberleninka.ru/article/n/metodika-postroeniya-kart-glubiny-stereoizobrazheniya-s-pomoschyu-kapsulnoy-neyronnoy-seti/viewer] * Alexey Kurakin "Основы стереозрения" [https://habr.com/ru/post/130300/]
* Dmitriy Vatolin "Камеры глубины — тихая революция" Alhashim I., Wonka P. High quality monocular depth estimation via transfer learning. arXiv 2018 //arXiv preprint arXiv:1812.11941. [https://habrarxiv.comorg/ru/post/457524pdf/1812.11941.pdf]
* Ibraheem Alhashim Eigen D., Puhrsch C., Peter Wonka "High Quality Monocular Fergus R. Depth Estimation via Transfer Learning" map prediction from a single image using a multi-scale deep network //Advances in neural information processing systems. – 2014. – Т. 27. – С. 2366-2374. [https://arxiv.org/pdf/18121406.119412283.pdf]
* David EigenPrakash S., Christian Puhrsch, Rob Fergus "Depth Map Prediction from a Single Imageusing a Multi-Scale Deep Network Gu G. Simultaneous localization and mapping with depth prediction using capsule networks for uavs //arXiv preprint arXiv:1808.05336. – 2018. [https://arxiv.org/pdf/14061808.228305336.pdf]
* Sunil PrakashMa X., Geng Z., Gaelan Gu "Simultaneous Localization And Mapping with depth Prediction using Capsule Networks for UAVs" Bie Z. Depth Estimation from Single Image Using CNN-Residual Network //SemanticScholar. – 2017. [https://arxivwww.semanticscholar.org/pdfpaper/Depth-Estimation-from-Single-Image-Using-Network-Geng/1808.05336.pdfd79e7fc68e088f094a22910049117e586705bb7d?p2df]
[[Категория:Машинное обучение]]
[[Категория: Компьютерное зрение]]
1632
правки

Навигация