Изменения

← Предыдущая правка

Карта глубины

2466 байт добавлено, 19:30, 4 сентября 2022

м

rollbackEdits.php mass rollback

В целом, данная сеть показывает более точные результаты предсказания глубины.

=== Построение с помощью PlanetNet (2018)===

Так же есть архитектуры, решающие данную задачу и без обучения на карте смещений, построенной с помощью двух изображений. Одной из таких является '''PlaneNet'''.

'''PlaneNet'''<ref name="planetNet"> Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa "PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image" [https://arxiv.org/abs/1804.06278v1]</ref> {{---}} глубокая нейронная сеть, построенная на расширенных остаточных сетях (aнгл. Dilated Residual Networks или DRN)<ref name="drn"> Fisher Yu, Vladlen Koltun, Thomas Funkhouser "Dilated Residual Networks" [https://arxiv.org/abs/1705.09914]</ref>. Она получает карту глубин путем композиции выходов трех подзадач:

[[Файл:~~plane_net~~Plane net2.~~png~~jpg|thumb|500px| Рисунок 4. Прогнозируемые PlaneNet параметры по одной rgb картинке: cегметация плоскости, параметры плоскостей, неплоская карта глубины<ref name="img4"> Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa "PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image" Figure 2.</ref>.]]

* '''Параметры плоскостей''': пытаемся предсказать количество плоскостей $K$, а после ищем на изображение $K $ плоских поверхностей, каждая поверхность задаётся тремя параметрами<math>P_i</math>: нормальная, прямая и сдвиг. Функцию ошибки определим следующим образом: <math>L = \sum_{i=1}^{K} \min_{j \in [1, \hat K]} \| \hat P_j - P_i \|</math>, где <math>\hat K, \hat P_i</math> и <math>K, P_i</math>, предсказанные и реальные количество и параметры плоскостей, соответственно.

* [[Сегментация изображений|'''Сегментация плоскости''']]: ищем группы пикселей, каждая из которых характеризует один смысловой объект. Используем перекрёстную энтропию<ref name="cross-entropy"> О перекрёстной энтропии [https://ml-cheatsheet.readthedocs.io/en/latest/loss_functions.html]</ref>, как функцию потерь.

* '''Неплоская карта глубины''': ищем одно-канальную (или неплоскую) карту глубины, то есть карту глубины, где каждый пиксель, либо на глубине 0, либо на глубине 1.

Авторы обучали и тестировали данные на NYUv2<ref>Датасет NYUv2[https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html]</ref>.

=== ~~Неконтролируемая оценка~~ Обучение без учителя поиска карты глубины ~~монокуляра с консистенцией слева направо~~ из видео (~~CVPR~~ 2017) ===

В Авторы данной ~~работе предлагается сверточная нейронная сеть~~статьи <ref name="cvrp_dnn">Tinghui Zhou, обученная выполнять оценку глубины одного изображения без данных о глубине наземной истины. Авторы предлагают сетевую архитектуруMatthew Brown, ~~которая выполняет сквозную неконтролируемую оценку глубины монокуляра с потерей обучения~~Noah Snavely, ~~что обеспечивает согласованность глубины слева направо внутри сети~~David G.Сеть оценивает глубину, выводя диспропорции, которые искажают левое изображение, чтобы соответствовать правомуLowe "Unsupervised Learning of Depth and Ego-Motion from Video" [https://arxiv. ~~Левое входное изображение используется для вывода диспропорций слева направо и справа налево~~org/abs/1704. Сеть генерирует предсказанное изображение с обратным отображением с помощью билинейного сэмплера. Это приводит к полностью дифференциальной модели формирования изображения.Сверточная архитектура вдохновлена Диснеем. Он состоит из двух частей—кодера и декодера. Декодер использует пропуск соединений из блоков активации кодера для разрешения деталей с более высоким разрешением. Сеть предсказывает две карты диспропорций — слева направо 07813v2]</ref> предлагают методику оценки глубины одной картинки без учителя и ~~справа налево.~~В процессе обучения сеть генерирует изображение путем выборки пикселей из противоположного стереоизображения. Модель формирования изображения использует сэмплер изображений движения камеры из пространственной трансформаторной сети (STN) для выборки входного изображения с помощью карты диспаритетов. Используемая билинейная выборка локально дифференцируема.~~Здесь представлены результаты, полученные на Китти 2015 стерео 200 обучающего набора изображений неравенства~~беспорядочной видео нарезки.

[[Файл:Dnn.jpeg|thumb|400px| Рисунок 5. Aрхитектура сети на базе DispNet <ref name=~~== Неконтролируемое обучение Глубины и визуальной Одометрии из Видео (CVPR 2017) ===~~"cvrp">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" Figure 4</ref>]]

Авторы предлагают методику неконтролируемого обучения для оценки глубины монокуляра и движения камеры из беспорядочной видео нарезки. Метод использует Будем использовать сверточные нейронные сети с губиной одного вида и многовидового позиционирования. В жертву приносятся близлежащие виды в пользу объекта с использованием расчетов глубины и позиционирования.~~Авторы предлагают программы для совместного освоения сверточных нейронных сетей (CNN Convolutional Neural Networks)~~ c глубиной одного вида и многовидовой камерой из неупорядоченного видеоряда. Метод базируется на синтезе видов. Сеть загружает фото объекта в качестве данных ввода и выводит ~~карту глубины на каждый пиксель~~глубину пикселя. Вид объекта может быть синтезирован исходя из глубины на ~~каждый пиксель~~ каждого пикселя снимка, позиционирования и четкости ближнего вида. Синтез может быть дифференцирован с CNN по геометрии и модулям позиционирования.Авторы взяли на вооружение архитектуру DispNet<ref name="dispNet"> Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer "A Large Dataset to Train Convolutional Networksfor Disparity, Optical Flow, and Scene Flow Estimation" [https://arxiv.org/pdf/1512.02134.pdf]</ref>, которая сконструирована в виде ~~енкодера -~~ энкодера и декодера с пропущенными соединениями и многомасштабными блоками предсказания. Функция активации ReLU отслеживает все сверточные слои кроме предсказанных.Вид объекта со всех источников формирует входные данные в сеть позиционной оценки. На выходе получается относительная позиция между видом объекта и видом каждого источника. Сеть состоит из двух 7 шаговых сверток за которым следует свертка 1 х 1 ~~с каналами вывода 6* (N-1)~~. Они соответствует трем углам Эйлера и 3D представления для каждого источника. Общая средняя применяется к сумме предсказаний на всех точках пространства. Кроме За исключением последнего слоя свертки, где применяется нелинейная активация ~~применяется~~, все другие отслеживаются функцией активации ReLU. Сеть объяснимых предсказаний дает доступ к первым пяти закодированным слоям сети позиционирования. За ней ~~следует~~ следуют 5 слоев обратной свертки с многомасштабными блоками предсказаний. Кроме слоев предсказаний все уровни свертки и обратной свертки отслеживаются ReLU. Авторы проверяли данную методику на KITTY<ref> Датасет kitty[http://www.cvlibs.net/datasets/kitti/]</ref>.

=== ~~Прогнозирование~~ Неконтролируемая оценка глубины ~~без датчиков: использование структуры для неконтролируемого обучения по монокулярным видео~~ монокуляра с консистенцией слева направо (~~AAAI 2019~~2017) ===

~~Эта~~ [[Файл:Samplers.jpg|thumb|240px| Рисунок 6. Примерная архитектура сети с консистенцией слева направо <ref name="cvrp2017">Clément Godard, Oisin Mac Aodha, Gabriel J. Brostow "Unsupervised Monocular Depth Estimation with Left-Right Consistency" Figure 3 </ref>]] В данной работе<ref name="leftrigth"> Clément Godard, Oisin Mac Aodha, Gabriel J. Brostow "Unsupervised Monocular Depth Estimation with Left-Right Consistency" [https://arxiv.org/abs/1609.03677v3]</ref> предлагается сверточная нейронная сеть, обученная выполнять оценку глубины одного изображения без реальных данных. Авторы предлагают сетевую архитектуру, которая выполняет сквозную оценку глубины изображения, полученного с 1 камеры, без учителя, что обеспечивает согласованность глубины слева направо внутри сети.Сеть оценивает глубину, выводя смещения, которые искажают левое изображение, чтобы соответствовать правому. Левое входное изображение используется для вывода смещений слева направо и справа налево. Сеть генерирует предсказанное изображение с обратным отображением с помощью билинейного сэмплера. Это приводит к полностью дифференциальной модели формирования изображения.Сверточная архитектура вдохновлена так же DispNet'ом. Она состоит из двух частей—кодера и декодера. Декодер использует пропуск соединений из блоков активации кодера, чтобы распознавать детали с высоким разрешением. Сеть предсказывает две карты смещений — слева направо и справа налево.В процессе обучения сеть генерирует изображение путем выборки пикселей из противоположного стереоизображения. Модель формирования изображения использует сэмплер изображений из пространственной трансформаторной сети (STN) для выборки входного изображения с помощью карты смещений. Авторы обучали и тестировали данные на KITTY. === Прогнозирование глубины без датчиков: использование структуры для обучения без учителя по монокулярным видео (2019) === [[Файл:ego.jpeg|thumb|500px| Рисунок 7. Сравнение обычного метода построения карты глубин с помощью эго-движения и предложенного в статье, который использует движения для различных 3D объектов <ref name="aaaif">Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova "Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos" Figure 2 </ref>]] '''Визуальная одометрия''' <ref name="визуальная одометрия">Статья о визуальной одометрии[https://en.wikipedia.org/wiki/Visual_odometry]</ref> {{---}} метод оценки положения и ориентации робота или иного устройства в пространстве с помощью анализа последовательности изображений, снятых установленной на нем камерой. Данная статья <ref name="aaai"> Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova "Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos" [https://arxiv.org/abs/1811.06152v1]</ref> посвящена задаче ~~бесконтрольного изучения~~ обучения без учителя глубины сцены и ~~эго-движения~~ визуальной одометрии робота, где наблюдение обеспечивается ~~монокулярными~~ видеозаписямис одной камеры. Это делается путем введения геометрической структуры в процесс обучения. Он включает в себя моделирование сцены и отдельных объектов, ~~эго-движения~~ одометрии камеры и движения объектов, изучаемых с помощью монокулярных видеовходов. ~~Авторы также вводят метод онлайн-уточнения.~~Авторы вводят модель движения объекта, которая имеет ту же архитектуру, что и сеть ~~эго-движения. Однако он специализируется на предсказании движения отдельных объектов в 3D~~определения визуальной одометрии. Он Она принимает последовательность изображений RGB в качестве входных данных~~. Он~~ и дополняется предварительно вычисленными масками сегментации экземпляров. Работа модели движения заключается в том, чтобы научиться предсказывать векторы трансформации каждого объекта в трехмерном пространстве. Это создает видимость наблюдаемого объекта в соответствующем целевом кадре.~~На рисунке ниже показаны результаты, полученные с использованием этой модели~~Авторы проверяли прогнозирование глубины на KITTY.

== См. также ==

== Источники информации ==

* Чугунов Р.А. ~~Чугунов~~, Кульневич А.Д. ~~Кульневич~~, Аксенов С.В. ~~Аксенов "~~Методика построения карт глубины стереоизображения с помощью капсульной нейронной сети" //Доклады Томского государственного университета систем управления и радиоэлектроники. – 2019. – Т. 22. – №. 1.[https://cyberleninka.ru/article/n/metodika-postroeniya-kart-glubiny-stereoizobrazheniya-s-pomoschyu-kapsulnoy-neyronnoy-seti/viewer] * Alexey Kurakin "Основы стереозрения" [https://habr.com/ru/post/130300/]

* ~~Dmitriy Vatolin "Камеры глубины — тихая революция"~~ Alhashim I., Wonka P. High quality monocular depth estimation via transfer learning. arXiv 2018 //arXiv preprint arXiv:1812.11941. [https://~~habr~~arxiv.~~com~~org/~~ru/post/457524~~pdf/1812.11941.pdf]

* ~~Ibraheem Alhashim~~ Eigen D., Puhrsch C., ~~Peter Wonka "High Quality Monocular~~ Fergus R. Depth ~~Estimation via Transfer Learning"~~ map prediction from a single image using a multi-scale deep network //Advances in neural information processing systems. – 2014. – Т. 27. – С. 2366-2374. [https://arxiv.org/pdf/~~1812~~1406.~~11941~~2283.pdf]

* ~~David Eigen~~Prakash S., ~~Christian Puhrsch, Rob Fergus "Depth Map Prediction from a Single Imageusing a Multi-Scale Deep Network~~ Gu G. Simultaneous localization and mapping with depth prediction using capsule networks for uavs //arXiv preprint arXiv:1808.05336. – 2018. [https://arxiv.org/pdf/~~1406~~1808.~~2283~~05336.pdf]

* ~~Sunil Prakash~~Ma X., Geng Z., ~~Gaelan Gu "Simultaneous Localization And Mapping with depth Prediction using Capsule Networks for UAVs"~~ Bie Z. Depth Estimation from Single Image Using CNN-Residual Network //SemanticScholar. – 2017. [https://~~arxiv~~www.semanticscholar.org/~~pdf~~paper/Depth-Estimation-from-Single-Image-Using-Network-Geng/~~1808.05336.pdf~~d79e7fc68e088f094a22910049117e586705bb7d?p2df]

[[Категория:Машинное обучение]]

[[Категория: Компьютерное зрение]]

Maintenance script

1632

правки

Изменения

Карта глубины

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты