Изменения

Перейти к: навигация, поиск

Карта глубины

2357 байт добавлено, 19:30, 4 сентября 2022
м
rollbackEdits.php mass rollback
В целом, данная сеть показывает более точные результаты предсказания глубины.
=== Построение с помощью PlanetNet (2018)===
Так же есть архитектуры, решающие данную задачу и без обучения на карте смещений, построенной с помощью двух изображений. Одной из таких является '''PlaneNet'''.
'''PlaneNet'''<ref name="planetNet"> Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa "PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image" [https://arxiv.org/abs/1804.06278v1]</ref> {{---}} глубокая нейронная сеть, построенная на расширенных остаточных сетях (aнгл. Dilated Residual Networks или DRN)<ref name="drn"> Fisher Yu, Vladlen Koltun, Thomas Funkhouser "Dilated Residual Networks" [https://arxiv.org/abs/1705.09914]</ref>. Она получает карту глубин путем композиции выходов трех подзадач:
[[Файл:plane_netPlane net2.pngjpg|thumb|500px| Рисунок 4. Прогнозируемые PlaneNet параметры по одной rgb картинке: cегметация плоскости, параметры плоскостей, неплоская карта глубины<ref name="img4"> Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa "PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image" Figure 2.</ref>.]]
* '''Параметры плоскостей''': пытаемся предсказать количество плоскостей $K$, а после ищем на изображение $K $ плоских поверхностей, каждая поверхность задаётся тремя параметрами<math>P_i</math>: нормальная, прямая и сдвиг. Функцию ошибки определим следующим образом: <math>L = \sum_{i=1}^{K} \min_{j \in [1, \hat K]} \| \hat P_j - P_i \|</math>, где <math>\hat K, \hat P_i</math> и <math>K, P_i</math>, предсказанные и реальные количество и параметры плоскостей, соответственно.
* [[Сегментация изображений|'''Сегментация плоскости''']]: ищем группы пикселей, каждая из которых характеризует один смысловой объект. Используем перекрёстную энтропию<ref name="cross-entropy"> О перекрёстной энтропии [https://ml-cheatsheet.readthedocs.io/en/latest/loss_functions.html]</ref>, как функцию потерь.
* '''Неплоская карта глубины''': ищем одно-канальную (или неплоскую) карту глубины, то есть карту глубины, где каждый пиксель, либо на глубине 0, либо на глубине 1.
Авторы обучали и тестировали данные на NYUv2<ref>Датасет NYUv2[https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html]</ref>.
=== Неконтролируемая оценка Обучение без учителя поиска карты глубины монокуляра с консистенцией слева направо из видео (CVPR 2017) ===
В Авторы данной работе предлагается сверточная нейронная сетьстатьи <ref name="cvrp_dnn">Tinghui Zhou, обученная выполнять оценку глубины одного изображения без истинных данных. Авторы предлагают сетевую архитектуруMatthew Brown, которая выполняет сквозную неконтролируемую оценку глубины монокуляра с потерей обученияNoah Snavely, что обеспечивает согласованность глубины слева направо внутри сетиDavid G.Сеть оценивает глубину, выводя диспропорции, которые искажают левое изображение, чтобы соответствовать правомуLowe "Unsupervised Learning of Depth and Ego-Motion from Video" [https://arxiv. Левое входное изображение используется для вывода диспропорций слева направо и справа налевоorg/abs/1704. Сеть генерирует предсказанное изображение с обратным отображением с помощью билинейного сэмплера. Это приводит к полностью дифференциальной модели формирования изображения.Сверточная архитектура вдохновлена Диснеем. Она состоит из двух частей—кодера 07813v2]</ref> предлагают методику оценки глубины одной картинки без учителя и декодера. Декодер использует пропуск соединений движения камеры из блоков активации кодера, чтобы распознавать детали с высоким разрешением. Сеть предсказывает две карты диспропорций — слева направо и справа налево.В процессе обучения сеть генерирует изображение путем выборки пикселей из противоположного стереоизображения. Модель формирования изображения использует сэмплер изображений из пространственной трансформаторной сети (STN) для выборки входного изображения с помощью карты диспаритетов. Используемая билинейная выборка локально дифференцируема.Здесь представлены результаты, полученные на Китти 2015 стерео 200 обучающего набора изображений неравенствабеспорядочной видео нарезки.
[[Файл:Dnn.jpeg|thumb|400px| Рисунок 5. Aрхитектура сети на базе DispNet <ref name=== Неконтролируемое обучение поиска карты глубины из видео (CVPR 2017) ==="cvrp">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" Figure 4</ref>]]
Будем использовать сверточные нейронные сети c глубиной одного вида и многовидовой камерой из неупорядоченного видеоряда. Метод базируется на синтезе видов. Сеть загружает фото объекта в качестве данных ввода и выводит глубину пикселя. Вид объекта может быть синтезирован исходя из глубины на каждого пикселя снимка позиционирования и четкости ближнего вида. Синтез может быть дифференцирован с CNN по геометрии и модулям позиционирования.Авторы данной статьи взяли на вооружение архитектуру DispNet<ref name="cvrp_dnndispNet">Tinghui ZhouNikolaus Mayer, Matthew BrownEddy Ilg, Noah SnavelyPhilip Hausser, David G. Lowe Philipp Fischer "Unsupervised Learning of Depth A Large Dataset to Train Convolutional Networksfor Disparity, Optical Flow, and Ego-Motion from VideoScene Flow Estimation" [https://arxiv.org/abspdf/17041512.02134.07813v2pdf]</ref> предлагают методику неконтролируемой , которая сконструирована в виде энкодера и декодера с пропущенными соединениями и многомасштабными блоками предсказания. Функция активации ReLU отслеживает все сверточные слои кроме предсказанных.Вид объекта со всех источников формирует входные данные в сеть позиционной оценки глубины одной картинки . На выходе получается относительная позиция между видом объекта и движения камеры видом каждого источника. Сеть состоит из беспорядочной видео нарезкидвух 7 шаговых сверток за которым следует свертка 1 х 1. За исключением последнего слоя свертки, где применяется нелинейная активация, все другие отслеживаются функцией активации ReLU. Сеть объяснимых предсказаний дает доступ к первым пяти закодированным слоям сети позиционирования. За ней следуют 5 слоев обратной свертки с многомасштабными блоками предсказаний. Кроме слоев предсказаний все уровни свертки и обратной свертки отслеживаются ReLU. Авторы проверяли данную методику на KITTY<ref> Датасет kitty[http://www.cvlibs.net/datasets/kitti/]</ref>.
[[Файл:dnn.png|thumb|400px| Рисунок 5. Aрхитектура сети на базе DispNet <ref name="cvrp">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" Figure 4</ref>]]== Неконтролируемая оценка глубины монокуляра с консистенцией слева направо (2017) ===
Будем использовать сверточные нейронные сети c глубиной одного вида и многовидовой камерой из неупорядоченного видеоряда[[Файл:Samplers. Метод базируется на синтезе видовjpg|thumb|240px| Рисунок 6. Сеть загружает фото объекта в качестве данных ввода и выводит карту глубины на каждый пиксель. Вид объекта может быть синтезирован исходя из глубины на каждый пиксель снимка позиционирования и четкости ближнего вида. Синтез может быть дифференцирован Примерная архитектура сети с CNN по геометрии и модулям позиционирования.Авторы взяли на вооружение архитектуру DispNetконсистенцией слева направо <ref name="dispNetcvrp2017"> Nikolaus MayerClément Godard, Eddy IlgOisin Mac Aodha, Philip Hausser, Philipp Fischer Gabriel J. Brostow "Unsupervised Monocular Depth Estimation with Left-Right Consistency"A Large Dataset to Train Convolutional NetworksFigure 3 </ref>]]for DisparityВ данной работе<ref name="leftrigth"> Clément Godard, Optical FlowOisin Mac Aodha, and Scene Flow Gabriel J. Brostow "Unsupervised Monocular Depth Estimationwith Left-Right Consistency" [https://arxiv.org/pdfabs/15121609.02134.pdf03677v3]</ref>предлагается сверточная нейронная сеть, обученная выполнять оценку глубины одного изображения без реальных данных. Авторы предлагают сетевую архитектуру, которая сконструирована в виде енкодера - декодера выполняет сквозную оценку глубины изображения, полученного с пропущенными соединениями и многомасштабными блоками предсказания. Функция активации ReLU отслеживает все сверточные слои кроме предсказанных1 камеры, без учителя, что обеспечивает согласованность глубины слева направо внутри сети.Вид объекта со всех источников формирует входные данные в сеть позиционной оценкиСеть оценивает глубину, выводя смещения, которые искажают левое изображение, чтобы соответствовать правому. На выходе получается относительная позиция между видом объекта Левое входное изображение используется для вывода смещений слева направо и видом каждого источникасправа налево. Сеть генерирует предсказанное изображение с обратным отображением с помощью билинейного сэмплера. Это приводит к полностью дифференциальной модели формирования изображения.Сверточная архитектура вдохновлена так же DispNet'ом. Она состоит из двух 7 шаговых сверток за которым следует свертка 1 х 1частей—кодера и декодера. За исключением последнего слоя сверткиДекодер использует пропуск соединений из блоков активации кодера, где применяется нелинейная активация, все другие отслеживаются функцией активации ReLUчтобы распознавать детали с высоким разрешением. Сеть объяснимых предсказаний дает доступ к первым пяти закодированным слоям предсказывает две карты смещений — слева направо и справа налево.В процессе обучения сеть генерирует изображение путем выборки пикселей из противоположного стереоизображения. Модель формирования изображения использует сэмплер изображений из пространственной трансформаторной сети позиционирования. За ней следуют 5 слоев обратной свертки (STN) для выборки входного изображения с многомасштабными блоками предсказанийпомощью карты смещений. Кроме слоев предсказаний все уровни свертки Авторы обучали и обратной свертки отслеживаются ReLUтестировали данные на KITTY=== Прогнозирование глубины без датчиков: использование структуры для обучения без учителя по монокулярным видео (2019) === [[Файл:ego.jpeg|thumb|500px| Рисунок 7. Сравнение обычного метода построения карты глубин с помощью эго-движения и предложенного в статье, который использует движения для различных 3D объектов <ref name="aaaif">Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova "Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos" Figure 2 </ref>]]
'''Визуальная одометрия''' <ref name=== Прогнозирование глубины без датчиков"визуальная одометрия">Статья о визуальной одометрии[https: использование структуры для обучения без учителя по монокулярным видео (AAAI 2019) ===//en.wikipedia.org/wiki/Visual_odometry]</ref> {{---}} метод оценки положения и ориентации робота или иного устройства в пространстве с помощью анализа последовательности изображений, снятых установленной на нем камерой.
Данная статья <ref name="aaai"> Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova "Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos" [https://arxiv.org/abs/1811.06152v1]</ref> посвящена задаче обучения без учителя глубины сцены и эго-движения визуальной одометрии робота, где наблюдение обеспечивается видеозаписями с одной камеры. Это делается путем введения геометрической структуры в процесс обучения. Он включает в себя моделирование сцены и отдельных объектов, эго-движения одометрии камеры и движения объектов, изучаемых с помощью монокулярных видеовходов. Авторы вводят модель движения объекта, которая имеет ту же архитектуру, что и сеть эго-движенияопределения визуальной одометрии. Она принимает последовательность изображений RGB в качестве входных данных и дополняется предварительно вычисленными масками сегментации экземпляров. Работа модели движения заключается в том, чтобы научиться предсказывать векторы трансформации каждого объекта в трехмерном пространстве. Это создает видимость наблюдаемого объекта в соответствующем целевом кадре. Авторы проверяли прогнозирование глубины на KITTY.
== См. также ==
1632
правки

Навигация