Изменения

Перейти к: навигация, поиск

Карта глубины

2258 байт добавлено, 17:43, 23 января 2021
Прогнозирование глубины без датчиков: использование структуры для обучения без учителя по монокулярным видео (2019)
В целом, данная сеть показывает более точные результаты предсказания глубины.
=== Построение с помощью PlanetNet (2018)===
Так же есть архитектуры, решающие данную задачу и без обучения на карте смещений, построенной с помощью двух изображений. Одной из таких является '''PlaneNet'''.
'''PlaneNet'''<ref name="planetNet"> Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa "PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image" [https://arxiv.org/abs/1804.06278v1]</ref> {{---}} глубокая нейронная сеть, построенная на расширенных остаточных сетях (aнгл. Dilated Residual Networks или DRN)<ref name="drn"> Fisher Yu, Vladlen Koltun, Thomas Funkhouser "Dilated Residual Networks" [https://arxiv.org/abs/1705.09914]</ref>. Она получает карту глубин путем композиции выходов трех подзадач:
[[Файл:plane_netPlane net2.pngjpg|thumb|500px| Рисунок 4. Прогнозируемые PlaneNet параметры по одной rgb картинке: cегметация плоскости, параметры плоскостей, неплоская карта глубины<ref name="img4"> Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa "PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image" Figure 2.</ref>.]]
* '''Параметры плоскостей''': пытаемся предсказать количество плоскостей $K$, а после ищем на изображение $K $ плоских поверхностей, каждая поверхность задаётся тремя параметрами<math>P_i</math>: нормальная, прямая и сдвиг. Функцию ошибки определим следующим образом: <math>L = \sum_{i=1}^{K} \min_{j \in [1, \hat K]} \| \hat P_j - P_i \|</math>, где <math>\hat K, \hat P_i</math> и <math>K, P_i</math>, предсказанные и реальные количество и параметры плоскостей, соответственно.
* [[Сегментация изображений|'''Сегментация плоскости''']]: ищем группы пикселей, каждая из которых характеризует один смысловой объект. Используем перекрёстную энтропию<ref name="cross-entropy"> О перекрёстной энтропии [https://ml-cheatsheet.readthedocs.io/en/latest/loss_functions.html]</ref>, как функцию потерь.
* '''Неплоская карта глубины''': ищем одно-канальную (или неплоскую) карту глубины, то есть карту глубины, где каждый пиксель, либо на глубине 0, либо на глубине 1.
Авторы обучали и тестировали данные на NYUv2<ref>Датасет NYUv2[https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html]</ref>.
=== Неконтролируемая оценка Обучение без учителя поиска карты глубины монокуляра с консистенцией слева направо из видео (CVPR 2017) ===
Авторы данной статьи <ref name="cvrp_dnn">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" [https://arxiv.org/abs/1704.07813v2]</ref> предлагают методику оценки глубины одной картинки без учителя и движения камеры из беспорядочной видео нарезки.
[[Файл:Dnn.jpeg|thumb|400px| Рисунок 5. Aрхитектура сети на базе DispNet <ref name="cvrp">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" Figure 4</ref>]]
В данной работеБудем использовать сверточные нейронные сети c глубиной одного вида и многовидовой камерой из неупорядоченного видеоряда. Метод базируется на синтезе видов. Сеть загружает фото объекта в качестве данных ввода и выводит глубину пикселя. Вид объекта может быть синтезирован исходя из глубины на каждого пикселя снимка позиционирования и четкости ближнего вида. Синтез может быть дифференцирован с CNN по геометрии и модулям позиционирования.Авторы взяли на вооружение архитектуру DispNet<ref namrname="leftrigthdispNet"> Clément GodardNikolaus Mayer, Eddy Ilg, Oisin Mac AodhaPhilip Hausser, Gabriel J. Brostow Philipp Fischer "Unsupervised Monocular Depth A Large Dataset to Train Convolutional Networksfor Disparity, Optical Flow, and Scene Flow Estimation with Left-Right Consistency" [https://arxiv.org/abspdf/16091512.03677v302134.pdf]</ref> предлагается сверточная нейронная сеть, обученная выполнять оценку глубины одного изображения без реальных данных. Авторы предлагают сетевую архитектуру, которая выполняет сквозную оценку глубины изображения, полученного сконструирована в виде энкодера и декодера с 1 камеры, без учителя, что обеспечивает согласованность глубины слева направо внутри сетипропущенными соединениями и многомасштабными блоками предсказания. Функция активации ReLU отслеживает все сверточные слои кроме предсказанных.Сеть оценивает глубину, выводя смещения, которые искажают левое изображение, чтобы соответствовать правомуВид объекта со всех источников формирует входные данные в сеть позиционной оценки. Левое входное изображение используется для вывода смещений слева направо На выходе получается относительная позиция между видом объекта и справа налевовидом каждого источника. Сеть генерирует предсказанное изображение с обратным отображением с помощью билинейного сэмплера. Это приводит к полностью дифференциальной модели формирования изображения.Сверточная архитектура вдохновлена так же DipsNet'ом. Она состоит из двух частей—кодера и декодера7 шаговых сверток за которым следует свертка 1 х 1. Декодер использует пропуск соединений из блоков За исключением последнего слоя свертки, где применяется нелинейная активация, все другие отслеживаются функцией активации кодера, чтобы распознавать детали ReLU. Сеть объяснимых предсказаний дает доступ к первым пяти закодированным слоям сети позиционирования. За ней следуют 5 слоев обратной свертки с высоким разрешениеммногомасштабными блоками предсказаний. Сеть предсказывает две карты смещений — слева направо Кроме слоев предсказаний все уровни свертки и справа налевообратной свертки отслеживаются ReLU. Авторы проверяли данную методику на KITTY<ref> Датасет kitty[http://www.В процессе обучения сеть генерирует изображение путем выборки пикселей из противоположного стереоизображенияcvlibs. Модель формирования изображения использует сэмплер изображений из пространственной трансформаторной сети (STN) для выборки входного изображения с помощью карты смещенийnet/datasets/kitti/]</ref>.
=== Обучение без учителя поиска карты Неконтролируемая оценка глубины из видео монокуляра с консистенцией слева направо (CVPR 2017) ===
Авторы данной статьи [[Файл:Samplers.jpg|thumb|240px| Рисунок 6. Примерная архитектура сети с консистенцией слева направо <ref name="cvrp_dnncvrp2017">Tinghui ZhouClément Godard, Matthew BrownOisin Mac Aodha, Noah Snavely, David GGabriel J. Lowe Brostow "Unsupervised Learning of Monocular Depth and EgoEstimation with Left-Motion from VideoRight Consistency" [https://arxiv.org/abs/1704.07813v2]Figure 3 </ref> предлагают методику оценки глубины одной картинки без учителя и движения камеры из беспорядочной видео нарезки. ]]
[[Файл:dnn.png|thumb|400px| Рисунок 5. Aрхитектура сети на базе DispNet В данной работе<ref name="cvrpleftrigth">Tinghui Zhou, Matthew BrownClément Godard, Noah SnavelyOisin Mac Aodha, David GGabriel J. Lowe Brostow "Unsupervised Learning of Monocular Depth and EgoEstimation with Left-Motion from VideoRight Consistency" Figure 4[https://arxiv.org/abs/1609.03677v3]</ref>]]предлагается сверточная нейронная сеть, обученная выполнять оценку глубины одного изображения без реальных данных. Авторы предлагают сетевую архитектуру, которая выполняет сквозную оценку глубины изображения, полученного с 1 камеры, без учителя, что обеспечивает согласованность глубины слева направо внутри сети.Сеть оценивает глубину, выводя смещения, которые искажают левое изображение, чтобы соответствовать правому. Левое входное изображение используется для вывода смещений слева направо и справа налево. Сеть генерирует предсказанное изображение с обратным отображением с помощью билинейного сэмплера. Это приводит к полностью дифференциальной модели формирования изображения.Сверточная архитектура вдохновлена так же DispNet'ом. Она состоит из двух частей—кодера и декодера. Декодер использует пропуск соединений из блоков активации кодера, чтобы распознавать детали с высоким разрешением. Сеть предсказывает две карты смещений — слева направо и справа налево.В процессе обучения сеть генерирует изображение путем выборки пикселей из противоположного стереоизображения. Модель формирования изображения использует сэмплер изображений из пространственной трансформаторной сети (STN) для выборки входного изображения с помощью карты смещений. Авторы обучали и тестировали данные на KITTY.
Будем использовать сверточные нейронные сети c глубиной одного вида и многовидовой камерой из неупорядоченного видеоряда. Метод базируется на синтезе видов. Сеть загружает фото объекта в качестве данных ввода и выводит карту === Прогнозирование глубины на каждый пиксель. Вид объекта может быть синтезирован исходя из глубины на каждый пиксель снимка позиционирования и четкости ближнего вида. Синтез может быть дифференцирован с CNN без датчиков: использование структуры для обучения без учителя по геометрии и модулям позиционирования.Авторы взяли на вооружение архитектуру DispNet<ref nameмонокулярным видео (2019) ==="dispNet"> Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer "A Large Dataset to Train Convolutional Networksfor Disparity, Optical Flow, and Scene Flow Estimation" [https://arxiv.org/pdf/1512.02134.pdf]</ref>, которая сконструирована в виде енкодера - декодера с пропущенными соединениями и многомасштабными блоками предсказания. Функция активации ReLU отслеживает все сверточные слои кроме предсказанных.Вид объекта со всех источников формирует входные данные в сеть позиционной оценки. На выходе получается относительная позиция между видом объекта и видом каждого источника. Сеть состоит из двух 7 шаговых сверток за которым следует свертка 1 х 1. За исключением последнего слоя свертки, где применяется нелинейная активация, все другие отслеживаются функцией активации ReLU. Сеть объяснимых предсказаний дает доступ к первым пяти закодированным слоям сети позиционирования. За ней следуют 5 слоев обратной свертки с многомасштабными блоками предсказаний. Кроме слоев предсказаний все уровни свертки и обратной свертки отслеживаются ReLU.
=== Прогнозирование глубины без датчиков[[Файл: использование структуры ego.jpeg|thumb|500px| Рисунок 7. Сравнение обычного метода построения карты глубин с помощью эго-движения и предложенного в статье, который использует движения для обучения без учителя по монокулярным видео (AAAI 2019) ==различных 3D объектов <ref name="aaaif">Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova "Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos" Figure 2 </ref>]]
[[Файл:ego-motion.png|thumb|500px| Рисунок 5. Aрхитектура сети на базе DispNet '''Визуальная одометрия''' <ref name="cvrpвизуальная одометрия">Tinghui Zhou, Matthew Brown, Noah Snavely, David GСтатья о визуальной одометрии[https://en.wikipedia. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" Figure 4org/wiki/Visual_odometry]</ref>]]{{---}} метод оценки положения и ориентации робота или иного устройства в пространстве с помощью анализа последовательности изображений, снятых установленной на нем камерой.
Данная статья <ref name="aaai"> Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova "Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos" [https://arxiv.org/abs/1811.06152v1]</ref> посвящена задаче обучения без учителя глубины сцены и эго-движения визуальной одометрии робота, где наблюдение обеспечивается видеозаписями с одной камеры. Это делается путем введения геометрической структуры в процесс обучения. Он включает в себя моделирование сцены и отдельных объектов, эго-движения одометрии камеры и движения объектов, изучаемых с помощью монокулярных видеовходов. Авторы вводят модель движения объекта, которая имеет ту же архитектуру, что и сеть эго-движенияопределения визуальной одометрии. Она принимает последовательность изображений RGB в качестве входных данных и дополняется предварительно вычисленными масками сегментации экземпляров. Работа модели движения заключается в том, чтобы научиться предсказывать векторы трансформации каждого объекта в трехмерном пространстве. Это создает видимость наблюдаемого объекта в соответствующем целевом кадре. Авторы проверяли прогнозирование глубины на KITTY.
== См. также ==
Анонимный участник

Навигация