Изменения

Карта глубины

2357 байт добавлено, 17:43, 23 января 2021

→‎Прогнозирование глубины без датчиков: использование структуры для обучения без учителя по монокулярным видео (2019)

В целом, данная сеть показывает более точные результаты предсказания глубины.

=== Построение с помощью PlanetNet (2018)===

Так же есть архитектуры, решающие данную задачу и без обучения на карте смещений, построенной с помощью двух изображений. Одной из таких является '''PlaneNet'''.

'''PlaneNet'''<ref name="planetNet"> Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa "PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image" [https://arxiv.org/abs/1804.06278v1]</ref> {{---}} глубокая нейронная сеть, построенная на расширенных остаточных сетях (aнгл. Dilated Residual Networks или DRN)<ref name="drn"> Fisher Yu, Vladlen Koltun, Thomas Funkhouser "Dilated Residual Networks" [https://arxiv.org/abs/1705.09914]</ref>. Она получает карту глубин путем композиции выходов трех подзадач:

[[Файл:~~plane_net~~Plane net2.~~png~~jpg|thumb|500px| Рисунок 4. Прогнозируемые PlaneNet параметры по одной rgb картинке: cегметация плоскости, параметры плоскостей, неплоская карта глубины<ref name="img4"> Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa "PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image" Figure 2.</ref>.]]

* '''Параметры плоскостей''': пытаемся предсказать количество плоскостей $K$, а после ищем на изображение $K $ плоских поверхностей, каждая поверхность задаётся тремя параметрами<math>P_i</math>: нормальная, прямая и сдвиг. Функцию ошибки определим следующим образом: <math>L = \sum_{i=1}^{K} \min_{j \in [1, \hat K]} \| \hat P_j - P_i \|</math>, где <math>\hat K, \hat P_i</math> и <math>K, P_i</math>, предсказанные и реальные количество и параметры плоскостей, соответственно.

* [[Сегментация изображений|'''Сегментация плоскости''']]: ищем группы пикселей, каждая из которых характеризует один смысловой объект. Используем перекрёстную энтропию<ref name="cross-entropy"> О перекрёстной энтропии [https://ml-cheatsheet.readthedocs.io/en/latest/loss_functions.html]</ref>, как функцию потерь.

* '''Неплоская карта глубины''': ищем одно-канальную (или неплоскую) карту глубины, то есть карту глубины, где каждый пиксель, либо на глубине 0, либо на глубине 1.

Авторы обучали и тестировали данные на NYUv2<ref>Датасет NYUv2[https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html]</ref>.

=== ~~Неконтролируемая оценка~~ Обучение без учителя поиска карты глубины ~~монокуляра с консистенцией слева направо~~ из видео (~~CVPR~~ 2017) ===

В Авторы данной ~~работе предлагается сверточная нейронная сеть~~статьи <ref name="cvrp_dnn">Tinghui Zhou, обученная выполнять оценку глубины одного изображения без истинных данных. Авторы предлагают сетевую архитектуруMatthew Brown, ~~которая выполняет сквозную неконтролируемую оценку глубины монокуляра с потерей обучения~~Noah Snavely, ~~что обеспечивает согласованность глубины слева направо внутри сети~~David G.Сеть оценивает глубину, выводя диспропорции, которые искажают левое изображение, чтобы соответствовать правомуLowe "Unsupervised Learning of Depth and Ego-Motion from Video" [https://arxiv. ~~Левое входное изображение используется для вывода диспропорций слева направо и справа налево~~org/abs/1704. Сеть генерирует предсказанное изображение с обратным отображением с помощью билинейного сэмплера. Это приводит к полностью дифференциальной модели формирования изображения.~~Сверточная архитектура вдохновлена Диснеем. Она состоит из двух частей—кодера~~ 07813v2]</ref> предлагают методику оценки глубины одной картинки без учителя и ~~декодера. Декодер использует пропуск соединений~~ движения камеры из блоков активации кодера, чтобы распознавать детали с высоким разрешением. Сеть предсказывает две карты диспропорций — слева направо и справа налево.В процессе обучения сеть генерирует изображение путем выборки пикселей из противоположного стереоизображения. Модель формирования изображения использует сэмплер изображений из пространственной трансформаторной сети (STN) для выборки входного изображения с помощью карты диспаритетов. Используемая билинейная выборка локально дифференцируема.~~Здесь представлены результаты, полученные на Китти 2015 стерео 200 обучающего набора изображений неравенства~~беспорядочной видео нарезки.

[[Файл:Dnn.jpeg|thumb|400px| Рисунок 5. Aрхитектура сети на базе DispNet <ref name=~~== Неконтролируемое обучение поиска карты глубины из видео (CVPR 2017) ===~~"cvrp">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" Figure 4</ref>]]

Будем использовать сверточные нейронные сети c глубиной одного вида и многовидовой камерой из неупорядоченного видеоряда. Метод базируется на синтезе видов. Сеть загружает фото объекта в качестве данных ввода и выводит глубину пикселя. Вид объекта может быть синтезирован исходя из глубины на каждого пикселя снимка позиционирования и четкости ближнего вида. Синтез может быть дифференцирован с CNN по геометрии и модулям позиционирования.Авторы ~~данной статьи~~ взяли на вооружение архитектуру DispNet<ref name="~~cvrp_dnn~~dispNet">~~Tinghui Zhou~~Nikolaus Mayer, ~~Matthew Brown~~Eddy Ilg, ~~Noah Snavely~~Philip Hausser, ~~David G. Lowe~~ Philipp Fischer "~~Unsupervised Learning of Depth~~ A Large Dataset to Train Convolutional Networksfor Disparity, Optical Flow, and ~~Ego-Motion from Video~~Scene Flow Estimation" [https://arxiv.org/~~abs~~pdf/~~1704~~1512.02134.~~07813v2~~pdf]</ref> ~~предлагают методику неконтролируемой~~ , которая сконструирована в виде энкодера и декодера с пропущенными соединениями и многомасштабными блоками предсказания. Функция активации ReLU отслеживает все сверточные слои кроме предсказанных.Вид объекта со всех источников формирует входные данные в сеть позиционной оценки ~~глубины одной картинки~~ . На выходе получается относительная позиция между видом объекта и ~~движения камеры~~ видом каждого источника. Сеть состоит из ~~беспорядочной видео нарезки~~двух 7 шаговых сверток за которым следует свертка 1 х 1. За исключением последнего слоя свертки, где применяется нелинейная активация, все другие отслеживаются функцией активации ReLU. Сеть объяснимых предсказаний дает доступ к первым пяти закодированным слоям сети позиционирования. За ней следуют 5 слоев обратной свертки с многомасштабными блоками предсказаний. Кроме слоев предсказаний все уровни свертки и обратной свертки отслеживаются ReLU. Авторы проверяли данную методику на KITTY<ref> Датасет kitty[http://www.cvlibs.net/datasets/kitti/]</ref>.

~~[[Файл:dnn.png|thumb|400px| Рисунок 5. Aрхитектура сети на базе DispNet <ref name~~=~~"cvrp">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" Figure 4</ref>]]~~== Неконтролируемая оценка глубины монокуляра с консистенцией слева направо (2017) ===

Будем использовать сверточные нейронные сети c глубиной одного вида и многовидовой камерой из неупорядоченного видеоряда[[Файл:Samplers. ~~Метод базируется на синтезе видов~~jpg|thumb|240px| Рисунок 6. Сеть загружает фото объекта в качестве данных ввода и выводит карту глубины на каждый пиксель. Вид объекта может быть синтезирован исходя из глубины на каждый пиксель снимка позиционирования и четкости ближнего вида. Синтез может быть дифференцирован Примерная архитектура сети с ~~CNN по геометрии и модулям позиционирования.Авторы взяли на вооружение архитектуру DispNet~~консистенцией слева направо <ref name="~~dispNet~~cvrp2017"> ~~Nikolaus Mayer~~Clément Godard, ~~Eddy Ilg~~Oisin Mac Aodha, ~~Philip Hausser, Philipp Fischer~~ Gabriel J. Brostow "Unsupervised Monocular Depth Estimation with Left-Right Consistency"~~A Large Dataset to Train Convolutional Networks~~Figure 3 </ref>]]~~for Disparity~~В данной работе<ref name="leftrigth"> Clément Godard, ~~Optical Flow~~Oisin Mac Aodha, ~~and Scene Flow~~ Gabriel J. Brostow "Unsupervised Monocular Depth Estimationwith Left-Right Consistency" [https://arxiv.org/~~pdf~~abs/~~1512~~1609.~~02134.pdf~~03677v3]</ref>предлагается сверточная нейронная сеть, обученная выполнять оценку глубины одного изображения без реальных данных. Авторы предлагают сетевую архитектуру, которая ~~сконструирована в виде енкодера - декодера~~ выполняет сквозную оценку глубины изображения, полученного с пропущенными соединениями и многомасштабными блоками предсказания. Функция активации ReLU отслеживает все сверточные слои кроме предсказанных1 камеры, без учителя, что обеспечивает согласованность глубины слева направо внутри сети.~~Вид объекта со всех источников формирует входные данные в сеть позиционной оценки~~Сеть оценивает глубину, выводя смещения, которые искажают левое изображение, чтобы соответствовать правому. ~~На выходе получается относительная позиция между видом объекта~~ Левое входное изображение используется для вывода смещений слева направо и ~~видом каждого источника~~справа налево. Сеть генерирует предсказанное изображение с обратным отображением с помощью билинейного сэмплера. Это приводит к полностью дифференциальной модели формирования изображения.Сверточная архитектура вдохновлена так же DispNet'ом. Она состоит из двух ~~7 шаговых сверток за которым следует свертка 1 х 1~~частей—кодера и декодера. ~~За исключением последнего слоя свертки~~Декодер использует пропуск соединений из блоков активации кодера, ~~где применяется нелинейная активация, все другие отслеживаются функцией активации ReLU~~чтобы распознавать детали с высоким разрешением. Сеть ~~объяснимых предсказаний дает доступ к первым пяти закодированным слоям~~ предсказывает две карты смещений — слева направо и справа налево.В процессе обучения сеть генерирует изображение путем выборки пикселей из противоположного стереоизображения. Модель формирования изображения использует сэмплер изображений из пространственной трансформаторной сети ~~позиционирования. За ней следуют 5 слоев обратной свертки~~ (STN) для выборки входного изображения с ~~многомасштабными блоками предсказаний~~помощью карты смещений. ~~Кроме слоев предсказаний все уровни свертки~~ Авторы обучали и ~~обратной свертки отслеживаются ReLU~~тестировали данные на KITTY. === Прогнозирование глубины без датчиков: использование структуры для обучения без учителя по монокулярным видео (2019) === [[Файл:ego.jpeg|thumb|500px| Рисунок 7. Сравнение обычного метода построения карты глубин с помощью эго-движения и предложенного в статье, который использует движения для различных 3D объектов <ref name="aaaif">Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova "Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos" Figure 2 </ref>]]

'''Визуальная одометрия''' <ref name=~~== Прогнозирование глубины без датчиков~~"визуальная одометрия">Статья о визуальной одометрии[https: ~~использование структуры для обучения без учителя по монокулярным видео (AAAI 2019) ===~~//en.wikipedia.org/wiki/Visual_odometry]</ref> {{---}} метод оценки положения и ориентации робота или иного устройства в пространстве с помощью анализа последовательности изображений, снятых установленной на нем камерой.

Данная статья <ref name="aaai"> Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova "Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos" [https://arxiv.org/abs/1811.06152v1]</ref> посвящена задаче обучения без учителя глубины сцены и ~~эго-движения~~ визуальной одометрии робота, где наблюдение обеспечивается видеозаписями с одной камеры. Это делается путем введения геометрической структуры в процесс обучения. Он включает в себя моделирование сцены и отдельных объектов, ~~эго-движения~~ одометрии камеры и движения объектов, изучаемых с помощью монокулярных видеовходов. Авторы вводят модель движения объекта, которая имеет ту же архитектуру, что и сеть ~~эго-движения~~определения визуальной одометрии. Она принимает последовательность изображений RGB в качестве входных данных и дополняется предварительно вычисленными масками сегментации экземпляров. Работа модели движения заключается в том, чтобы научиться предсказывать векторы трансформации каждого объекта в трехмерном пространстве. Это создает видимость наблюдаемого объекта в соответствующем целевом кадре. Авторы проверяли прогнозирование глубины на KITTY.

== См. также ==

Анонимный участник

109.252.193.207

Изменения

Карта глубины

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты