Изменения

Карта глубины

2258 байт добавлено, 17:43, 23 января 2021

→‎Прогнозирование глубины без датчиков: использование структуры для обучения без учителя по монокулярным видео (2019)

В целом, данная сеть показывает более точные результаты предсказания глубины.

=== Построение с помощью PlanetNet (2018)===

Так же есть архитектуры, решающие данную задачу и без обучения на карте смещений, построенной с помощью двух изображений. Одной из таких является '''PlaneNet'''.

'''PlaneNet'''<ref name="planetNet"> Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa "PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image" [https://arxiv.org/abs/1804.06278v1]</ref> {{---}} глубокая нейронная сеть, построенная на расширенных остаточных сетях (aнгл. Dilated Residual Networks или DRN)<ref name="drn"> Fisher Yu, Vladlen Koltun, Thomas Funkhouser "Dilated Residual Networks" [https://arxiv.org/abs/1705.09914]</ref>. Она получает карту глубин путем композиции выходов трех подзадач:

[[Файл:~~plane_net~~Plane net2.~~png~~jpg|thumb|500px| Рисунок 4. Прогнозируемые PlaneNet параметры по одной rgb картинке: cегметация плоскости, параметры плоскостей, неплоская карта глубины<ref name="img4"> Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa "PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image" Figure 2.</ref>.]]

* '''Параметры плоскостей''': пытаемся предсказать количество плоскостей $K$, а после ищем на изображение $K $ плоских поверхностей, каждая поверхность задаётся тремя параметрами<math>P_i</math>: нормальная, прямая и сдвиг. Функцию ошибки определим следующим образом: <math>L = \sum_{i=1}^{K} \min_{j \in [1, \hat K]} \| \hat P_j - P_i \|</math>, где <math>\hat K, \hat P_i</math> и <math>K, P_i</math>, предсказанные и реальные количество и параметры плоскостей, соответственно.

* [[Сегментация изображений|'''Сегментация плоскости''']]: ищем группы пикселей, каждая из которых характеризует один смысловой объект. Используем перекрёстную энтропию<ref name="cross-entropy"> О перекрёстной энтропии [https://ml-cheatsheet.readthedocs.io/en/latest/loss_functions.html]</ref>, как функцию потерь.

* '''Неплоская карта глубины''': ищем одно-канальную (или неплоскую) карту глубины, то есть карту глубины, где каждый пиксель, либо на глубине 0, либо на глубине 1.

Авторы обучали и тестировали данные на NYUv2<ref>Датасет NYUv2[https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html]</ref>.

=== ~~Неконтролируемая оценка~~ Обучение без учителя поиска карты глубины ~~монокуляра с консистенцией слева направо~~ из видео (~~CVPR~~ 2017) ===

Авторы данной статьи <ref name="cvrp_dnn">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" [https://arxiv.org/abs/1704.07813v2]</ref> предлагают методику оценки глубины одной картинки без учителя и движения камеры из беспорядочной видео нарезки.

[[Файл:Dnn.jpeg|thumb|400px| Рисунок 5. Aрхитектура сети на базе DispNet <ref name="cvrp">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" Figure 4</ref>]]

~~В данной работе~~Будем использовать сверточные нейронные сети c глубиной одного вида и многовидовой камерой из неупорядоченного видеоряда. Метод базируется на синтезе видов. Сеть загружает фото объекта в качестве данных ввода и выводит глубину пикселя. Вид объекта может быть синтезирован исходя из глубины на каждого пикселя снимка позиционирования и четкости ближнего вида. Синтез может быть дифференцирован с CNN по геометрии и модулям позиционирования.Авторы взяли на вооружение архитектуру DispNet<ref ~~namr~~name="~~leftrigth~~dispNet"> ~~Clément Godard~~Nikolaus Mayer, Eddy Ilg, ~~Oisin Mac Aodha~~Philip Hausser, ~~Gabriel J. Brostow~~ Philipp Fischer "~~Unsupervised Monocular Depth~~ A Large Dataset to Train Convolutional Networksfor Disparity, Optical Flow, and Scene Flow Estimation ~~with Left-Right Consistency~~" [https://arxiv.org/~~abs~~pdf/~~1609~~1512.~~03677v3~~02134.pdf]</ref> предлагается сверточная нейронная сеть, обученная выполнять оценку глубины одного изображения без реальных данных. Авторы предлагают сетевую архитектуру, которая ~~выполняет сквозную оценку глубины изображения, полученного~~ сконструирована в виде энкодера и декодера с ~~1 камеры, без учителя, что обеспечивает согласованность глубины слева направо внутри сети~~пропущенными соединениями и многомасштабными блоками предсказания. Функция активации ReLU отслеживает все сверточные слои кроме предсказанных.~~Сеть оценивает глубину, выводя смещения, которые искажают левое изображение, чтобы соответствовать правому~~Вид объекта со всех источников формирует входные данные в сеть позиционной оценки. ~~Левое входное изображение используется для вывода смещений слева направо~~ На выходе получается относительная позиция между видом объекта и ~~справа налево~~видом каждого источника. Сеть генерирует предсказанное изображение с обратным отображением с помощью билинейного сэмплера. Это приводит к полностью дифференциальной модели формирования изображения.~~Сверточная архитектура вдохновлена так же DipsNet'ом. Она~~ состоит из двух ~~частей—кодера и декодера~~7 шаговых сверток за которым следует свертка 1 х 1. ~~Декодер использует пропуск соединений из блоков~~ За исключением последнего слоя свертки, где применяется нелинейная активация, все другие отслеживаются функцией активации ~~кодера, чтобы распознавать детали~~ ReLU. Сеть объяснимых предсказаний дает доступ к первым пяти закодированным слоям сети позиционирования. За ней следуют 5 слоев обратной свертки с ~~высоким разрешением~~многомасштабными блоками предсказаний. ~~Сеть предсказывает две карты смещений — слева направо~~ Кроме слоев предсказаний все уровни свертки и ~~справа налево~~обратной свертки отслеживаются ReLU. Авторы проверяли данную методику на KITTY<ref> Датасет kitty[http://www.В процессе обучения сеть генерирует изображение путем выборки пикселей из противоположного стереоизображенияcvlibs. Модель формирования изображения использует сэмплер изображений из пространственной трансформаторной сети (STN) для выборки входного изображения с помощью карты смещенийnet/datasets/kitti/]</ref>.

=== ~~Обучение без учителя поиска карты~~ Неконтролируемая оценка глубины ~~из видео~~ монокуляра с консистенцией слева направо (~~CVPR~~ 2017) ===

~~Авторы данной статьи~~ [[Файл:Samplers.jpg|thumb|240px| Рисунок 6. Примерная архитектура сети с консистенцией слева направо <ref name="~~cvrp_dnn~~cvrp2017">~~Tinghui Zhou~~Clément Godard, ~~Matthew Brown~~Oisin Mac Aodha, ~~Noah Snavely, David G~~Gabriel J. ~~Lowe~~ Brostow "Unsupervised ~~Learning of~~ Monocular Depth ~~and Ego~~Estimation with Left-~~Motion from Video~~Right Consistency" ~~[https://arxiv.org/abs/1704.07813v2]~~Figure 3 </ref> предлагают методику оценки глубины одной картинки без учителя и движения камеры из беспорядочной видео нарезки. ]]

~~[[Файл:dnn.png|thumb|400px| Рисунок 5. Aрхитектура сети на базе DispNet~~ В данной работе<ref name="~~cvrp~~leftrigth">~~Tinghui Zhou, Matthew Brown~~Clément Godard, ~~Noah Snavely~~Oisin Mac Aodha, ~~David G~~Gabriel J. ~~Lowe~~ Brostow "Unsupervised ~~Learning of~~ Monocular Depth ~~and Ego~~Estimation with Left-~~Motion from Video~~Right Consistency" ~~Figure 4~~[https://arxiv.org/abs/1609.03677v3]</ref>]]предлагается сверточная нейронная сеть, обученная выполнять оценку глубины одного изображения без реальных данных. Авторы предлагают сетевую архитектуру, которая выполняет сквозную оценку глубины изображения, полученного с 1 камеры, без учителя, что обеспечивает согласованность глубины слева направо внутри сети.Сеть оценивает глубину, выводя смещения, которые искажают левое изображение, чтобы соответствовать правому. Левое входное изображение используется для вывода смещений слева направо и справа налево. Сеть генерирует предсказанное изображение с обратным отображением с помощью билинейного сэмплера. Это приводит к полностью дифференциальной модели формирования изображения.Сверточная архитектура вдохновлена так же DispNet'ом. Она состоит из двух частей—кодера и декодера. Декодер использует пропуск соединений из блоков активации кодера, чтобы распознавать детали с высоким разрешением. Сеть предсказывает две карты смещений — слева направо и справа налево.В процессе обучения сеть генерирует изображение путем выборки пикселей из противоположного стереоизображения. Модель формирования изображения использует сэмплер изображений из пространственной трансформаторной сети (STN) для выборки входного изображения с помощью карты смещений. Авторы обучали и тестировали данные на KITTY.

Будем использовать сверточные нейронные сети c глубиной одного вида и многовидовой камерой из неупорядоченного видеоряда. Метод базируется на синтезе видов. Сеть загружает фото объекта в качестве данных ввода и выводит карту === Прогнозирование глубины на каждый пиксель. Вид объекта может быть синтезирован исходя из глубины на каждый пиксель снимка позиционирования и четкости ближнего вида. Синтез может быть дифференцирован с CNN без датчиков: использование структуры для обучения без учителя по ~~геометрии и модулям позиционирования.Авторы взяли на вооружение архитектуру DispNet<ref name~~монокулярным видео (2019) ===~~"dispNet"> Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer "A Large Dataset to Train Convolutional Networks~~for Disparity, Optical Flow, and Scene Flow Estimation" [https://arxiv.org/pdf/1512.02134.pdf]</ref>, которая сконструирована в виде енкодера - декодера с пропущенными соединениями и многомасштабными блоками предсказания. Функция активации ReLU отслеживает все сверточные слои кроме предсказанных.Вид объекта со всех источников формирует входные данные в сеть позиционной оценки. На выходе получается относительная позиция между видом объекта и видом каждого источника. Сеть состоит из двух 7 шаговых сверток за которым следует свертка 1 х 1. За исключением последнего слоя свертки, где применяется нелинейная активация, все другие отслеживаются функцией активации ReLU. Сеть объяснимых предсказаний дает доступ к первым пяти закодированным слоям сети позиционирования. За ней следуют 5 слоев обратной свертки с многомасштабными блоками предсказаний. Кроме слоев предсказаний все уровни свертки и обратной свертки отслеживаются ReLU.

~~=== Прогнозирование глубины без датчиков~~[[Файл: ~~использование структуры~~ ego.jpeg|thumb|500px| Рисунок 7. Сравнение обычного метода построения карты глубин с помощью эго-движения и предложенного в статье, который использует движения для ~~обучения без учителя по монокулярным видео (AAAI 2019) ==~~различных 3D объектов <ref name="aaaif">Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova "Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos" Figure 2 </ref>]]

~~[[Файл:ego-motion.png|thumb|500px| Рисунок 5. Aрхитектура сети на базе DispNet~~ '''Визуальная одометрия''' <ref name="~~cvrp~~визуальная одометрия">~~Tinghui Zhou, Matthew Brown, Noah Snavely, David G~~Статья о визуальной одометрии[https://en.wikipedia. ~~Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" Figure 4~~org/wiki/Visual_odometry]</ref>]]{{---}} метод оценки положения и ориентации робота или иного устройства в пространстве с помощью анализа последовательности изображений, снятых установленной на нем камерой.

Данная статья <ref name="aaai"> Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova "Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos" [https://arxiv.org/abs/1811.06152v1]</ref> посвящена задаче обучения без учителя глубины сцены и ~~эго-движения~~ визуальной одометрии робота, где наблюдение обеспечивается видеозаписями с одной камеры. Это делается путем введения геометрической структуры в процесс обучения. Он включает в себя моделирование сцены и отдельных объектов, ~~эго-движения~~ одометрии камеры и движения объектов, изучаемых с помощью монокулярных видеовходов. Авторы вводят модель движения объекта, которая имеет ту же архитектуру, что и сеть ~~эго-движения~~определения визуальной одометрии. Она принимает последовательность изображений RGB в качестве входных данных и дополняется предварительно вычисленными масками сегментации экземпляров. Работа модели движения заключается в том, чтобы научиться предсказывать векторы трансформации каждого объекта в трехмерном пространстве. Это создает видимость наблюдаемого объекта в соответствующем целевом кадре. Авторы проверяли прогнозирование глубины на KITTY.

== См. также ==

Анонимный участник

109.252.193.207

Изменения

Карта глубины

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты