Изменения

← Предыдущая правка

Карта глубины

14 509 байт добавлено, 19:30, 4 сентября 2022

м

rollbackEdits.php mass rollback

'''Карта глубины''' (англ. depth map) — это изображение, ~~на котором~~ где для каждого пикселя, вместо цвета, хранится его расстояние до камеры.<ref name="def">Alexey Kurakin "Основы стереозрения"[https://habr.com/ru/post/130300/]</ref>

В компьютерной 3D-графике и [[Компьютерное зрение|компьютерном зрении]] карта глубины представляет собой изображение или канал изображения, содержащий информацию о расстоянии поверхностей объектов сцены от точки обзора.

== Мотивация ==

Карта глубины изображения содержит в себе информацию о расстоянии между различными объектами или частями объектов , представленных на данном изображении. Эта информация может быть полезна ~~для~~ во многих областях. * Для создания 3D-~~сенсоров~~сенсеров. ~~Такие сенсоры, способные~~ Они способны строить трёхмерную картину своего окружения, ~~могут помочь~~ используются для [[Оценка положения|ориентации]] автономного робота в пространстве. * Для систем, ~~или для систем~~ использующих технологии дополненной и виртуальной реальности. Например , камеры, которые фиксируют действия пользователя~~, при игре~~ в ~~видеоигру, использующую технологию~~ видеоиграх с технологией виртуальной реальности. ~~Нельзя не отметить беспилотные автомобили~~ * В беспилотных автомобилях, которые ~~так же~~ также используют карты глубин, для ориентации на дороге.~~Так же~~ * Для обработки фотографий. Например, карты глубин используют, для размытия фона на фотографии, ~~для~~ чтобы добиться более чёткого выделения ~~на ней~~ человека<ref name="expls">Примеры из "Research Guide for Depth Estimation with Deep Learning"[https://www.kdnuggets.com/2019/11/research-guide-depth-estimation-deep-learning.html]</ref>.

== Методы построения карты глубины ==

Карта глубины может быть получена с помощью '''специальной камеры глубины''', ~~а так же может быть построена~~ по '''стереопаре изображений''', а ~~так же~~ также с помощью [[Нейронные сети, перцептрон|'''нейронных сетей''']].

== Построение с помощью специальных камер глубин ==

[[Файл:ToF.jpg|thumb|250px| ~~рис.~~ Рисунок 1. Пример работы ToF-камеры.]]

* '''ToF-камеры''' (англ. Time of Flight). ~~Следующий способ получения глубины интереснее. Он~~ Принцип работы данной камеры основан на измерении задержки света~~.Фактически нам нужно измерить задержку~~, с которой свет возвращается в каждую точку. ~~Либо, если у нас~~ Имея несколько сенсоров с разным временем накопления заряда~~, то~~и, зная сдвиг по времени относительно источника для каждого сенсора и снятой яркости вспышки, мы можем рассчитать сдвиг и, соответственно, расстояние до объекта. Причем чем больше сенсоров задействовано, ~~причем увеличивая количество сенсоров — увеличиваем~~ тем выше точностьметода.

* '''Структурированные световые камеры''' (aнгл. Structured light camera). ~~Данный способ~~ Принцип работы данной камеры один из самых старых ~~и дешёвых способов, построить карту глубин. Основная идея крайне проста~~. Ставим ~~рядом~~ проектор, который создает, например, горизонтальные (а потом и вертикальные) полоски и рядом камеру, которая снимает картину с полосками. В некоторых вариантах ~~используются~~ используется псевдослучайный набор точек (например MS Kinect{{---}} бесконтактный сенсорный игровой контроллер, для консолей Xbox 360, Xbox One и персональных компьютеров под управлением ОС Windows<ref name="kinect"> О MicriSoft Kinect [https://en.wikipedia.org/wiki/Kinect]</ref>). Проекторы обычно работают в инфракрасном спектре~~, очевидно~~, чтобы не мешать пользователям. Поскольку камера и проектор смещены друг относительно друга, то и полоски также будут смещаться пропорционально расстоянию до объекта. Измеряя это смещение , мы можем рассчитывать расстояние до объекта. Вполне понятны ~~проблемы~~ сложности, с которыми можно ~~столкнутся~~ столкнуться при использовании этого метода: это необходимость настройки и калибровки проектора, и проблема того, что нам нужно относительно благоприятное освещение. К примеру , солнце может засветить полосы, и что-то распознать будет тяжело.

== Построения карты глубины по стереопаре ==

Идея, лежащая в основе построения карты глубины по '''стереопаре''' ~~очень~~ , проста. Для каждой точки на одном изображении выполняется поиск [[Ключевые точки изображения|парной ей точки ]]<sup>[на 21.01.21 не создан]</sup> на другом изображении. А по паре соответствующих точек можно выполнить [[Триангуляция полигонов (ушная + монотонная)|триангуляцию]] и определить координаты их [[Отображения|прообраза]] в трехмерном пространстве. Зная трехмерные координаты прообраза, глубина вычисляется, как расстояние до плоскости камеры.

Парную точку нужно искать на эпиполярной<ref name="Epipolar">Информация о эпиполярной геометрии[https://ru.qaz.wiki/wiki/Epipolar_geometry]</ref> линии. Соответственно, для упрощения поиска, изображения выравнивают так, ~~что бы~~ чтобы все эпиполярные линии были параллельны сторонам изображения (обычно горизонтальны). Более того, изображения выравнивают так, ~~что бы~~ чтобы для точки с координатами <math>(x_0, y_0)</math> соответствующая ей эпиполярная линия задавалась уравнением <math>x = x_0</math>~~, тогда~~ . Тогда для каждой точки , соответствующую ей парную точку , нужно искать в той-же строчке на изображении со второй камеры. Такой процесс выравнивания изображений называют '''ректификацией''' (rectification).

[[Файл:Stereo.png|thumb|300px| ~~рис.~~ Рисунок 2. Результат построения карты смещений по 2 двум картинкам.<ref name="img2"> "Основы стереозрения" Рис. 3 [https://habr.com/ru/post/130300/]</ref>]]

После того , как изображения '''ректифицированы''', выполняют поиск соответствующих пар точек. Для каждого пикселя одной картинки с координатами <math>(x_0, y_0)</math> выполняется поиск пикселя на другой картинке. При этом предполагается, что пиксель на второй картинке должен иметь координаты <math>(x_0 - d, y_0)</math>, где <math>d </math> — величина называемая смещением. Поиск соответствующего пикселя выполняется путем вычисления максимума функции отклика, в качестве которой может выступать, например, [[Корреляция случайных величин|корреляция]] окрестностей пикселей. В результате получается карта смещений, пример которой приведен на рис. 2.

Собственно значения глубины обратно пропорциональны величине смещения пикселей.

== Использование нейронных сетей ==

Существует множество ~~решений данной проблемы~~методов, использующих ~~нейроные~~ нейронные сети~~, приведём~~ . Приведём пару примеров таких решений.

=== Построение с помощью свёрточных нейронных сетей ===

Используем [[Сверточные нейронные сети|сверточные нейронные сети]] для построения карты глубины следующим образом<ref name="cnn_rew"> Xiaobai Ma, Zhenglin Geng, Zhi Bie "Depth Estimation from Single Image Using CNN-Residual Network" [http://cs231n.stanford.edu/reports/2017/pdfs/203.pdf]</ref>: * '''Создаем карту смещений''': используя два изображения с камер, близко расположенных друг к другу, создаем карту различий, точно так же как в методе построения по стереопаре. * '''Ищем реальную карту глубины для обучения''': с помощью карты смещений, можем построить карту глубины <math>y</math> вышеописанным способом. Также допустимы другие способы построения карты глубины для обучения нейронной сети. * '''Функция потерь''': определим [[Функция потерь и эмпирический риск|функцию потерь]], для предсказанной карты <math>\hat y</math>, <math>d_i = log( y_i) - log (\hat y_i)</math>, <math>\lambda \in [0, 1]</math> и <math>n </math> — количество пикселей. <math>L(y, \hat y) = \frac{1}{n} \sum\limits_{i} d^2_i - \frac{\lambda}{n^2}(\sum\limits_{i} d_i)^2</math>, где <math>y_i</math> и <math>\hat y_i</math> это i пискель для для реальной карты глубин и для предсказанной карты, соответственно. Гиперпараметр <math>\lambda</math>, нужен для того, чтобы функция потерь меньше росла при большом количестве пикселей, предсказание для которых достаточно близко к реальному. Например, если <math>\lambda = 0</math>, то мы просто придём к оптимизации в L2 для <math>d_i</math>, т.е. <math>L(y, \hat y) = \frac{1}{n} \sum\limits_{i} d^2_i </math>.<ref name="loss">David Eigen, Christian Puhrsch, Rob Fergus "Depth Map Prediction from a Single Imageusing a Multi-Scale Deep Network" стр. 5</ref> * '''Обучение свёрточной нейронной сети''': далее идёт обычное обучение нейронной сети по карте различий путем обратного распространения ошибки, оптимизируя заданную выше функцию потерь. В итоге, по обученной нейронной сети мы можем создавать карту глубины, не проводя расчётов для поиска карт смещения и имея только изображение объекта или пространства. <ref name="cnn">Реализация, основанная на свёрточных нейронных сетях [https://www.kaggle.com/kmader/cnn-for-generating-depth-maps-from-rgb-images]</ref> Также возможно использование усложнённых архитектур свёрточных нейронных сетей типа '''DenseNet'''. '''DenseNet'''<ref name="DenseNet">Оригинальная статья описывающая DenseNet [https://arxiv.org/abs/1611.09326]</ref> {{---}} это свёрточная нейронные сеть, в которой выход каждого из слоев подаётся на вход всем слоям, лежащих ниже. === Построение с помощью капсульных нейронных сетей === Свёрточные нейронные сети способны регистрировать только наличие какого-либо объекта на картинке, не кодируя его ориентацию и положение. Но '''капсульные нейронные сети''' (англ. Capsule Neural Network)<ref name="CapsNet">Sara Sabour, Nicholas Frosst, Geoffrey E. Hinton "Dynamic Routing Between Capsules" [https://arxiv.org/pdf/1710.09829.pdf]</ref> лишены этого недостатка. [[Файл:capsnet.jpg|thumb|400px| Рисунок 3. Структура капсульной нейронной сети <ref name="img"> "Design and Investigation of Capsule Networks for Sentence Classification" Figure 2. [https://www.mdpi.com/2076-3417/9/11/2200/htm]</ref>.]] "Капсульная нейронная сеть" состоит из капсул или групп нейронов, чтобы идентифицировать закономерности в изображении. Эта информация поступает в виде векторов, содержащих ориентацию и положение узоров на изображении, которое затем принимается капсулами более высокого уровня. Капсулы более высокого уровня обрабатывают эту информацию из нескольких капсул более низкого уровня и впоследствии выдают прогноз. Капсулы одного уровня не имеют связей друг с другом и вычисляют информацию независимо друг от друга. Капсулы образуются путем разделения выходных данных из свёрточного слоя. Мы делим наш трехмерный вектор на капсулы методом "нарезания" таким образом, чтобы в каждой капсуле была информация о каждом пикселе, т.е. по трехмерной координате. Состояние нейронов капсульной нейронной сети внутри изображения фиксирует свойство области или объекта внутри изображения: его положение и ориентацию.

* '''Создаем карту смещений''': используя 2 изображения с камерИспользование капсульной нейронной сети аналогично использованию обычных свёрточных сетей, ~~близко расположенных друг у другу~~описанному выше. В целом, ~~создаем карту различий, точно так же как в методе построения по стереопаре~~данная сеть показывает более точные результаты предсказания глубины.

* "Ищем реальную карту глубины для обучения": === Построение с помощью карты смещений, можем построить карту глубины <math>y</math> вышеописанным способом. Также же допустимы, другие способы построения карты глубины для обучения нейронной сети.PlanetNet (2018)===

* Так же есть архитектуры, решающие данную задачу и без обучения на карте смещений, построенной с помощью двух изображений. Одной из таких является '''~~Функция потерь~~PlaneNet''': определим [[Функция потерь и эмпирический риск|функцию потерь]], для предсказанной карты <math>\hat y</math>, <math>d_i = log( y_i) - log (\hat y_i)</math>, <math>\lambda \in [0, 1]</math> и <math>n </math> - количество пикселей. Где <math>y_i</math> и <math>\hat y_i</math>, это .Гиперпараметр <math>\lambda</math>, нужен для того, чтобы функция потерь меньше росла, при большом количестве пикселей, предсказание для которых достаточно близко к реальному. Например, если <math>\lambda = 0</math>, то мы просто придём к оптимизации в L2. <ref name="loss">David Eigen, Christian Puhrsch, Rob Fergus "Depth Map Prediction from a Single Imageusing a Multi-Scale Deep Network" стр. ~~5</ref>~~

~~Так же возможны, использования усложнённых архитектур свёрточных нейронных сетей, к примеру~~ '''~~DenseNet~~PlaneNet'''<ref name="planetNet"> ~~Ibraheem Alhashim~~Chen Liu, ~~Peter Wonka~~ Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa "~~High Quality Monocular Depth Estimation via Transfer Learning~~PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image" [https://arxiv.org/~~pdf~~abs/~~1812~~1804.~~11941~~06278v1]</ref> {{---}} глубокая нейронная сеть, построенная на расширенных остаточных сетях (aнгл.~~pdf~~Dilated Residual Networks или DRN)<ref name="drn"> Fisher Yu, Vladlen Koltun, Thomas Funkhouser "Dilated Residual Networks" [https://arxiv.org/abs/1705.09914]</ref>.Она получает карту глубин путем композиции выходов трех подзадач:

~~'''DenseNet'''~~[[Файл:Plane net2.jpg|thumb|500px| Рисунок 4. Прогнозируемые PlaneNet параметры по одной rgb картинке: cегметация плоскости, параметры плоскостей, неплоская карта глубины<ref name="~~DenseNet~~img4">~~Оригинальная статья описывающая DenseNet [https~~Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa "PlaneNet:~~//arxiv.org/abs/1611~~Piece-wise Planar Reconstruction from a Single RGB Image" Figure 2.~~09326]~~</ref> {{---}} это свёрточная нейронные сеть, в которой выход каждого из слоев, подаётся на вход всем слоям, которые лежат ниже.]]

* '''Параметры плоскостей''': пытаемся предсказать количество плоскостей $K$, а после ищем на изображение $K$ плоских поверхностей, каждая поверхность задаётся тремя параметрами <math>P_i</math>: нормальная, прямая и сдвиг. Функцию ошибки определим следующим образом: <math>L~~(y, \hat y)~~ = \~~frac~~sum_{i=1}^{nK} \~~sum~~min_{j \~~limits_{i~~in [1, \hat K]} ~~d^2_i~~ \| \hat P_j - P_i \~~frac{~~|</math>, где <math>\~~lambda}{n^2}(~~hat K, \~~sum\limits_{i} d_i)^2~~hat P_i</math> и <math>K, P_i</math>, предсказанные и реальные количество и параметры плоскостей, соответственно.

* [[Сегментация изображений|'''~~Обучение сверточной нейронной сети~~Сегментация плоскости''']]: ~~далее идёт обычное обучение нейронной сети по карте различий~~ищем группы пикселей, ~~путем обратного распространения ошибки оптимизируя~~каждая из которых характеризует один смысловой объект. Используем перекрёстную энтропию<ref name="cross-entropy"> О перекрёстной энтропии [https://ml-cheatsheet.readthedocs.io/en/latest/loss_functions.html]</ref>, ~~заданную выше~~ как функцию потерь.

~~По итогу~~* '''Неплоская карта глубины''': ищем одно-канальную (или неплоскую) карту глубины, ~~по обученной нейронной сети, мы можем создавать~~ то есть карту глубины, ~~не проводя расчётов для поиска карт смещения~~где каждый пиксель, ~~и имея только~~ либо на глубине 0, либо на глубине 1 ~~изображения объекта или пространства~~. Авторы обучали и тестировали данные на NYUv2<ref ~~name="cnn"~~>~~Реализация, основанная на свёрточных нейронных сетях~~ Датасет NYUv2[https://~~www~~cs.~~kaggle~~nyu.~~com~~edu/~~kmader~~~silberman/~~cnn-for-generating-depth-maps-from-rgb-images~~datasets/nyu_depth_v2.html]</ref>.

=== ~~Построение~~ Обучение без учителя поиска карты глубины из видео (2017) === Авторы данной статьи <ref name="cvrp_dnn">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" [https://arxiv.org/abs/1704.07813v2]</ref> предлагают методику оценки глубины одной картинки без учителя и движения камеры из беспорядочной видео нарезки. [[Файл:Dnn.jpeg|thumb|400px| Рисунок 5. Aрхитектура сети на базе DispNet <ref name="cvrp">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" Figure 4</ref>]] Будем использовать сверточные нейронные сети c глубиной одного вида и многовидовой камерой из неупорядоченного видеоряда. Метод базируется на синтезе видов. Сеть загружает фото объекта в качестве данных ввода и выводит глубину пикселя. Вид объекта может быть синтезирован исходя из глубины на каждого пикселя снимка позиционирования и четкости ближнего вида. Синтез может быть дифференцирован с CNN по геометрии и модулям позиционирования.Авторы взяли на вооружение архитектуру DispNet<ref name="dispNet"> Nikolaus Mayer, Eddy Ilg, Philip Hausser, Philipp Fischer "A Large Dataset to Train Convolutional Networksfor Disparity, Optical Flow, and Scene Flow Estimation" [https://arxiv.org/pdf/1512.02134.pdf]</ref>, которая сконструирована в виде энкодера и декодера с пропущенными соединениями и многомасштабными блоками предсказания. Функция активации ReLU отслеживает все сверточные слои кроме предсказанных.Вид объекта со всех источников формирует входные данные в сеть позиционной оценки. На выходе получается относительная позиция между видом объекта и видом каждого источника. Сеть состоит из двух 7 шаговых сверток за которым следует свертка 1 х 1. За исключением последнего слоя свертки, где применяется нелинейная активация, все другие отслеживаются функцией активации ReLU. Сеть объяснимых предсказаний дает доступ к первым пяти закодированным слоям сети позиционирования. За ней следуют 5 слоев обратной свертки с ~~помощью капсульных нейронных сетей~~ многомасштабными блоками предсказаний. Кроме слоев предсказаний все уровни свертки и обратной свертки отслеживаются ReLU. Авторы проверяли данную методику на KITTY<ref> Датасет kitty[http://www.cvlibs.net/datasets/kitti/]</ref>. ===Неконтролируемая оценка глубины монокуляра с консистенцией слева направо (2017) === [[Файл:Samplers.jpg|thumb|240px| Рисунок 6. Примерная архитектура сети с консистенцией слева направо <ref name="cvrp2017">Clément Godard, Oisin Mac Aodha, Gabriel J. Brostow "Unsupervised Monocular Depth Estimation with Left-Right Consistency" Figure 3 </ref>]]

~~Сверточные нейроные~~ В данной работе<ref name="leftrigth"> Clément Godard, Oisin Mac Aodha, Gabriel J. Brostow "Unsupervised Monocular Depth Estimation with Left-Right Consistency" [https://arxiv.org/abs/1609.03677v3]</ref> предлагается сверточная нейронная сеть, обученная выполнять оценку глубины одного изображения без реальных данных. Авторы предлагают сетевую архитектуру, которая выполняет сквозную оценку глубины изображения, полученного с 1 камеры, без учителя, что обеспечивает согласованность глубины слева направо внутри сети ~~имеют недостаток в распознавании объектов на картинке~~. ~~Нейронные сети способны регистрировать~~Сеть оценивает глубину, выводя смещения, ~~только наличие какого либо объекта на картинке~~которые искажают левое изображение, ~~не кодируя его ориентацию~~ чтобы соответствовать правому. Левое входное изображение используется для вывода смещений слева направо и ~~положение~~справа налево. Сеть генерирует предсказанное изображение с обратным отображением с помощью билинейного сэмплера. Это приводит к полностью дифференциальной модели формирования изображения. Но Сверточная архитектура вдохновлена так же DispNet'~~''капсульные нейронные~~ ом. Она состоит из двух частей—кодера и декодера. Декодер использует пропуск соединений из блоков активации кодера, чтобы распознавать детали с высоким разрешением. Сеть предсказывает две карты смещений — слева направо и справа налево.В процессе обучения сеть генерирует изображение путем выборки пикселей из противоположного стереоизображения. Модель формирования изображения использует сэмплер изображений из пространственной трансформаторной сети~~''' лишены этого недостатка~~(STN) для выборки входного изображения с помощью карты смещений. Авторы обучали и тестировали данные на KITTY.

~~[[Файл~~=== Прогнозирование глубины без датчиков:~~capsnet.jpg|thumb|400px| рис. 3. Структура капсульной нейронной сети <ref name~~использование структуры для обучения без учителя по монокулярным видео (2019) ===~~"img"> "Design and Investigation of Capsule Networks for Sentence Classification" Figure 2. [https://www.mdpi.com/2076-3417/9/11/2200/htm]</ref>.]]~~

[[Файл:ego.jpeg|thumb|500px| Рисунок 7. Сравнение обычного метода построения карты глубин с помощью эго-движения и предложенного в статье, который использует движения для различных 3D объектов <ref name="~~Капусльная нейронная сеть~~aaaif" ~~{{---}} состоят из капсул или групп нейронов~~>Vincent Casser, ~~чтобы идентифицировать закономерности в изображении. Эта информация поступает в виде векторов~~Soeren Pirk, ~~содержащих ориентацию и положение узоров на изображении~~Reza Mahjourian, который затем принимается капсулами более высокого уровня. Капсулы более высокого уровня обрабатывают эту информацию из нескольких капсул более низкого уровня и впоследствии выдают прогноз. Капсулы одного уровня, не имеют связей друг с другом и вычисляют информацию независимо друг от друга. Anelia Angelova "Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos" Figure 2 </ref>]]

Состояние нейронов капусльной нейронной сети внутри изображения фиксируетсвойство области или объекта внутри изображения'''Визуальная одометрия''' <ref name="визуальная одометрия">Статья о визуальной одометрии[https: ~~его положение~~ //en.wikipedia.org/wiki/Visual_odometry]</ref> {{---}} метод оценки положения и ~~ориентацию~~ориентации робота или иного устройства в пространстве с помощью анализа последовательности изображений, снятых установленной на нем камерой.

~~Использование капусльной нейронной сети~~Данная статья <ref name="aaai"> Vincent Casser, ~~аналогично~~ Soeren Pirk, Reza Mahjourian, Anelia Angelova "Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos" [https://arxiv.org/abs/1811.06152v1]</ref> посвящена задаче обучения без учителя глубины сцены и визуальной одометрии робота, где наблюдение обеспечивается видеозаписями с ~~использованием обычных сверточных сетей~~одной камеры. Это делается путем введения геометрической структуры в процесс обучения. Он включает в себя моделирование сцены и отдельных объектов, ~~которое описано выше~~одометрии камеры и движения объектов, изучаемых с помощью монокулярных видеовходов. ~~В целом данная~~ Авторы вводят модель движения объекта, которая имеет ту же архитектуру, что и сеть ~~показывает более точные результаты предсказания~~ определения визуальной одометрии. Она принимает последовательность изображений RGB в качестве входных данных и дополняется предварительно вычисленными масками сегментации экземпляров. Работа модели движения заключается в том, чтобы научиться предсказывать векторы трансформации каждого объекта в трехмерном пространстве. Это создает видимость наблюдаемого объекта в соответствующем целевом кадре. Авторы проверяли прогнозирование глубинына KITTY.

== См. также ==

== Источники информации ==

* Чугунов Р.А. ~~Чугунов~~, Кульневич А.Д. ~~Кульневич~~, Аксенов С.В. ~~Аксенов "~~Методика построения карт глубины стереоизображения с помощью капсульной нейронной сети" //Доклады Томского государственного университета систем управления и радиоэлектроники. – 2019. – Т. 22. – №. 1.[https://cyberleninka.ru/article/n/metodika-postroeniya-kart-glubiny-stereoizobrazheniya-s-pomoschyu-kapsulnoy-neyronnoy-seti/viewer] * Alhashim I., Wonka P. High quality monocular depth estimation via transfer learning. arXiv 2018 //arXiv preprint arXiv:1812.11941. [https://arxiv.org/pdf/1812.11941.pdf]

* ~~Alexey Kurakin "Основы стереозрения"~~ Eigen D., Puhrsch C., Fergus R. Depth map prediction from a single image using a multi-scale deep network //Advances in neural information processing systems. – 2014. – Т. 27. – С. 2366-2374. [https://~~habr~~arxiv.~~com~~org/~~ru/post/130300~~pdf/1406.2283.pdf]

* ~~Dmitriy Vatolin "Камеры глубины — тихая революция"~~ Prakash S., Gu G. Simultaneous localization and mapping with depth prediction using capsule networks for uavs //arXiv preprint arXiv:1808.05336. – 2018. [https://~~habr~~arxiv.~~com~~org/~~ru/post/457524~~pdf/1808.05336.pdf]

* ~~Ibraheem Alhashim~~Ma X., Geng Z., ~~Peter Wonka "High Quality Monocular~~ Bie Z. Depth Estimation ~~via Transfer Learning"~~ from Single Image Using CNN-Residual Network //SemanticScholar. – 2017. [https://~~arxiv~~www.semanticscholar.org/~~pdf~~paper/~~1812.11941.pdf~~Depth-Estimation-from-Single-Image-Using-Network-Geng/d79e7fc68e088f094a22910049117e586705bb7d?p2df]

* David Eigen, Christian Puhrsch, Rob Fergus "Depth Map Prediction from a Single Imageusing a Multi-Scale Deep Network [~~https~~[Категория:~~//arxiv.org/pdf/1406.2283.pdf~~Машинное обучение]]

* Sunil Prakash, Gaelan Gu "Simultaneous Localization And Mapping with depth Prediction using Capsule Networks for UAVs" [~~https~~[Категория:~~//arxiv.org/pdf/1808.05336.pdf~~Компьютерное зрение]]

Maintenance script

1632

правки

Изменения

Карта глубины

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты