Изменения

Карта глубины

241 байт добавлено, 17:43, 23 января 2021

→‎Прогнозирование глубины без датчиков: использование структуры для обучения без учителя по монокулярным видео (2019)

'''PlaneNet'''<ref name="planetNet"> Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa "PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image" [https://arxiv.org/abs/1804.06278v1]</ref> {{---}} глубокая нейронная сеть, построенная на расширенных остаточных сетях (aнгл. Dilated Residual Networks или DRN)<ref name="drn"> Fisher Yu, Vladlen Koltun, Thomas Funkhouser "Dilated Residual Networks" [https://arxiv.org/abs/1705.09914]</ref>. Она получает карту глубин путем композиции выходов трех подзадач:

[[Файл:Plane ~~net~~net2.~~png~~jpg|thumb|500px| Рисунок 4. Прогнозируемые PlaneNet параметры по одной rgb картинке: cегметация плоскости, параметры плоскостей, неплоская карта глубины<ref name="img4"> Chen Liu, Jimei Yang, Duygu Ceylan, Ersin Yumer, Yasutaka Furukawa "PlaneNet: Piece-wise Planar Reconstruction from a Single RGB Image" Figure 2.</ref>.]]

* '''Параметры плоскостей''': пытаемся предсказать количество плоскостей $K$, а после ищем на изображение $K$ плоских поверхностей, каждая поверхность задаётся тремя параметрами <math>P_i</math>: нормальная, прямая и сдвиг. Функцию ошибки определим следующим образом: <math>L = \sum_{i=1}^{K} \min_{j \in [1, \hat K]} \| \hat P_j - P_i \|</math>, где <math>\hat K, \hat P_i</math> и <math>K, P_i</math>, предсказанные и реальные количество и параметры плоскостей, соответственно.

* [[Сегментация изображений|'''Сегментация плоскости''']]: ищем группы пикселей, каждая из которых характеризует один смысловой объект. Используем перекрёстную энтропию<ref name="cross-entropy"> О перекрёстной энтропии [https://ml-cheatsheet.readthedocs.io/en/latest/loss_functions.html]</ref>, как функцию потерь.

* '''Неплоская карта глубины''': ищем одно-канальную (или неплоскую) карту глубины, то есть карту глубины, где каждый пиксель, либо на глубине 0, либо на глубине 1.

Авторы данной статьи <ref name="cvrp_dnn">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" [https://arxiv.org/abs/1704.07813v2]</ref> предлагают методику оценки глубины одной картинки без учителя и движения камеры из беспорядочной видео нарезки.

[[Файл:~~dnn~~Dnn.~~png~~jpeg|thumb|400px| Рисунок 5. Aрхитектура сети на базе DispNet <ref name="cvrp">Tinghui Zhou, Matthew Brown, Noah Snavely, David G. Lowe "Unsupervised Learning of Depth and Ego-Motion from Video" Figure 4</ref>]]

Будем использовать сверточные нейронные сети c глубиной одного вида и многовидовой камерой из неупорядоченного видеоряда. Метод базируется на синтезе видов. Сеть загружает фото объекта в качестве данных ввода и выводит глубину пикселя. Вид объекта может быть синтезирован исходя из глубины на каждого пикселя снимка позиционирования и четкости ближнего вида. Синтез может быть дифференцирован с CNN по геометрии и модулям позиционирования.

=== Прогнозирование глубины без датчиков: использование структуры для обучения без учителя по монокулярным видео (2019) ===

[[Файл:ego~~-motion~~.~~png~~jpeg|thumb|500px| Рисунок 7. Сравнение обычного метода построения карты глубин с помощью эго-движения и предложенного в статье, который использует движения для различных ~~3-D~~ 3D объектов <ref name="aaaif">Vincent Casser, Soeren Pirk, Reza Mahjourian, Anelia Angelova "Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos" Figure 2 </ref>]]

'''Визуальная одометрия''' <ref name="визуальная одометрия">Статья о визуальной одометрии[https://en.wikipedia.org/wiki/Visual_odometry]</ref> {{---}} метод оценки положения и ориентации робота или иного устройства в пространстве с помощью анализа последовательности изображений, снятых установленной на нем камерой.

Анонимный участник

109.252.193.207

Изменения

Карта глубины

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты