Карта глубины
Карта глубины (англ. depth map) — это изображение, на котором для каждого пикселя, вместо цвета, храниться его расстояние до камеры.[1]
В компьютерной 3D-графике и компьютерном зрении карта глубины представляет собой изображение или канал изображения, содержащий информацию о расстоянии поверхностей объектов сцены от точки обзора.
Мотивация
Карта глубины изображения содержит в себе информацию о расстоянии между различными объектами или частями объектов представленных на данном изображении. Эта информация может быть полезна для создания 3D-сенсоров. Такие сенсоры, способные строить трёхмерную картину своего окружения, могут помочь для ориентации автономного робота в пространстве, или для систем использующих технологии дополненной и виртуальной реальности. Например камеры, которые фиксируют действия пользователя, при игре в видеоигру, использующую технологию виртуальной реальности. Нельзя не отметить беспилотные автомобили, которые так же используют карты глубин, для ориентации на дороге.
Методы построения карты глубины
Карта глубины может быть получена с помощью специальной камеры глубины, а так же может быть построена по стереопаре изображений, а так же с помощью нейронных сетей.
Использование нейронных сетей
Существует множество решений данной проблемы, использующих нейроные сети, приведём пару примеров таких решений.
Построение с помощью капсульных нейронных сетей
Построение с помощью специальных камер глубин
- ToF-камеры (Time of Flight). Следующий способ получения глубины интереснее. Он основан на измерении задержки света.Фактически нам нужно измерить задержку, с которой свет возвращается в каждую точку. Либо, если у нас несколько сенсоров с разным временем накопления заряда, то, зная сдвиг по времени относительно источника для каждого сенсора и снятой яркости вспышки, мы можем рассчитать сдвиг и, соответственно, расстояние до объекта, причем увеличивая количество сенсоров — увеличиваем точность.
- Структурированные световые камеры (aнгл. Structured light camera). Данный способ один из самых старых и дешёвых способов, построить карту глубин. Основная идея крайне проста. Ставим рядом проектор, который создает, например, горизонтальные (а потом вертикальные) полоски и рядом камеру, которая снимает картину с полосками. В некоторых вариантах используются псевдослучайный набор точек (MS Kinect). Проекторы обычно работают в инфракрасном спектре, очевидно, чтобы не мешать пользователям. Поскольку камера и проектор смещены друг относительно друга, то и полоски также будут смещаться пропорционально расстоянию до объекта. Измеряя это смещение мы можем рассчитывать расстояние до объекта. Вполне понятны проблемы с которыми можно столкнутся при использовании этого метода: это необходимость настройки и калибровки проектора, и проблема того, что нам нужно относительно благоприятное освещение. К примеру солнце может засветить полосы, и что-то распознать будет тяжело.
Построения карты глубины по стереопаре
Идея, лежащая в основе построения карты глубины по стереопаре очень проста. Для каждой точки на одном изображении выполняется поиск парной ей точки на другом изображении. А по паре соответствующих точек можно выполнить триангуляцию и определить координаты их прообраза в трехмерном пространстве. Зная трехмерные координаты прообраза, глубина вычисляется, как расстояние до плоскости камеры.
Парную точку нужно искать на эпиполярной[2] линии. Соответственно, для упрощения поиска, изображения выравнивают так, что бы все эпиполярные линии были параллельны сторонам изображения (обычно горизонтальны). Более того, изображения выравнивают так, что бы для точки с координатами соответствующая ей эпиполярная линия задавалась уравнением , тогда для каждой точки соответствующую ей парную точку нужно искать в той-же строчке на изображении со второй камеры. Такой процесс выравнивания изображений называют ректификацией (rectification).
После того как изображения ректифицированы, выполняют поиск соответствующих пар точек. Для каждого пикселя одной картинки с координатами корреляция окрестностей пикселей. В результате получается карта смещений, пример которой приведен на рис. 2.
выполняется поиск пикселя на другой картинке. При этом предполагается, что пиксель на второй картинке должен иметь координаты , где d — величина называемая смещением. Поиск соответствующего пикселя выполняется путем вычисления максимума функции отклика, в качестве которой может выступать, например,Собственно значения глубины обратно пропорциональны величине смещения пикселей.