Определение геометрии изображения

Материал из Викиконспекты
Перейти к: навигация, поиск
НЕТ ВОЙНЕ

24 февраля 2022 года российское руководство во главе с Владимиром Путиным развязало агрессивную войну против Украины. В глазах всего мира это военное преступление совершено от лица всей страны, всех россиян.

Будучи гражданами Российской Федерации, мы против своей воли оказались ответственными за нарушение международного права, военное вторжение и массовую гибель людей. Чудовищность совершенного преступления не оставляет возможности промолчать или ограничиться пассивным несогласием.

Мы убеждены в абсолютной ценности человеческой жизни, в незыблемости прав и свобод личности. Режим Путина — угроза этим ценностям. Наша задача — обьединить все силы для сопротивления ей.

Эту войну начали не россияне, а обезумевший диктатор. И наш гражданский долг — сделать всё, чтобы её остановить.

Антивоенный комитет России

Распространяйте правду о текущих событиях, оберегайте от пропаганды своих друзей и близких. Изменение общественного восприятия войны - ключ к её завершению.
meduza.io, Популярная политика, Новая газета, zona.media, Майкл Наки.
Эта статья находится в разработке!

Определение геометрии изображения — одна из ключевых подзадач компьютерного зрения, заключающаяся в определении основных геометрических фигур на изображении, их взаимном расположении и пространстве.

Области применения

Извлечение информации об изображенных на изображении геометрических фигурах позволяет решать множество прикладных задач, таких как:

  1. Навигация беспилотных транспортных средств: Определение плоскости дороги, определение линии горизонта и объектах на дороге позволяют системам управления осуществлять работу.
  2. Дополненная реальность: определение различных плоскостей позволяет приложениям с дополненной реальностью взаимодействовать с пространством и дополнять его максимально реалистично.
  3. Построение 3D моделей по изображениям: имея плоское изображение, например фотографию комнаты, можно создать 3D модель, определив плоскости и карту глубин изображения.

Определения геометрии изображения с использованием машинного обучения

Для определения геометрии изображения необходимо предсказать нормали поверхности (англ. surface normal prediction). В настоящее время для этого активно используются сверточных нейронных сетей (англ. Convolutional Neural Network, CNN), например GroundNet[1], позволяющая определить линию горизонта по изображению улицы.

Рис. 1 Сеть GroundNet

Данная сеть сначала сегментирует участок земли, а затем независимо предсказывает нормали к участку земли и карту глубин для этого участка. По карте глубин вычисляются нормали, используя метод наименьших квадратов (Least squares) или метод RANSAC. Затем нормали, вычисленные ранее сравнивают, чтобы разница между ними была минимальна и после этого определяется линия горизонта.

Различные улучшения сетей

Spatial Transformer Networks

Spatial Transformer Networks (STN)[2] — модуль, который можно встроить для улучшения нейросети. STN, применяя обучаемое аффинное преобразование с последующей интерполяцией, лишает изображения пространственной инвариантности. Задача STN состоит в том, чтобы так повернуть или уменьшить-увеличить исходное изображение, чтобы основная сеть-классификатор смогла проще определить нужный объект. Использование данного модуля в сетях, предназначенных для в сетях для определения геометрии, позволяет получать более качественные результат.

Рис. 2 Пример работы Spatial Transformer Networks


Dense Conditional Random Field

Dense Conditional Random Field (DCRF) [3] — еще один встраиваемый модуль для улучшения нейронных сетей, предназначенный для осуществления согласованности между картой глубин изображения и картой нормалей.

Рис. 3 Пример работы Dense Conditional Random Field


Данные для обучения

  1. KITTI[1] — популярный набор данных с изображениями улиц и дорог.
  2. ApolloScape [2] — другой известный и большой набор данных с различными разметками.
  3. NYU v2 [3] — набор с изображениями помещений. Помимо RGB изображений, содержит записи с глубинных камер.
  4. SharinGAN[4] — метод, позволяющий объединять наборы из реальных и синтетических изображений, основанный на отбрасывании нерелевантных свойств каждого из типа данных и объединении релевантных. В конечном итоге данный метод позволяет легко получать наборы данных путем синтетического создания, так как их легко получить и разметить, но при этом эти наборы будут применимы для обучения сети, пригодной к использованию на реальных данных.

См. также

Примечания

Источники информации

Эта статья находится в разработке!