Изменения

Перейти к: навигация, поиск

Определение геометрии изображения

7533 байта добавлено, 13:37, 18 января 2021
Новая страница: «{{В разработке}} Определение геометрии изображения {{---}} одна из ключевых подзадач компью…»
{{В разработке}}
Определение геометрии изображения {{---}} одна из ключевых подзадач компьютерного зрения, заключающаяся в определении основных геометрических фигур на изображении, их взаимном расположении и пространстве.

== Области применения ==
Извлечение информации об изображенных на изображении геометрических фигурах позволяет решать множество прикладных задач, таких как:

#'''Навигация беспилотных транспортных средств: ''' Определение плоскости дороги, определение линии горизонта и объектах на дороге позволяют системам управления осуществлять работу.
#'''Дополненная реальность: '''определение различных плоскостей позволяет приложениям с дополненной реальностью взаимодействовать с пространством и дополнять его максимально реалистично.
#'''Построение 3D моделей по изображениям: '''имея плоское изображение, например фотографию комнаты, можно создать 3D модель, определив плоскости и карту глубин изображения.

== Определения геометрии изображения с использованием машинного обучения ==

Для определения геометрии изображения необходимо предсказать нормали поверхности (англ. surface normal prediction). В настоящее время для этого активно используются [[Сверточные нейронные сети|сверточных нейронных сетей (англ. ''Convolutional Neural Network, CNN'')]], например GroundNet<ref>[https://arxiv.org/pdf/1811.07222.pdf GroundNet: Monocular Ground Plane Normal Estimationwith Geometric Consistency ]</ref>, позволяющая определить линию горизонта по изображению улицы.
<div style="text-align: center">
[[Файл:GroundNet.png|600px|thumb|center| Рис. 1 Сеть GroundNet]]
</div>
Данная сеть сначала сегментирует участок земли, а затем независимо предсказывает нормали к участку земли и карту глубин для этого участка. По карте глубин вычисляются нормали, используя метод наименьших квадратов ([https://en.wikipedia.org/wiki/Least_squares Least squares]) или метод [https://en.wikipedia.org/wiki/Random_sample_consensus RANSAC]. Затем нормали, вычисленные ранее сравнивают, чтобы разница между ними была минимальна и после этого определяется линия горизонта.

== Различные улучшения сетей ==

=== Spatial Transformer Networks ===
'''Spatial Transformer Networks (STN)<ref>[https://proceedings.neurips.cc/paper/2015/file/33ceb07bf4eeb3da587e268d663aba1a-Paper.pdf Spatial Transformer Networks ]</ref>''' {{---}} модуль, который можно встроить для улучшения нейросети. STN, применяя обучаемое аффинное преобразование с последующей интерполяцией, лишает изображения пространственной инвариантности. Задача STN состоит в том, чтобы так повернуть или уменьшить-увеличить исходное изображение, чтобы основная сеть-классификатор смогла проще определить нужный объект. Использование данного модуля в сетях, предназначенных для в сетях для определения геометрии, позволяет получать более качественные результат.
<div style="text-align: center">
[[Файл:STN.png|500px|thumb|center| Рис. 2 Пример работы Spatial Transformer Networks]]
</div>


=== Dense Conditional Random Field ===

'''Dense Conditional Random Field (DCRF) <ref>[https://proceedings.neurips.cc/paper/2016/file/65ded5353c5ee48d0b7d48c591b8f430-Paper.pdf SURGE: Surface Regularized Geometry Estimationfrom a Single Image]</ref>''' {{---}} еще один встраиваемый модуль для улучшения нейронных сетей, предназначенный для осуществления согласованности между картой глубин изображения и картой нормалей.
<div style="text-align: center">
[[Файл:DCRF.png|500px|thumb|center| Рис. 3 Пример работы Dense Conditional Random Field]]
</div>


== Данные для обучения ==
#'''KITTI'''[http://www.cvlibs.net/datasets/kitti/] {{---}} популярный набор данных с изображениями улиц и дорог.
#'''ApolloScape '''[http://apolloscape.auto/] {{---}} другой известный и большой набор данных с различными разметками.
#'''NYU v2 '''[https://cs.nyu.edu/~silberman/datasets/nyu_depth_v2.html] {{---}} набор с изображениями помещений. Помимо RGB изображений, содержит записи с глубинных камер.
#'''SharinGAN<ref>[https://openaccess.thecvf.com/content_CVPR_2020/papers/PNVR_SharinGAN_Combining_Synthetic_and_Real_Data_for_Unsupervised_Geometry_Estimation_CVPR_2020_paper.pdf SharinGAN: Combining Synthetic and Real Data for Unsupervised GeometryEstimation]</ref> '''{{---}} метод, позволяющий объединять наборы из реальных и синтетических изображений, основанный на отбрасывании нерелевантных свойств каждого из типа данных и объединении релевантных. В конечном итоге данный метод позволяет легко получать наборы данных путем синтетического создания, так как их легко получить и разметить, но при этом эти наборы будут применимы для обучения сети, пригодной к использованию на реальных данных.

==См. также==
*[[Глубокое обучение]]
*[[Сверточные нейронные сети]]
== Примечания ==
<references/>
== Источники информации==

* [https://habr.com/ru/company/newprolab/blog/339484/ Spatial Transformer Networks.]

{{В разработке}}

[[Категория:Машинное обучение]]
4
правки

Навигация