Изменения

Перейти к: навигация, поиск

Компьютерное зрение

1206 байт добавлено, 22:16, 22 марта 2020
sta
==Распознавание объектов==
Задача состоит в том, чтобы по изображению суметь выделить на нем некоторый набор объектов. Пока задача не решена в общем случае – алгоритм не может классифицировать случайные объекты на изображении. Однако способен распознавать заранее заученный набор объектов с достаточно высокой точностью.
[[Файл:Object_detection.jpeg|600px|thumb|centre|Источник: [https://habr.com/ru/post/463991/]]]
Самым простым методом детекции объектов является метод скользящего окна методом R-CNN(англ. '''Regions with Convulational Neural Network''' - Выделение регионов с помощью свертоных сетей), при котором мы проходимся некоторым окном фиксированного размера по каждому кусочку картинки, и применяем к нему простой классификатор, обученный распознавать заранее определенный набор объектов. Модификации этого метода, такие как [[Faster R-CNN | Faster R-CNN]] применяются до сих пор
==[[Сегментация изображений | Сегментация изображения]]==
Задача похожая на детекцию объектов, но в отличие от нее требуется не окружить найденные объекты рамками, а выделить пиксели, которые этот объект составляют. Сегментация применяется во многих областях, например, в производстве для индикации дефектов при сборке деталей, в медицине для первичной обработки снимков, также для составления карт местности по снимкам со спутников. Самый простой алгоритм сегментации – WaterShed, заключающийся в разделении на куски функции от координат пикселей, начиная с минимумов этой функции. Также для сегментации применяют алгоритм U-Net, представляющий из себя нексколько слоев сверточной сети, которые различаются по размеру.
 
[[Файл:WaterShed.jpg|600px|thumb|centre|Результат сегментации изображдения алгоритмом WaterShed. Источник: Статья на хабре[https://habr.com/ru/company/intel/blog/266347/]]]
 
==Оценка положения(Pose Estimation)==
Задача, в некотором роде продолжающая задачу сегментации. Заключается в выделении некоторого каркаса объекта (например скелета, если речь идет о людях) и определении положения этого каркаса на изображении. Этот скелет может быть использован в последствии например для предсказания направления движения. В зависимости от количества рассматриваемых объектов различают ''single-person'' и ''multi-person'' pose estimation. Различие состоит в том, что во втором случае необходимо также учитывать, что объекты могут накладываться друг на друга. Для выполнения этой задачи сначала обрезается фон, оставляя только изображения непосредственно объектов, а затем для каждого из объектов с помощью сверточных нейронных сетей выделяются области суставов, которые затем соединяются.
[[Файл: pose_Estimation.png|600px|thumb|centre|Пример применения алгоритмов pose_estimation к изображению. Источник: [https://nanonets.com/blog/human-pose-estimation-2d-guide/]]]
==Распознавание текста==
Одна из ключевых задач компьютерного зрения. Сначала с помощью алгоритмов детекции выделяется область в которой текст написан, затем производится непосредственно распознавание текста например с помощью алгоритмов сегментации. При этом задачи распознавания текста написанного на листе бумаги, и распознавания текста написанного где-то на изображении (“in the wild”), например текст на дорожном знаке, номер машины и т. д., сильно различаются, в силу наличия в последнем случае помех, которые мешают выделить конкретные буквы. В этом случае может помочь, например обучение предсказания буквы по остальным буквам в слове.
[[Файл:text_recognition.png|600px|thumb|centre|Пример реальной задачи распознавания текста - Распознование номеров на дверях. Источник: [https://towardsdatascience.com/a-gentle-introduction-to-ocr-ee1469a201aa]]]
==Генерация объектов==
Задача состоит в том, чтобы по известному набору объектов научится создавать похожие объекты, но при этом не совпадающие ни с одним из тестовых. Например создавать анимационных персонажей в стилистике мультфильма, нарисовав руками только пару из них. Для этого применяют такие архитектуры как [[Generative Adversarial Nets (GAN) | GAN]](англ. '''Generative adversarial network''' - генеративно состязательная сеть), при которой сеть делится на две, одна из которых стремится создать объект, а вторая его отбраковать, или [[Вариационный автокодировщик|вариационный автокодировщик]], обучающийся на плотностях вероятностей исходных данныхс целью создать объект похожий на исходный, но не совпадающий с ним.[[Файл:GAN.jpeg|600px|thumb|centre|Пример генерации изображения методом GAN. Источник: [https://medium.com/@jonathan_hui/gan-some-cool-applications-of-gans-4c9ecca35900]]]
=Примечания=
#[https://www.fritz.ai/pose-estimation/] - Статья Pose Estimation
#[https://habr.com/ru/post/274725/] - Статья на Хабре, краткий обзор задач компьютерного зрения
 
#[https://towardsdatascience.com/r-cnn-fast-r-cnn-faster-r-cnn-yolo-object-detection-algorithms-36d53571365e] - Про R-CNN, Faster R-CNN и YOLO
#[https://ccis2k.org/iajit/PDF/vol.3,no.2/2-Nassir.pdf] - Про Watershed
16
правок

Навигация