Изменения

Компьютерное зрение

1889 байт добавлено, 15:13, 21 марта 2020

Нет описания правки

=Задачи компьютерного зрения=

Все задачи компьютерного зрения сводятся к анализу изображения, на котором требуется прежде всего выделить фрагмент, содержащий необходимую информацию. Для выделения обычно используют или прямоугольную область, которая ограничивает исходный фрагмент, или просто выделяют пиксели принадлежащие ему

==Идентификация==

Задача состоит в том, чтобы по изображению суметь выделить на нем некоторый набор объектов. Пока задача не решена в общем случае – алгоритм не может классифицировать случайные объекты на изображении. Однако способен распознавать заранее заученный набор объектов с достаточно высокой точностью.

Самым простым методом детекции объектов является метод скользящего окна[[методом R-CNN|(Rангл. '''Regions with Convulational Neural Network''' -~~CNN~~Выделение регионов с помощью свертоных сетей)]], при котором мы проходимся некоторым окном фиксированного размера по каждому кусочку картинки, и применяем к нему простой классификатор, обученный распознавать заранее определенный набор объектов. Модификации этого метода, такие как [[Faster R-CNN | Faster R-CNN]] применяются до сих пор

==[[Сегментация изображений | Сегментация изображения]]==Задача похожая на детекцию объектов, но в отличие от нее требуется не окружить найденные объекты рамками, а выделить пиксели, которые этот ~~объекты~~ объект составляют. Сегментация применяется во многих областях, например, в производстве для индикации дефектов при сборке деталей, в медицине для первичной обработки снимков, также для составления карт местности по снимкам со спутников. Самый простой алгоритм сегментации – ~~[[WaterShred | WaterShred]]~~WaterShed, заключающийся в разделении на куски функции от координат пикселей, начиная с минимумов этой функции . Также для сегментации применяют алгоритм U-Net, представляющий из себя нексколько слоев сверточной сети, которые различаются по размеру.

==Оценка положения(Pose Estimation)==

Задача, в некотором роде продолжающая задачу сегментации. Заключается в выделении некоторого каркаса объекта (например скелета, если речь идет о людях) и ~~предсказании его дальнейшего~~ определении положения этого каркаса на изображении. Этот скелет может быть использован в последствии например для предсказания направления движения~~. Чаще всего применяется к обработке. Положения людей на фотографии~~. В зависимости от количества рассматриваемых ~~людей~~ объектов различают ''single-person'' и ''multi-person'' ~~[[pose estimatiom |~~pose estimation]] . Различие состоит в том, что во втором случае необходимо также учитывать, что объекты могут накладываться~~. Друг~~ друг на друга. Для выполнения этой задачи сначала обрезается фон, оставляя только изображения непосредственно объектов, а затем для каждого из объектов с помощью сверточных нейронных сетей выделяются области суставов, которые затем соединяются.

==Распознавание текста==

Одна из ключевых задач компьютерного зрения. Сначала с помощью алгоритмов детекции выделяется область в которой текст написан, затем производится непосредственно распознавание текста например с помощью алгоритмов сегментации. При этом задачи распознавания текста написанного на листе бумаги, и распознавания текста написанного где-то на изображении (“in the wild”), например текст на дорожном знаке, номер машины и т. д., сильно различаются, в силу наличия в последнем случае помех, которые мешают выделить конкретные буквы. В этом случае может помочь, например обучение предсказания буквы по остальным буквам в слове.

==Генерация объектов==

Задача состоит в том, чтобы по известному набору объектов научится создавать похожие объекты, но при этом не совпадающие ни с одним из тестовых. Например создавать анимационных персонажей в стилистике мультфильма, нарисовав руками только пару из них. Для этого применяют такие архитектуры как [[Generative Adversarial Nets (GAN) | GAN]](англ. '''Generative adversarial network''' - генеративно состязательная сеть), при которой сеть делится на две, одна из которых стремится создать объект, а вторая его отбраковать, или [[Вариационный автокодировщик|вариационный автокодировщик]], обучающийся на плотностях вероятностей исходных данных.

=Примечания=

=См. Также=

#[[Вариационный автокодировщик | Вариационный автокодировщик]]

#[[Generative Adversarial Nets (GAN) | GAN]]

#[[Сверточные нейронные сети | Сверточные нейронные сети]]

#[[Сегментация изображений | Сегментация изображений]]

=Ссылки=

#[https://~~nanonets~~www.~~com~~fritz.ai/~~blog/human-~~pose-estimation~~-2d-guide~~/] - ~~задача~~ Статья Pose Estimation

#[https://habr.com/ru/post/274725/] - Статья на Хабре, краткий обзор задач компьютерного зрения

#[~~http~~https://~~neerc~~towardsdatascience.~~ifmo~~com/r-cnn-fast-r-cnn-faster-r-cnn-yolo-object-detection-algorithms-36d53571365e] - Про R-CNN, Faster R-CNN и YOLO#[https://ccis2k.ruorg/iajit/PDF/~~wiki~~vol.3,no.2/~~index~~2-Nassir.~~php?title=%D0%A1%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B9~~pdf] - ~~Статья на кики по сегментации изображений~~Про Watershed#[https://towardsdatascience.com/unet-line-by-line-explanation-9b191c76baf5] - Про U-Net с примерами кода

[[Категория: Машинное обучение]]

[[Категория: Компьютерное зрение]]

Анонимный участник

94.19.127.38

Изменения

Компьютерное зрение

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты