Компьютерное зрение — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
Строка 3: Строка 3:
  
 
=Задачи компьютерного зрения=
 
=Задачи компьютерного зрения=
 +
Все задачи компьютерного зрения сводятся к анализу изображения, на котором требуется прежде всего выделить фрагмент, содержащий необходимую информацию. Для выделения обычно используют или прямоугольную область, которая ограничивает исходный фрагмент, или просто выделяют пиксели принадлежащие ему
  
 
==Идентификация==
 
==Идентификация==
Строка 10: Строка 11:
 
Задача состоит в том, чтобы по изображению суметь выделить на нем некоторый набор объектов. Пока задача не решена в общем случае – алгоритм не может классифицировать случайные объекты на изображении. Однако способен распознавать заранее заученный набор объектов с достаточно высокой точностью.
 
Задача состоит в том, чтобы по изображению суметь выделить на нем некоторый набор объектов. Пока задача не решена в общем случае – алгоритм не может классифицировать случайные объекты на изображении. Однако способен распознавать заранее заученный набор объектов с достаточно высокой точностью.
  
Самым простым методом детекции объектов является метод скользящего окна[[R-CNN|(R-CNN)]], при котором мы проходимся некоторым окном фиксированного размера по каждому кусочку картинки, и применяем к нему простой классификатор, обученный распознавать заранее определенный набор объектов. Модификации этого метода, такие как [[Faster R-CNN | Faster R-CNN]] применяются до сих пор
+
Самым простым методом детекции объектов является метод скользящего окна методом R-CNN(англ. '''Regions with Convulational Neural Network''' - Выделение регионов с помощью свертоных сетей), при котором мы проходимся некоторым окном фиксированного размера по каждому кусочку картинки, и применяем к нему простой классификатор, обученный распознавать заранее определенный набор объектов. Модификации этого метода, такие как [[Faster R-CNN | Faster R-CNN]] применяются до сих пор
  
==Сегментация изображения==
+
==[[Сегментация изображений | Сегментация изображения]]==
Задача похожая на детекцию объектов, но в отличие от нее требуется не окружить найденные объекты рамками, а выделить пиксели, которые этот объекты составляют. Сегментация применяется во многих областях, например, в производстве для индикации дефектов при сборке деталей, в медицине для первичной обработки снимков, также для составления карт местности по снимкам со спутников. Самый простой алгоритм сегментации – [[WaterShred | WaterShred]], заключающийся в разделении на куски функции от координат пикселей, начиная с минимумов этой функции  
+
Задача похожая на детекцию объектов, но в отличие от нее требуется не окружить найденные объекты рамками, а выделить пиксели, которые этот объект составляют. Сегментация применяется во многих областях, например, в производстве для индикации дефектов при сборке деталей, в медицине для первичной обработки снимков, также для составления карт местности по снимкам со спутников. Самый простой алгоритм сегментации – WaterShed, заключающийся в разделении на куски функции от координат пикселей, начиная с минимумов этой функции. Также для сегментации применяют алгоритм U-Net, представляющий из себя нексколько слоев сверточной сети, которые различаются по размеру.
  
 
==Оценка положения(Pose Estimation)==
 
==Оценка положения(Pose Estimation)==
Задача, в некотором роде продолжающая задачу сегментации. Заключается в выделении некоторого каркаса объекта и предсказании его дальнейшего движения. Чаще всего применяется к обработке.  Положения людей на фотографии. В зависимости от количества рассматриваемых людей различают ''single-person'' и ''multi-person'' [[pose estimatiom |pose estimation]]  . Различие состоит в том, что во втором случае необходимо также учитывать, что объекты могут накладываться. Друг на друга. Для выполнения этой задачи сначала обрезается фон, оставляя только изображения непосредственно объектов, а затем для каждого из объектов с помощью сверточных нейронных сетей выделяются области суставов, которые затем соединяются.
+
Задача, в некотором роде продолжающая задачу сегментации. Заключается в выделении некоторого каркаса объекта (например скелета, если речь идет о людях) и определении положения этого каркаса на изображении. Этот скелет может быть использован в последствии например для предсказания направления движения. В зависимости от количества рассматриваемых объектов различают ''single-person'' и ''multi-person'' pose estimation. Различие состоит в том, что во втором случае необходимо также учитывать, что объекты могут накладываться друг на друга. Для выполнения этой задачи сначала обрезается фон, оставляя только изображения непосредственно объектов, а затем для каждого из объектов с помощью сверточных нейронных сетей выделяются области суставов, которые затем соединяются.
  
 
==Распознавание текста==
 
==Распознавание текста==
Одна из ключевых задач компьютерного зрения. Сначала с помощью алгоритмов детекции выделяется область в которой текст написан, затем производится непосредственно распознавание текста например с помощью алгоритмов сегментации. При этом задачи распознавания текста написанного на листе бумаги, и распознавания текста написанного где-то на изображении (“in the wild”), сильно различаются, в силу наличия в последнем случае помех,  которые мешают выделить конкретные буквы. В этом случае может помочь, например обучение предсказания буквы по остальным буквам в слове.
+
Одна из ключевых задач компьютерного зрения. Сначала с помощью алгоритмов детекции выделяется область в которой текст написан, затем производится непосредственно распознавание текста например с помощью алгоритмов сегментации. При этом задачи распознавания текста написанного на листе бумаги, и распознавания текста написанного где-то на изображении (“in the wild”), например текст на дорожном знаке, номер машины и т. д., сильно различаются, в силу наличия в последнем случае помех,  которые мешают выделить конкретные буквы. В этом случае может помочь, например обучение предсказания буквы по остальным буквам в слове.
  
 
==Генерация объектов==
 
==Генерация объектов==
Задача состоит в том, чтобы по известному набору объектов научится создавать похожие объекты, но при этом не совпадающие ни с одним из тестовых. Например создавать анимационных персонажей в стилистике мультфильма, нарисовав руками только пару из них. Для этого применяют такие архитектуры как [[Generative Adversarial Nets (GAN) | GAN]], при которой сеть делится на две, одна из которых стремится создать объект, а вторая его отбраковать, или [[Вариационный автокодировщик|вариационный автокодировщик]].
+
Задача состоит в том, чтобы по известному набору объектов научится создавать похожие объекты, но при этом не совпадающие ни с одним из тестовых. Например создавать анимационных персонажей в стилистике мультфильма, нарисовав руками только пару из них. Для этого применяют такие архитектуры как [[Generative Adversarial Nets (GAN) | GAN]](англ. '''Generative adversarial network''' - генеративно состязательная сеть), при которой сеть делится на две, одна из которых стремится создать объект, а вторая его отбраковать, или [[Вариационный автокодировщик|вариационный автокодировщик]], обучающийся на плотностях вероятностей исходных данных.
  
 
=Примечания=
 
=Примечания=
 +
=См. Также=
 +
#[[Вариационный автокодировщик | Вариационный автокодировщик]]
 +
#[[Generative Adversarial Nets (GAN) | GAN]]
 +
#[[Сверточные нейронные сети | Сверточные нейронные сети]]
 +
#[[Сегментация изображений | Сегментация изображений]]
 
=Ссылки=
 
=Ссылки=
#[https://nanonets.com/blog/human-pose-estimation-2d-guide/] - задача Pose Estimation
+
#[https://www.fritz.ai/pose-estimation/] - Статья Pose Estimation
 
#[https://habr.com/ru/post/274725/] - Статья на Хабре, краткий обзор задач компьютерного зрения
 
#[https://habr.com/ru/post/274725/] - Статья на Хабре, краткий обзор задач компьютерного зрения
#[http://neerc.ifmo.ru/wiki/index.php?title=%D0%A1%D0%B5%D0%B3%D0%BC%D0%B5%D0%BD%D1%82%D0%B0%D1%86%D0%B8%D1%8F_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B9] - Статья на кики по сегментации изображений
+
 
 +
#[https://towardsdatascience.com/r-cnn-fast-r-cnn-faster-r-cnn-yolo-object-detection-algorithms-36d53571365e] - Про R-CNN, Faster R-CNN и YOLO
 +
#[https://ccis2k.org/iajit/PDF/vol.3,no.2/2-Nassir.pdf] - Про Watershed
 +
#[https://towardsdatascience.com/unet-line-by-line-explanation-9b191c76baf5] - Про U-Net с примерами кода
  
 
[[Категория: Машинное обучение]]
 
[[Категория: Машинное обучение]]
  
 
[[Категория: Компьютерное зрение]]
 
[[Категория: Компьютерное зрение]]

Версия 15:13, 21 марта 2020

Компьютерное зрение — это научное направление в области искусственного интеллекта и связанные с ним технологии получения изображений объектов реального мира, их обработки и использования полученных данных для решения разного рода прикладных задач без участия (полного или частичного) человека.


Задачи компьютерного зрения

Все задачи компьютерного зрения сводятся к анализу изображения, на котором требуется прежде всего выделить фрагмент, содержащий необходимую информацию. Для выделения обычно используют или прямоугольную область, которая ограничивает исходный фрагмент, или просто выделяют пиксели принадлежащие ему

Идентификация

Задача идентификации состоит в том, чтобы классифицировать изображение целиком. Для этого на изображении выделяются ключевые области на изображении и по ним происходит классификация, например с помощью решающих деревьев, или сверточных нейронных сетей

Распознавание объектов

Задача состоит в том, чтобы по изображению суметь выделить на нем некоторый набор объектов. Пока задача не решена в общем случае – алгоритм не может классифицировать случайные объекты на изображении. Однако способен распознавать заранее заученный набор объектов с достаточно высокой точностью.

Самым простым методом детекции объектов является метод скользящего окна методом R-CNN(англ. Regions with Convulational Neural Network - Выделение регионов с помощью свертоных сетей), при котором мы проходимся некоторым окном фиксированного размера по каждому кусочку картинки, и применяем к нему простой классификатор, обученный распознавать заранее определенный набор объектов. Модификации этого метода, такие как Faster R-CNN применяются до сих пор

Сегментация изображения

Задача похожая на детекцию объектов, но в отличие от нее требуется не окружить найденные объекты рамками, а выделить пиксели, которые этот объект составляют. Сегментация применяется во многих областях, например, в производстве для индикации дефектов при сборке деталей, в медицине для первичной обработки снимков, также для составления карт местности по снимкам со спутников. Самый простой алгоритм сегментации – WaterShed, заключающийся в разделении на куски функции от координат пикселей, начиная с минимумов этой функции. Также для сегментации применяют алгоритм U-Net, представляющий из себя нексколько слоев сверточной сети, которые различаются по размеру.

Оценка положения(Pose Estimation)

Задача, в некотором роде продолжающая задачу сегментации. Заключается в выделении некоторого каркаса объекта (например скелета, если речь идет о людях) и определении положения этого каркаса на изображении. Этот скелет может быть использован в последствии например для предсказания направления движения. В зависимости от количества рассматриваемых объектов различают single-person и multi-person pose estimation. Различие состоит в том, что во втором случае необходимо также учитывать, что объекты могут накладываться друг на друга. Для выполнения этой задачи сначала обрезается фон, оставляя только изображения непосредственно объектов, а затем для каждого из объектов с помощью сверточных нейронных сетей выделяются области суставов, которые затем соединяются.

Распознавание текста

Одна из ключевых задач компьютерного зрения. Сначала с помощью алгоритмов детекции выделяется область в которой текст написан, затем производится непосредственно распознавание текста например с помощью алгоритмов сегментации. При этом задачи распознавания текста написанного на листе бумаги, и распознавания текста написанного где-то на изображении (“in the wild”), например текст на дорожном знаке, номер машины и т. д., сильно различаются, в силу наличия в последнем случае помех, которые мешают выделить конкретные буквы. В этом случае может помочь, например обучение предсказания буквы по остальным буквам в слове.

Генерация объектов

Задача состоит в том, чтобы по известному набору объектов научится создавать похожие объекты, но при этом не совпадающие ни с одним из тестовых. Например создавать анимационных персонажей в стилистике мультфильма, нарисовав руками только пару из них. Для этого применяют такие архитектуры как GAN(англ. Generative adversarial network - генеративно состязательная сеть), при которой сеть делится на две, одна из которых стремится создать объект, а вторая его отбраковать, или вариационный автокодировщик, обучающийся на плотностях вероятностей исходных данных.

Примечания

См. Также

  1. Вариационный автокодировщик
  2. GAN
  3. Сверточные нейронные сети
  4. Сегментация изображений

Ссылки

  1. [1] - Статья Pose Estimation
  2. [2] - Статья на Хабре, краткий обзор задач компьютерного зрения
  1. [3] - Про R-CNN, Faster R-CNN и YOLO
  2. [4] - Про Watershed
  3. [5] - Про U-Net с примерами кода