Редактирование: Компьютерное зрение

Перейти к: навигация, поиск

Внимание! Вы не авторизовались на сайте. Ваш IP-адрес будет публично видимым, если вы будете вносить любые правки. Если вы войдёте или создадите учётную запись, правки вместо этого будут связаны с вашим именем пользователя, а также у вас появятся другие преимущества.

Правка может быть отменена. Пожалуйста, просмотрите сравнение версий, чтобы убедиться, что это именно те изменения, которые вас интересуют, и нажмите «Записать страницу», чтобы изменения вступили в силу.
Текущая версия Ваш текст
Строка 12: Строка 12:
 
[[Файл:Object_detection.jpeg|600px|thumb|centre|Источник: [https://habr.com/ru/post/463991/]]]
 
[[Файл:Object_detection.jpeg|600px|thumb|centre|Источник: [https://habr.com/ru/post/463991/]]]
  
Самым простым методом детекции объектов является метод скользящего окна методом R-CNN(англ. ''Regions with Convulational Neural Network'' - Выделение регионов с помощью свертоных сетей), при котором мы проходимся некоторым окном фиксированного размера по каждому кусочку картинки, и применяем к нему простой классификатор, обученный распознавать заранее определенный набор объектов. Модификации этого метода, такие как Faster R-CNN применяются до сих пор
+
Самым простым методом детекции объектов является метод скользящего окна методом R-CNN(англ. ''Regions with Convulational Neural Network'' - Выделение регионов с помощью свертоных сетей), при котором мы проходимся некоторым окном фиксированного размера по каждому кусочку картинки, и применяем к нему простой классификатор, обученный распознавать заранее определенный набор объектов. Модификации этого метода, такие как [[Faster R-CNN | Faster R-CNN]] применяются до сих пор
  
==Сегментация изображений==
+
==[[Сегментация изображений | Сегментация изображения]]==
{{main|Сегментация изображений}}
+
Задача похожая на детекцию объектов, но в отличие от нее требуется не окружить найденные объекты рамками, а выделить пиксели, которые этот объект составляют. Сегментация применяется во многих областях, например, в производстве для индикации дефектов при сборке деталей, в медицине для первичной обработки снимков, также для составления карт местности по снимкам со спутников. Самый простой алгоритм сегментации – WaterShed, заключающийся в разделении на куски функции от координат пикселей, начиная с минимумов этой функции. Также для сегментации применяют алгоритм U-Net, представляющий из себя нексколько слоев сверточной сети, которые различаются по размеру.  
Задача похожая на детекцию объектов, но в отличие от нее требуется не окружить найденные объекты рамками, а выделить пиксели, которые этот объект составляют. Сегментация применяется во многих областях, например, в производстве для индикации дефектов при сборке деталей, в медицине для первичной обработки снимков, также для составления карт местности по снимкам со спутников. Одним из типичных способов сегментации является применение модели U-Net, представляющую из себя нексколько слоев сверточной сети, которые различаются по размеру, и в совокопности имеют U-образную форму, что и отражено в названии.  
 
  
[[Файл:Segmentation.png|600px|thumb|centre|Типичные примеры изображений, обработанных алгоритмами сегментации]]
+
[[Файл:WaterShed.jpg|600px|thumb|centre|Результат сегментации изображдения алгоритмом WaterShed. Источник: Статья на хабре[https://habr.com/ru/company/intel/blog/266347/]]]
  
  
==Оценка положения==
+
==Оценка положения(Pose Estimation)==
Задача оценки положения объекта(англ. Pose Estimation), в некотором роде продолжающая задачу сегментации. Заключается в выделении некоторого каркаса объекта (например скелета, если речь идет о людях) и определении положения этого каркаса на изображении. Этот скелет может быть использован в последствии например для предсказания направления движения. В зависимости от количества рассматриваемых объектов различают одиночную оценку положения(англ. Single-person pose estimation) и множественную(англ. Multi-person pose estimation). Различие состоит в том, что во втором случае необходимо также учитывать, что объекты могут накладываться друг на друга. Для выполнения этой задачи сначала обрезается фон, оставляя только изображения непосредственно объектов, а затем для каждого из объектов с помощью сверточных нейронных сетей выделяются области суставов, которые затем соединяются.
+
Задача, в некотором роде продолжающая задачу сегментации. Заключается в выделении некоторого каркаса объекта (например скелета, если речь идет о людях) и определении положения этого каркаса на изображении. Этот скелет может быть использован в последствии например для предсказания направления движения. В зависимости от количества рассматриваемых объектов различают ''single-person'' и ''multi-person'' pose estimation. Различие состоит в том, что во втором случае необходимо также учитывать, что объекты могут накладываться друг на друга. Для выполнения этой задачи сначала обрезается фон, оставляя только изображения непосредственно объектов, а затем для каждого из объектов с помощью сверточных нейронных сетей выделяются области суставов, которые затем соединяются.
 
[[Файл: pose_Estimation.png|600px|thumb|centre|Пример применения алгоритмов pose_estimation к изображению. Источник: [https://nanonets.com/blog/human-pose-estimation-2d-guide/]]]
 
[[Файл: pose_Estimation.png|600px|thumb|centre|Пример применения алгоритмов pose_estimation к изображению. Источник: [https://nanonets.com/blog/human-pose-estimation-2d-guide/]]]
  
Строка 30: Строка 29:
  
 
==Генерация объектов==
 
==Генерация объектов==
Задача состоит в том, чтобы по известному набору объектов научится создавать похожие объекты, но при этом не совпадающие ни с одним из тестовых. Например создавать анимационных персонажей в стилистике мультфильма, нарисовав руками только пару из них. Для этого применяют такие архитектуры как [[Generative Adversarial Nets (GAN)|генеративно состязательные сети]](англ. ''Generative adversarial network''), при которой сеть делится на две, одна из которых стремится создать объект, а вторая его отбраковать, или [[Вариационный автокодировщик|вариационный автокодировщик]], обучающийся на плотностях вероятностей исходных данных  
+
Задача состоит в том, чтобы по известному набору объектов научится создавать похожие объекты, но при этом не совпадающие ни с одним из тестовых. Например создавать анимационных персонажей в стилистике мультфильма, нарисовав руками только пару из них. Для этого применяют такие архитектуры как [[Generative Adversarial Nets (GAN) | GAN]](англ. ''Generative adversarial network'' - генеративно состязательная сеть), при которой сеть делится на две, одна из которых стремится создать объект, а вторая его отбраковать, или [[Вариационный автокодировщик|вариационный автокодировщик]], обучающийся на плотностях вероятностей исходных данных  
 
с целью создать объект похожий на исходный, но не совпадающий с ним.
 
с целью создать объект похожий на исходный, но не совпадающий с ним.
[[Файл:GAN1.jpeg|600px|thumb|centre|Пример генерации изображения методом GAN. Источник: [https://medium.com/@jonathan_hui/gan-some-cool-applications-of-gans-4c9ecca35900]]]
+
[[Файл:GAN.jpeg|600px|thumb|centre|Пример генерации изображения методом GAN. Источник: [https://medium.com/@jonathan_hui/gan-some-cool-applications-of-gans-4c9ecca35900]]]
 
 
==Анализ видео==
 
Так как видео представляет из себя набор изображений, одинакового размера, обычно сделанных через разные интервалы времени, то для него применимы все те задачи, которые были описаны ранее. Также появляются такие задачи как предсказание движения, заключающееся в том, чтобы по набору кадров предсказать положение объекта в следующих кадрах, или более общая задача ситуационный осведомленности(англ. Situation Awarness), заключающаяся в том, чтобы для каждого объекта в видео уметь определить его положение и статус на всех кадрах видео
 
  
 
=Примечания=
 
=Примечания=
#https://www.fritz.ai/pose-estimation/
 
#https://habr.com/ru/post/274725/
 
#https://towardsdatascience.com/r-cnn-fast-r-cnn-faster-r-cnn-yolo-object-detection-algorithms-36d53571365e
 
#https://ccis2k.org/iajit/PDF/vol.3,no.2/2-Nassir.pdf
 
#https://towardsdatascience.com/unet-line-by-line-explanation-9b191c76baf5
 
#https://towardsdatascience.com/a-gentle-introduction-to-ocr-ee1469a201aa
 
#https://nanonets.com/blog/human-pose-estimation-2d-guide/
 
#https://medium.com/@jonathan_hui/gan-some-cool-applications-of-gans-4c9ecca35900]
 
#https://ru.coursera.org/lecture/deep-learning-in-computer-vision/introduction-to-video-analysis-alApg
 
 
=См. Также=
 
=См. Также=
 
#[[Вариационный автокодировщик | Вариационный автокодировщик]]
 
#[[Вариационный автокодировщик | Вариационный автокодировщик]]

Пожалуйста, учтите, что любой ваш вклад в проект «Викиконспекты» может быть отредактирован или удалён другими участниками. Если вы не хотите, чтобы кто-либо изменял ваши тексты, не помещайте их сюда.
Вы также подтверждаете, что являетесь автором вносимых дополнений, или скопировали их из источника, допускающего свободное распространение и изменение своего содержимого (см. Викиконспекты:Авторские права). НЕ РАЗМЕЩАЙТЕ БЕЗ РАЗРЕШЕНИЯ ОХРАНЯЕМЫЕ АВТОРСКИМ ПРАВОМ МАТЕРИАЛЫ!

Чтобы изменить эту страницу, пожалуйста, ответьте на приведённый ниже вопрос (подробнее):

Отменить | Справка по редактированию (в новом окне)

Шаблоны, используемые на этой странице: