Изменения

Задача нахождения объектов на изображении

214 байт добавлено, 10:26, 7 апреля 2020

→‎Семантическая сегментация

==Семантическая сегментация==

[[Файл:~~U-Net~~SegmentationExample.png|300px|thumb|right|~~Архитектура слоёв свёртки U-Net~~Пример семантической сегментации изображения]]

Для семантической сегментации чаще всего применяются глубокие свёрточные нейронные сети, в том числе, когда данные [https://arxiv.org/abs/1502.02734 слабо размечены]. Действительно, проблема низкого уровня размеченности данных в семантической сегментации довольно важна, поскольку для каждого пикселя определить его принадлежность с высокой точностью {{---}} задача, требующая высоких затрат времени и и не всегда высокую точность. Однако, сочетание хорошо размеченных данных со слабо размеченными данными (например, с точностью до bounding box-ов) улучшает производительность модели. В 2016 году для задачи сегментации [https://arxiv.org/abs/1605.06211 хорошо себя показали] FCN (fully-convolutional networks) {{---}} полносвёрточные сети, позволяющие работать с изображениями произвольного размера, а на выходе выдавать тепловую карту нахождения классов на изображении через серию свёрток. Модель [https://arxiv.org/abs/1505.04597 U-Net], разработанная авторами для сегментации биомедицинских изображений, улучшает архитектуру FCN путём использования сужающихся блоков свёртки для захвата контекста, расширяющихся блоков свёртки для локализации, а также прямых связей между блоками свёртки на одинаковых уровнях. Развитием U-Net, в свою очередь модель [https://arxiv.org/abs/1611.09326 ~~"Сто слоёв тирамису"~~DenseNet], в которой используются полностью связанные свёрточные сети. В основе идеи лежит использование "плотных блоков" {---} совокупности нескольких свёрточных слоёв с подключением каждого слоя к каждому слою. Однако, существенным недостатком такой модели является низкая эффективность работы с памятью.

Совершенно по-иному на свёртку для сегментации объектов позволил взглянуть метод расширенных свёрток (англ. atrous convolutions), применяющийся в современных state-of-the-art подходах ([https://arxiv.org/abs/1606.00915 DeepLab], [https://arxiv.org/abs/1706.05587 DeepLab v3], [~~Файл~~https:~~AtrousConvolution~~//paperswithcode.com/paper/encoder-decoder-with-atrous-separable DeepLab v3+]).~~png|300px|thumb|right|~~Расширенная свёртка заключается в том, чтобы применять свёртки с ядрами разного размера и разным страйдом над прямоугольниками с одним и тем же центром, а впоследствии комбинировать полученные таким образом признаки. Расширенные свёртки могут применяться как каскадно (~~atrous convolution~~последовательно регулируя показатель расширения фильтра) , так и ~~пространственный пирамидальный пулинг~~ параллельно (англ. ASPP, Atrous Spatial Pyramid Pooling {---} применяя свёртки с различным масштабом ядер на одном и том же слое свёрточной сети с пулингом в конце)]]. Такой подход позволил достичь лучших результатов в изображениях с объектами разных масштабов.

~~Совершенно по~~{|align="center" |-иному на свёртку для сегментации объектов позволил взглянуть метод расширенных свёрток (англ. atrous convolutions), применяющийся в современных state-of-the-art подходах (valign="top" |[[~~https~~Файл:~~//arxiv~~U-Net.~~org/abs/1606.00915 DeepLab~~png|300px|thumb|Архитектура слоёв свёртки U-Net]], |[~~https://arxiv.org/abs/1706.05587 DeepLab v3],~~ [~~https~~Файл:~~//paperswithcode.com/paper/encoder-decoder-with-atrous-separable DeepLab v3+])~~AtrousConvolution. png|300px|thumb|Расширенная свёртка заключается в том, чтобы применять свёртки с ядрами разного размера и разным страйдом над прямоугольниками с одним и тем же центром, а впоследствии комбинировать полученные таким образом признаки. Расширенные свёртки могут применяться как каскадно (~~последовательно регулируя показатель расширения фильтра~~atrous convolution)~~, так~~ и ~~параллельно~~ пространственный пирамидальный пулинг (~~англ~~ASPP)]] |[[Файл:Tiramisu. ~~ASPP, Atrous Spatial Pyramid Pooling~~ png|300px|thumb|Архитектура DenseNet]] ~~{---~~|} применяя свёртки с различным масштабом ядер на одном и том же слое свёрточной сети с пулингом в конце). Такой подход позволил достичь лучших результатов в изображениях с объектами разных масштабов.

==R-CNN==

Agentdolphin

107

правок

Изменения

Задача нахождения объектов на изображении

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты