Изменения

Известные наборы данных

2533 байта убрано, 01:37, 12 января 2021

Нет описания правки

[[Файл:ICDAR2017.png|мини|Пример изображения из датасета ICDAR2017 Competition on Multi-lingual Scene Text Detection and Script Identification (MLT) [https://arxiv.org/pdf/1812.05219.pdf источник]]]

===Описание===

ICDAR<ref>https://rrc.cvc.uab.es/</ref> (англ. International Conference on Document Analysis and Recognition) {{---}} это международная конференция по анализу и распознаванию текста и одноименное семейство набора данных, состоящее из фотографий, на которых изображен текст на разных языках. Данные наборы создаются для соревнований ICDAR, где требуется решить следующие задачи: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание.Ниже приведен анализ наборов данных ICDAR2013, ICDAR2015, ICDAR2017, ICDAR2019.

===ICDAR 2013===

ICDAR 2013 {{---}} набор данных включает изображения, извлеченные с веб-страниц и сообщений электронной почты. В датасете содержится репрезентативная выборка веб-страниц различных категорий (новости, личные, коммерческие, социальные, правительственные и т.д.), а также электронные письма разного типа (спам, информационные бюллетени и т.д.) на трех языках {{---}} Английский, Испанский, Французский, в пропорциях, которые отражают их использование в реальном мире. Размер набора данных составляет 561 изображение с минимальным размером 100x100 пикселей. Коллекция была разделена на обучающий набор из 420 изображений и тестовый набор из 141 изображения. Для задачи распознавания слов учитывались только слова длиной от 3 символов. Набор данных содержит 5003 таких слова, из которых 3564 составляют обучающий набор, а 1439 {{---}} тестовый.

~~===Структура данных <ref>https://www.cityscapes-dataset.com/dataset-overview/#features</ref>==~~{|align="center"Всего в наборе данных находится 25 000 изображений, из них 5000 составляют набор с более детальными аннотациями изображений с разрешением 1024 * 2048, предварительно разделенных на наборы для обучения {{---}} 2975, проверки {{---}} 500 и тестирования {{-- |-}} 1525. Оставшиеся 20 000 изображений имеют грубые аннотации, позволяющие применять методы, использующие большие объемы данных со слабой маркировкой. ~~===Результаты==~~valign="top" ~~Основной метрикой для этого набора данных является~~ |[[~~Оценка качества в задаче кластеризации#Индекс Жаккара (англ~~Файл:ICDAR2013Sample. ~~Jaccard Index)~~png |600px|индекс Жаккара]]. Также, хорошо известно, что глобальная мера [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)thumb|~~индекс Жаккара~~Сэмпл из датасета ICDAR2013]] смещена в сторону экземпляров объектов, которые покрывают большую область изображения. В уличных сценах с их сильным изменением масштаба это может быть проблематично.Чтобы решить эту проблему, создатели датасета дополнительно оценивают семантическую маркировку, используя метрику пересечения по объединению на уровне экземпляра {{---}}<math>~~iIoU = \dfrac{iTP~~ |}~~{iTP + FP + iFN}~~</math>, где <math>iTP</math>, <math>FP</math> и <math>iFN</math> обозначают количество истинно положительных, ложноположительных и ложно отрицательных пикселей соответственно. Сейчас лучшей нейронной сетью для этого набора данных в задаче семантической сегментации данных является [https://www.cityscapes-dataset.com/benchmarks/#scene-labeling-task DAHUA-ARI], которая позволяет достичь индекс Жаккара 85.8% и iIoU 70.6% для классов, индекс Жаккара 93.2% и iIoU 85.4% для категорий, соответственно.

==См.также==

Dbolotov

61

правка

Изменения

Известные наборы данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты