Изменения

Перейти к: навигация, поиск

Известные наборы данных

2533 байта убрано, 01:37, 12 января 2021
Нет описания правки
[[Файл:ICDAR2017.png|мини|Пример изображения из датасета ICDAR2017 Competition on Multi-lingual Scene Text Detection and Script Identification (MLT) [https://arxiv.org/pdf/1812.05219.pdf источник]]]
===Описание===
ICDAR<ref>https://rrc.cvc.uab.es/</ref> (англ. International Conference on Document Analysis and Recognition) {{---}} это международная конференция по анализу и распознаванию текста и одноименное семейство набора данных, состоящее из фотографий, на которых изображен текст на разных языках. Данные наборы создаются для соревнований ICDAR, где требуется решить следующие задачи: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание.Ниже приведен анализ наборов данных ICDAR2013, ICDAR2015, ICDAR2017, ICDAR2019.
===ICDAR 2013===
ICDAR 2013 {{---}} набор данных включает изображения, извлеченные с веб-страниц и сообщений электронной почты. В датасете содержится репрезентативная выборка веб-страниц различных категорий (новости, личные, коммерческие, социальные, правительственные и т.д.), а также электронные письма разного типа (спам, информационные бюллетени и т.д.) на трех языках {{---}} Английский, Испанский, Французский, в пропорциях, которые отражают их использование в реальном мире. Размер набора данных составляет 561 изображение с минимальным размером 100x100 пикселей. Коллекция была разделена на обучающий набор из 420 изображений и тестовый набор из 141 изображения. Для задачи распознавания слов учитывались только слова длиной от 3 символов. Набор данных содержит 5003 таких слова, из которых 3564 составляют обучающий набор, а 1439 {{---}} тестовый.
 ===Структура данных <ref>https://www.cityscapes-dataset.com/dataset-overview/#features</ref>=={|align="center"Всего в наборе данных находится 25 000 изображений, из них 5000 составляют набор с более детальными аннотациями изображений с разрешением 1024 * 2048, предварительно разделенных на наборы для обучения {{---}} 2975, проверки {{---}} 500 и тестирования {{-- |-}} 1525. Оставшиеся 20 000 изображений имеют грубые аннотации, позволяющие применять методы, использующие большие объемы данных со слабой маркировкой. ===Результаты==valign="top"  Основной метрикой для этого набора данных является |[[Оценка качества в задаче кластеризации#Индекс Жаккара (англФайл:ICDAR2013Sample. Jaccard Index)png |600px|индекс Жаккара]]. Также, хорошо известно, что глобальная мера [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)thumb|индекс ЖаккараСэмпл из датасета ICDAR2013]] смещена в сторону экземпляров объектов, которые покрывают большую область изображения. В уличных сценах с их сильным изменением масштаба это может быть проблематично.Чтобы решить эту проблему, создатели датасета дополнительно оценивают семантическую маркировку, используя метрику пересечения по объединению на уровне экземпляра {{---}}<math>iIoU = \dfrac{iTP |}{iTP + FP + iFN}</math>, где <math>iTP</math>, <math>FP</math> и <math>iFN</math> обозначают количество истинно положительных, ложноположительных и ложно отрицательных пикселей соответственно. Сейчас лучшей нейронной сетью для этого набора данных в задаче семантической сегментации данных является [https://www.cityscapes-dataset.com/benchmarks/#scene-labeling-task DAHUA-ARI], которая позволяет достичь индекс Жаккара 85.8% и iIoU 70.6% для классов, индекс Жаккара 93.2% и iIoU 85.4% для категорий, соответственно.
==См.также==
61
правка

Навигация