Изменения

Известные наборы данных

3128 байт добавлено, 21:26, 24 января 2021

→‎ICDAR

[[Файл:CelebA.jpg|мини|Рисунок 19. Пример изображений из CelebA [http://mmlab.ie.cuhk.edu.hk/projects/CelebA/overview.png Оригинал]]]

===Описание===

CelebA (англ. CelebFaces Attributes Dataset) {{---}} это крупномасштабный набор данных атрибутов лиц, содержащий более 200 тысяч изображений знаменитостей (см. рис. 19). Изображения в этом наборе данных охватывают ~~большие вариации поз и беспорядок на фоне~~лица людей с разных ракурсов. Изображения в CelebA ~~имеет~~ имеют большое разнообразие, большое количество и богатые аннотации: 10 177 уникальных личностей, 202 599 изображений лиц и 5 ориентиров, 40 бинарных аннотаций атрибутов на изображение. Эти данные были первоначально собраны исследователями из MMLAB<ref>http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html[http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html]</ref>, Китайского университета Гонконга.

Набор данных можно использовать в качестве обучающих и тестовых наборов для следующих задач [[Компьютерное зрение|компьютерного зрения]]: распознавание атрибутов лица, обнаружение лиц и локализация ориентиров (или части лица).

===Пример атрибутов===

Ниже приведен ~~пример некоторых~~ список бинарных атрибутов в CelebA, где отдельный атрибут {{---}} одна из характеристик лица~~. Оригинал примера доступен [https://towardsdatascience.com/celeba-attribute-prediction-and-clustering-with-keras-3d148063098d здесь]~~.

Более подробно со всеми атрибутами можно ознакомиться [https://www.tensorflow.org/datasets/catalog/celeb_a здесь]

{[[Файл:CelebaAttributes.png| ~~class="wikitable"~~600px|-~~! Идентификатор изображения! Короткая щетина! Круги под глазами! Лысый! Челка! Большие губы! Большой нос! Темные волосы~~thumb|-centre| ~~146596~~[https://towardsdatascience.~~jpg| 0| 0| 0| 0| 0| 0| 0~~|com/celeba-attribute-prediction-and-clustering-with-~~| 027415.jpg| 0| 0| 0| 0| 1| 0| 1~~|keras-~~| 031426.jpg| 0| 0| 0~~ ~~| 1| 1| 1| 1~~|}3d148063098d Источник]]]

==CityScapes==

===Результаты===

Основной метрикой для этого набора данных является [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]]. Также, хорошо известно, что глобальная мера [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|~~индекс~~ индекса Жаккара]] смещена в сторону экземпляров объектов, которые покрывают большую область изображения. В уличных сценах с их сильным изменением масштаба это может быть проблематично.Чтобы решить эту проблему, создатели датасета дополнительно оценивают семантическую маркировку, используя метрику пересечения по объединению на уровне экземпляра ~~{{---}}~~<math>

iIoU = \dfrac{iTP}{iTP + FP + iFN}

</math>, где <math>iTP</math>, <math>FP</math> и <math>iFN</math> обозначают количество истинно положительных, ложноположительных и ложно отрицательных пикселей соответственно. Сейчас лучшей нейронной сетью для этого набора данных в задаче семантической сегментации данных является [https://www.cityscapes-dataset.com/benchmarks/#scene-labeling-task DAHUA-ARI], которая позволяет достичь индекс Жаккара 85.8% и iIoU 70.6% для классов, индекс Жаккара 93.2% и iIoU 85.4% для категорий, соответственно.

==ICDAR==

===ICDAR 2013===

'''ICDAR 2013 "Born Digital Images"''' {{---}} датасет, который содержит изображения, извлеченные с веб-страниц и сообщений электронной почты. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов.

'''ICDAR 2013 "Focused Scene Text"''' {{---}} датасет c изображениями с текстом на вывесках, логотипах и так далее. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов.

{| class="wikitable"

|-

! Наименование датасета

~~! Тип текста~~

! Количество объектов

! Количество обучающих объектов

! Количество обучающих слов

! Количество тестовых слов

~~! Язык текста на изображениях~~

~~! Задачи~~

|-

| ICDAR 2013 "Born Digital Images"

~~| изображения, извлеченные с веб-страниц и сообщений электронной почты~~

| 561

| 420

| 3564

| 1439

~~| Английский~~

~~| обнаружение текста, сегментация текста, распознавание символов~~

|-

| ICDAR 2013 "Focused Scene Text"

~~| изображения с текстом на вывесках, логотипах и т.д.~~

| 462

| 229

| 848

| 1095

~~| Английский~~

~~| обнаружение текста, сегментация текста, распознавание символов~~

|}

{|align="center"

|-valign="top"

|[[Файл:ICDARBDI.png |600px|thumb|ICDAR "Born Digital Images". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]

|}

{|align="center"

|-valign="top"

|[[Файл:ICDARFST.png |600px|thumb|ICDAR "Focused Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]

|}

===ICDAR 2015===

'''ICDAR 2015 "Born Digital Images"''' {{---}} датасет, который содержит изображения, извлеченные с веб-страниц и сообщений электронной почты. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание .

'''ICDAR 2013 "Focused Scene Text"''' {{---}} датасет c изображениями с текстом на вывесках, логотипах и так далее. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов , сквозное распознавание.

'''ICDAR 2015 "Incidental Scene Text"''' {{---}} датасет c изображениями, на которых текст попал в поле зрения камеры Google Glass случайно<ref>https://rrc.cvc.uab.es/?ch=4</ref>. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов , сквозное распознавание.

{| class="wikitable"

|-

! Наименование датасета

~~! Тип текста~~

! Количество объектов

! Количество обучающих объектов

! Количество обучающих слов

! Количество тестовых слов

~~! Язык текста на изображениях~~

~~! Задачи~~

|-

| ICDAR 2015 "Born Digital Images"

~~| изображения, извлеченные с веб-страниц и сообщений электронной почты~~

| 561

| 420

| 3564

| 1439

~~| Английский~~

~~| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание~~

|-

| ICDAR 2015 "Focused Scene Text"

~~| изображения с текстом на вывесках, логотипах и т.д.~~

| 462

| 229

| 848

| 1095

~~| Английский~~

~~| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание~~

|-

| ICDAR 2015 "Incidental Scene Text"

~~| изображения, на которых текст попал в поле зрения камеры Google Glass случайно<ref>https://rrc.cvc.uab.es/?ch=4</ref>~~

| 1670 (1500 публичных)

| 1000

| -

~~| Английский~~

~~| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание~~

|}

{|align="center"

|-valign="top"

|[[Файл:ICDARIST.png |600px|thumb|ICDAR "Incidental Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]

|}

===ICDAR 2017===

'''ICDAR 2017 "COCO-Text"''' {{---}} набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст. Текст на изображениях на английском, немецком, французском и других языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, распознавание символов , сквозное распознавание.

'''ICDAR 2017 "Multi-lingual Scene Text"''' {{---}} набор данных, где собраны изображения с текстом на 9 языках. Текст на изображениях на арабском, английском, немецком, бенгальском, китайском, японском, французском, корейском языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста.

'''ICDAR 2017 "French Street Name Signs"''' {{---}} набор данных с изображениями, на которых есть названия французских улиц. Текст на изображениях на французском языке. Датасет предназначен для следующих задач оптического распознавани символов: сквозное распознавание.

{| class="wikitable"

|-

! Наименование датасета

~~! Тип текста~~

! Количество объектов

! Количество обучающих объектов

! Количество обучающих слов

! Количество тестовых слов

~~! Язык текста на изображениях~~

~~! Задачи~~

|-

| ICDAR 2017 "COCO-Text"

| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст

| 63686

| 43686

| -

~~| Французский~~

~~| сквозное распознавание~~

|-

| ICDAR 2017 "Multi-lingual Scene Text"

~~| изображения с текстом на 9 различных языках~~

| 18 000

| -

~~| Английский, Арабский, Бенгальский, Китайский, Французский, Немецкий, Японский, Корейский~~

~~| обнаружение текста, сегментация текста~~

|-

| ICDAR 2017 "French Street Name Signs"

~~| изображения, на которых есть названия француззских улиц~~

| 1 081 422, где каждое изображение содержит до 4 объектов с названией улицы

| -

~~| Английский~~

~~| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание~~

|}

{|align="center"

|-valign="top"

|[[Файл:ICDARCOCO.png |600px|thumb|ICDAR "COCO-Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]

|}

{|align="center"

|-valign="top"

|[[Файл:ICDARMSTD.png |600px|thumb|ICDAR "Multi-lingual Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]

|}

{|align="center"

|-valign="top"

|[[Файл:ICDARFS.png |600px|thumb|ICDAR "French Street Name Signs". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]

|}

===ICDAR 2019===

'''ICDAR 2019 "COCO-Text"''' {{---}} набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст. Текст на изображениях на английском, немецком, французском и других языках. Датасет предназначен для следующих задач оптического распознавани символов: сквозное распознавание.

'''ICDAR 2019 "Multi-lingual Scene Text"''' {{---}} набор данных, где собраны изображения с текстом на 10 языках. Текст на изображениях на арабском, английском, деванагари, немецком, бенгальском, китайском, японском, французском, корейском языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, идентификация скрипта, сквозное распознавание.

'''ICDAR 2019 "Scene Text Visual Question Answering"''' {{---}} набор данных, включающий 23 038 изображений с 31 791 парой вопросов и ответов, где ответ всегда основан на присутствующих текстовых экземплярах на изображении. Текст на изображениях на янглийском языке. Датасет предназначен для следующих задач оптического распознавани символов: ответ на вопрос, связанный с изображением.

{| class="wikitable"

|-

! Наименование датасета

~~! Тип текста~~

! Количество объектов

! Количество обучающих объектов

! Количество обучающих слов

! Количество тестовых слов

~~! Язык текста на изображениях~~

~~! Задачи~~

|-

| ICDAR 2019 "COCO-Text"

| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст

| 63686

| 43686

| -

~~| Французский~~

~~| сквозное распознавание~~

|-

| ICDAR 2019 "Multi-lingual Scene Text"<ref>https://arxiv.org/pdf/1907.00945.pdf</ref>

~~| изображения с текстом на 10 различных языках~~

| 20 000 (2 000 для каждого языка) + 277 000 сгенерированных изображения

| 10 000

| -

~~| Английский, Арабский, Бенгальский, Деванагари, Китайский, Французский, Немецкий, Японский, Корейский~~

~~| обнаружение текста, идентификация скрипта, сквозное распознавание~~

|-

| ICDAR 2019 "Scene Text Visual Question Answering"

| ~~набор данных, включающий~~23 038 ~~изображений с 31 791 парой вопросов и ответов,где ответ всегда основан на присутствующих текстовых экземплярахна изображении.~~

| -

~~| Английский~~

~~| ответ на вопрос, связанный с изображением~~

|}

~~{|align="center"~~

~~|-valign="top"~~

~~|[[Файл:ICDARSamples.png |600px|thumb|Рисунок 22. Сэмплы из датасетов ICDAR 2011, ICDAR 2015, ICDAR 2017]]~~

|}

{|align="center"

|-valign="top"

|[[Файл:ICDAR2019Sample.png |600px|thumb|~~Рисунок 23. Сэмпл из датасета~~ ICDAR 2019 "Scene Text Visual Question Answering"]]

|}

==Pointing'04==

Dbolotov

61

правка

Изменения

Известные наборы данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты