Изменения

← Предыдущая правка

Известные наборы данных

8866 байт добавлено, 19:27, 4 сентября 2022

м

rollbackEdits.php mass rollback

from sklearn.datasets import load_iris

from sklearn.ensemble import RandomForestClassifier

from sklearn import metrics

iris=load_iris()

X = iris.data

Y = iris.target

~~X, Y = shuffle(X, Y)~~

n = len(iris.data)

train = n // 2

2 0.88 0.96 0.92 23

avg / total 0.95 0.95 0.95 75

==MNIST==

===Описание===

[[Файл:MnistExamples.png|мини|Рисунок 1. Примеры изображений из датасета MNIST [https://en.wikipedia.org/wiki/MNIST_database#/media/File:MnistExamples.png Оригинал]]]

Набор данных MNIST {{---}} большой (порядка 60 000 тренировочных и 10 000 проверочных объектов, помеченных на принадлежность одному из десяти классов {{---}} какая цифра изображена на картинке) набор картинок с рукописными цифрами, часто используемый для тестирования различных алгоритмов распознавания образов. Он содержит черно-белые картинки размера 28x28 пикселей, исходно взятые из набора образцов из бюро переписи населения США, к которым были добавлены тестовые образцы, написанные студентами американских университетов. На рисунке 1 представлены примеры рукописных цифр из данного датасета.

===Результаты===

===Код===

Простой пример, скачивающий набор данных и запускающий на нем один из классификаторов. Даже с уменьшением набора данных в сто раз и не самым подходящим классификатором точность выше половины угаданных цифр {{---}} заметно лучше, чем случайная разметка. С результатом работы данного кода можно ознакомиться на рисунке 2.

from sklearn.datasets import ~~fetch_mldata~~fetch_openml

from numpy import arange

import random

from sklearn import datasets, svm, metrics

[[Файл:Mnist-predict.png|мини|Рисунок 2. Результат работы классификатора]]

mnist = ~~fetch_mldata~~fetch_openml('~~MNIST original~~MNIST_784')

indices = arange(len(mnist.data))

randidx = random.sample(list(indices), 500)

expected = Y[train:]

predicted = clf.predict(X[train:])

print("Classification report for classifier %s:\n%s\n" % (clf, metrics.classification_report(expected, predicted)))

digit precision recall f1-score support

===Описание===

[[Файл:Cifar-10.png|мини|Рисунок 3. Примеры изображений из датасета CIFAR-10 [https://medium.com/@jannik.zuern/training-a-cifar-10-classifier-in-the-cloud-using-tensorflow-and-google-colab-f3a5fbdfe24d Источник]]]CIFAR-10 (Canadian Institute For Advanced Research) {{---}} еще один большой набор изображений, который обычно используется для тестирования алгоритмов машинного обучения. Он содержит 60 000 цветных картинок размером 32х32 пикселя, размеченных в один из десяти классов: самолеты, автомобили, коты, олени, собаки, лягушки, лошади, корабли и грузовики. В наборе данных по 6000 картинок каждого класса, примеры некоторых из них приведены на рисунке 3. CIFAR-10 является размеченным подмножеством заметно большего набора данных, состоящего примерно из восьмидесяти миллионов изображений.

===Результаты===

===Описание===

[[Файл:Imagenet.png|мини|Рисунок 4. Пример разметки объектов в датасете ImageNet [http://www.image-net.org/challenges/LSVRC/2014/ Источник]]]

База данных Imagenet {{---}} проект по созданию и сопровождению массивной базы данных аннотированных изображений. Аннотация изображений происходит путем краудсорсинга сообществом. Из-за этого достигается большое количество размеченных данных.

Особенность данного набора данных {{---}} про каждую картинку известно несколько фактов вида "в этом прямоугольнике есть автомобиль"(см. рис. 4), что в совокупности с индексом по типам объектов, которые есть на изображениях, позволяет обучить алгоритм для распознавания объектов какой-то конкретной категории. На август 2017 года в ImageNet 14 197 122 изображения, разбитых на 21 841 категорию.

===Imagenet Challenge===

[[Файл:Imagenet-contest.png|мини|Рисунок 5. Лучшие результаты на Imagenet Challenge за различные годы [https://en.wikipedia.org/wiki/File:ImageNet_error_rate_history_(just_systems).svg Оригинал]]]

Вместе с публикацией набора данных стартовал конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC<ref>http://www.image-net.org/challenges/LSVRC/[http://www.image-net.org/challenges/LSVRC/]</ref>). В его рамках участникам предлагается достигнуть наибольшей точности при классификации набора изображений. Организаторы использовали около тысячи различных категорий объектов, которые нужно классифицировать. На примере этого конкурса хорошо видно, как в 2010-е годы люди научились заметно лучше распознавать образы на изображениях, уже в 2017 году большинство участвующих команд преодолели порог в 95% правильных ответов. История улучшения результатов представлена на рисунке 5. Эта задача, проблема компьютерного зрения, имеет огромное практическое значение во многих прикладных областях.

==ADE20K==

===Описание===

[[Файл:ADE20K_merged.png|мини|300px|Рисунок 6. Изображение из ADE20K и его разбиение на части.]]ADE20K {{---}} набор изображений с размеченными сущностями, который хорошо подходит для задачи [[Сегментация изображений|семантической сегментации данных]] в компьютерном зрении, пример разметки приведен на рисунке 6. Особенность этого набора состоит в том, что кроме объектов приводится также информация об их составных частях: например, если на изображении находится человек, то в дополнение к местоположению его фигуры будет также приведено положение его глаз и носа.

Подобные наборы данных часто страдают от несогласованности меток при их разметке сообществом. Для ADE20K эта проблема была решена {{---}} все изображения размечал только один человек, что обусловило высокую согласованность меток.

===Описание===

[[Файл:Coco-examples.jpg|мини|400px| Рисунок 7. Пример изображений из MS Coco [http://cocodataset.org/images/coco-examples.jpg Оригинал]]]

MS COCO (англ. ''Common Objects in Context'') {{---}} большой набор изображений. Состоит из более чем 330000 изображений (220000 {{---}} размеченных), с более чем 1.5 милионов объектов на них. Примеры изображений приведены на рисунке 7. Все объекты находятся в их естественном окружении (контексте). Изображения, как правило, содержат объекты разных классов (только 10% имеют единственный класс). Все изображения сопровождаются аннотациями, хранящихся в json формате. Подробнее о структуре аннотаций можно прочитать [http://cocodataset.org/#format-data здесь].

COCO имеет пять типов аннотаций для разных задач:

Более подробно с метриками можно ознакомиться [http://cocodataset.org/#detection-leaderboard здесь].

Приведем лишь результаты детектора [https://arxiv.org/abs/1512.03385 ResNet] (bbox) - победителя 2015 Detection Challenge.

Графики , изображенные на рисунках 8 и 9, представляют из себя семейство кривых Pressision Recall для различных метрик.

{|align="center"

|-valign="top"

|[[Файл:Detection-analysis-person.jpg|мини|Рисунок 8. PR кривые для класса "Person" [http://cocodataset.org/images/detection-analysis-person.jpg ~~оригинал~~Оригинал]]] |[[Файл:Detection-analysis-all.jpg|мини|Рисунок 9. Усредненные значения для всех классов [http://cocodataset.org/images/detection-analysis-all.jpg ~~оригинал~~Оригинал]]]

|}

plt.show()

[[Файл:Coco-1.png |мини| center| Рисунок 10. Пример изображения из датасета COCO [https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoDemo.ipynb ~~оригинал~~Оригинал]]]

# load and display instance annotations

coco.showAnns(anns)

[[Файл:Coco-2.png|мини|center| Рисунок 11. Пример обнаруженного объекта [https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoDemo.ipynb ~~оригинал~~Оригинал]]]

==Fashion-MNIST==

===Описание===

[[Файл:FMNIST.png|мини|Рисунок 12. Пример изображений из Fashion-MNIST]]Fashion-MNIST {{---}} это набор изображений, взятых из статей [https://jobs.zalando.com/en/tech/?gh_src=nevh2y1 Zalando], состоящий из обучающего набора из 60000 примеров и тестового набора из 10000 примеров. Каждый пример представляет собой черно-белое изображение 28x28(см. рис. 12), связанное с меткой из 10 классов. Создатели Fashion-MNIST предложили его в качестве прямой замены исходного набора данных MNIST, состоящего из рукописных цифр, для сравнительного анализа алгоритмов машинного обучения. Он имеет одинаковый размер изображения и структуру разделений для обучения и тестирования. Аргументировали необходимость такой замены тем, что исходный набор данных MNIST действительно хорошо отражает возможность алгоритма хоть что-то классифицировать, но если алгоритм работает на стандартном MNIST, он все равно может не сработать на других примерах данных. Также на наборе данных MNIST научились достигать слишком высоких результатов точности (97% для классических алгоритмов машинного обучения и 99.7% для сверточных нейронных сетей), в то время как MNIST не отражает современных сложных проблем компьютерного зрения. Это позволило сделать предположение о том, что набор данных MNIST слишком простой по современным меркам и его требуется заменить.

===Результаты===

==Caltech-UCSD Birds 200 (CUB)==

[[Файл:cub_dataset_logo.jpg |мини|Рисунок 13. Пример изображений из CUB [http://www.vision.caltech.edu/visipedia/collage.jpg Оригинал]]]

===Описание===

Caltech-UCSD Birds 200 {{---}} это набор данных, содержащий изображения птиц. Данный набор включает в себя фотографии 200 видов птиц. Большинство видов птиц, представленных в наборе данных, являются североамериканскими. Общее количество категорий птиц составляет 200~~, в~~ . В набор данных 2010 года ~~влючены~~ включены 6033 изображения, а в набор данных 2011 года {{---}} 11 788 изображений, некоторые из них приведены на рисунке 13.

===Поиск и аннотация изображений===

Изображения для набора ~~днанных~~ данных были получены с сайта [https://www.flickr.com/ Flickr ] и отфильтрованы с помощью [https://www.mturk.com/ Amazon Mechanical Turk]. Каждое изображение аннотировано границей области, содержащей птицу, грубой сегментацией птиц, набором меток атрибутов и текстовым описанием. Примеры аннотированных изображений представлены на рисунке 14.

{|align="center"

|-valign="top"

|[[Файл:birds_annotations.png |~~800px~~мини|600px|Рисунок 14. Изображения и аннотации из CUB-200[https://www.researchgate.net/profile/Serge_Belongie/publication/46572499/figure/fig1/AS:669472046206977@1536625982259/Images-and-annotations-from-CUB-200-Each-example-image-is-shown-with-a-rough-outline.png Оригинал]]]

|}

==102 Category Flower==

===Описание===

[[Файл:flowers-examples.jpg|мини| Рисунок 15. Примеры изображений из Oxford Flowers 102[https://www.researchgate.net/profile/Zhiwu_Lu2/publication/318204948/figure/fig7/AS:512607066439687@1499226456587/Examples-of-images-in-the-Oxford-Flower-102-Dataset-Corresponding-categories-are-given.png Оригинал]]]Oxford Flowers 102 {{---}} набор данных, состоящий из цветов, встречающихся в Соединенном Королевстве. Набор стоит состоит из 102 видов цветов и содержит от 40 до 258 изображений каждого вида. ~~Все изображения имеют крупный масштаб~~Примеры изображений из данного датасета приведены на рисунке 15. Цветы представлены в различных ракурсах и вариациях освещения. Кроме того, в наборе присутствуют виды цветов ~~очень похожие~~ тяжело отличимые друг от друга. Графы соседства цветков по различным признакам представлены на ~~друга~~рисунках 16 и 17.

Набор данных делится на обучающий набор, проверочный набор и тестовый наборы. Каждый обучающий и проверочный наборы состоят из 10 изображений на класс (всего 1020 изображений). Тестовый набор состоит из оставшихся 6149 изображений (минимум 20 изображений на класс).

{|align="center"

|-valign="top"

|[[Файл:cad_Shapeiso.jpg|мини| Рисунок 16. Граф соседства по форме [https://www.robots.ox.ac.uk/~vgg/data/flowers/102/shapeiso.jpg Оригинал]]] |[[Файл:cad_Colouriso.jpg|мини|Рисунок 17. Граф соседства по ~~свету~~ цвету [https://www.robots.ox.ac.uk/~vgg/data/flowers/102/colouriso.jpg Оригинал]]]

|}

==Visual Genome==

[[Файл:Visual_Genome_учфьзду.png|мини| ~~600px|~~Рисунок 18. Результат визуализации[http://visualgenome.org/api/v0/region_visualization_demo/ Оригинал]]]

===Описание===

Visual Genome {{---}} это набор данных, связывающий изображения со словесным описанием их содержимого. Является исчерпывающим набором данных для обучения и тестирования моделей компьютерного зрения, обеспечивает обширный анализ ~~содержимого в изображениях~~ изображений с учетом зависимостей между объектами. Это позволяет использовать набор данных для решения большого количества различных задач: ~~от поиска~~ поиск объектов ~~до поиска~~ , поиск отношений, требующих дальнейшего вывода, ~~и даже~~ задачи, связанные с ответами на вопросы.

Изображение часто представляет сложную картину, которую невозможно полностью раскрыть одним предложением. Существующие наборы данных, такие как Flickr 30K, ориентированы на высокоточное описание всего изображения в целом. Вместо этого для каждого изображения в Visual Genome собираются более 50 описаний для разных регионов изображения, обеспечивая тем самым намного более полный набор описаний.

Набор данных содержит более 108К изображений, каждое из которых имеет в среднем 35 объектов, 26 атрибутов и 21 парное отношение между объектами. В данном наборе данных происходит ~~канонизация~~ преобразование объектов, атрибутов, отношений и словосочетаний в описаниях регионов и пар вопрос-ответ в синсеты из [https://ru.wikipedia.org/wiki/WordNet WordNet]. Cинсет {{---}} это набор ~~даных~~данных, элементы в котором считаются семантически эквивалентными для поиска или восстановления информации. Visual Genome является самым большим набором данных с описаниями изображений, объектов, атрибутов, отношений и пар вопрос-ответ.

===Код===

plt.show()

visualize_regions(image, regions[:8])

Результат работы кода представлен на рисунке 18.

==CelebA==

[[Файл:CelebA.jpg|мини|Рисунок 19. Пример изображений из CelebA [http://mmlab.ie.cuhk.edu.hk/projects/CelebA/overview.png Оригинал]]]

===Описание===

CelebA (англ. CelebFaces Attributes Dataset) {{---}} это крупномасштабный набор данных атрибутов лиц, содержащий более 200 тысяч изображений знаменитостей(см. рис. 19). Изображения в этом наборе данных охватывают ~~большие вариации поз и беспорядок на фоне~~лица людей с разных ракурсов. ~~CelebA имеет большое разнообразие, большое количество и богатые аннотации~~Более подробная характеристика датасета: 10 177 уникальных личностей, 202 599 изображений лиц и 5 ориентиров, 40 бинарных аннотаций атрибутов на изображение. Эти данные были первоначально собраны исследователями из MMLAB<ref>http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html[http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html]</ref>, Китайского университета Гонконга.

Набор данных можно использовать в качестве обучающих и тестовых наборов для следующих задач [[Компьютерное зрение|компьютерного зрения]]: распознавание атрибутов лица, обнаружение лиц и локализация ориентиров (или части лица).

===Пример атрибутов===

Ниже приведен ~~пример некоторых~~ список бинарных атрибутов в CelebA, где отдельный атрибут {{---}} одна из характеристик лица~~. Оригинал примера доступен [https://towardsdatascience.com/celeba-attribute-prediction-and-clustering-with-keras-3d148063098d здесь]~~.

Более подробно со всеми атрибутами можно ознакомиться [https://www.tensorflow.org/datasets/catalog/celeb_a здесь]

{| class="wikitable"

|-

! ~~Идентификатор изображения~~Индекс атрибута! ~~Короткая~~ Наименование! Пояснение|-| 1| 5oClockShadow| щетина, появшившаяся в течение дня~~! Круги~~ |-| 2| ArchedEyebrows| изогнутые брови|-| 3| Attractive| привлекательный/ая|-| 4| BagsUnderEyes| мешки под глазами~~! Лысый~~|-| 5| Bald| лысый|-| 6| Bangs| челка|-| 7~~! Челка~~| BigLips~~! Большие~~ | большие губы~~! Большой~~ |-| 8| BigNose| большой нос|-| 9| BlackHair| темные волосы|-| 10| BlondHair| блондинистые волосы|-| 11| Blurry| размытый|-| 12| BrownHair | русые волосы|-| 13| BushyEyebrows| густые брови|-| 14| Chubby| полный|-| 15| DoubleChin| второй подбородок|-| 16| Eyeglasses| очки|-| 17| Goatee| козлиная бородка/эспаньолка|-| 18| GrayHair| седые волосы|-| 19| HeavyMakeup| много макияжа|-| 20| HighCheekBones| высокие скулы|-| 21| Male| мужчина|-| 22| MouthSlighltyOpen| слегка приоткрытый рот|-| 23| Mustache| усы|-| 24| NarrowEyes| узкий разрез глаз|-| 25| NoBeard| отсутствет борода|-| 26| OvalFace| овальное лицо|-| 27| PaleSkin| бледная кожа|-| 28| PointyNose| заостренный нос~~! Темные~~ |-| 29| RecedingHairline| залысина|-| 30| RosyCheeks| розовые щеки|-| 31| Sideburns| бакенбарды|-| 32| Smiling| улыбка|-| 33| StraightHair| прямые волосы|-| 34| WavyHair| волнистые волосы|-| 35| WearingEarrings| присутствует серьга/серьги|-| 36| WearingHat| присутствует шляпа

|-

| ~~146596.jpg~~37| 0WearingLipstick| 0~~| 0| 0| 0| 0| 0~~накрашены губы

|-

| ~~027415.jpg~~38| 0WearingNecklace| 0присутствует ожерелье| 0-| 039| 1WearingNecktie| 0~~| 1~~присутствует галстук

|-

| ~~031426.jpg~~40| 0Young| 0~~| 0~~ ~~| 1| 1| 1| 1~~молодой/ая

|}

==CityScapes==

[[Файл:CityscapesZuerich.jpg|мини|Рисунок 20. Пример изображения из CityScapes [https://www.cityscapes-dataset.com/examples/ ~~источник~~Источник]]]

===Описание===

CityScapes<ref>https://www.cityscapes-dataset.com/</ref> {{---}} это набор данных, состоящий из разнообразных городских уличных сцен в 50 разных городах в разное время года. Данный набор хорошо подходит для задач компьютерного зрения, таких как: [[Сегментация изображений|семантическая сегментация данных]], сегментация на уровне экземпляра и вывод несоответствия стереопар. Пример изображения из данного датасета представлен на рисунке 20.

===Структура данных <ref>https://www.cityscapes-dataset.com/dataset-overview/#features</ref>===

===Результаты===

Основной метрикой для этого набора данных является [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]]. Также, хорошо известно, что глобальная мера ~~[[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс~~ Ыеиндекса Жаккара]] смещена в сторону экземпляров объектов, которые покрывают большую область изображения. В уличных сценах с их сильным изменением масштаба это может быть проблематично.Чтобы решить эту проблему, создатели датасета дополнительно оценивают семантическую маркировку, используя метрику пересечения по объединению на уровне экземпляра ~~{{---}}~~<math>

iIoU = \dfrac{iTP}{iTP + FP + iFN}

</math>, где <math>iTP</math>, <math>FP</math> и <math>iFN</math> обозначают количество истинно положительных, ложноположительных и ложно отрицательных пикселей соответственно. Сейчас лучшей нейронной сетью для этого набора данных в задаче семантической сегментации данных является [https://www.cityscapes-dataset.com/benchmarks/#scene-labeling-task DAHUA-ARI], которая позволяет достичь индекс Жаккара 85.8% и iIoU 70.6% для классов, индекс Жаккара 93.2% и iIoU 85.4% для категорий, соответственно.

==ICDAR==

[[Файл:ICDAR2017.png|мини|Рисунок 21. Пример изображения из датасета ICDAR2017 Competition on Multi-lingual Scene Text Detection and Script Identification (MLT) [https://arxiv.org/pdf/1812.05219.pdf ~~источник~~Источник]]]

===Описание===

ICDAR<ref>https://rrc.cvc.uab.es/</ref> (англ. International Conference on Document Analysis and Recognition) {{---}} это международная конференция по анализу и распознаванию текста и одноименное семейство набора данных, состоящее из фотографий(см. рис. 21, 22 и 23), на которых изображен текст на разных языках. Данные наборы создаются для соревнований RRC (англ.Robust Reading Competition), где требуется решить следующие задачи: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание, распознавание скриптов, ответы на вопросы, связанные с изображениями.

Ниже приведен анализ наборов данных ICDAR2013, ICDAR2015, ICDAR2017, ICDAR2019.

===ICDAR 2013===

'''ICDAR 2013 "Born Digital Images"''' {{---}} датасет, который содержит изображения, извлеченные с веб-страниц и сообщений электронной почты. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов.

'''ICDAR 2013 "Focused Scene Text"''' {{---}} датасет c изображениями с текстом на вывесках, логотипах и так далее. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов.

{| class="wikitable"

|-

! Наименование датасета

~~! Тип текста~~

! Количество объектов

! Количество обучающих объектов

! Количество обучающих слов

! Количество тестовых слов

~~! Язык текста на изображениях~~

~~! Задачи~~

|-

| ICDAR 2013 "Born Digital Images"

~~| изображения, извлеченные с веб-страниц и сообщений электронной почты~~

| 561

| 420

| 3564

| 1439

~~| Английский~~

~~| обнаружение текста, сегментация текста, распознавание символов~~

|-

| ICDAR 2013 "Focused Scene Text"

~~| изображения с текстом на вывесках, логотипах и т.д.~~

| 462

| 229

| 848

| 1095

~~| Английский~~

~~| обнаружение текста, сегментация текста, распознавание символов~~

|}

<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARBDI.png|thumb|alt=ICDAR "Born Digital Images"|x200px|center|Рисунок 22. ICDAR "Born Digital Images". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>

<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARFST2.png|x150px|center|thumb|Рисунок 23. ICDAR "Focused Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>

===ICDAR 2015===

'''ICDAR 2015 "Born Digital Images"''' {{---}} датасет, который содержит изображения, извлеченные с веб-страниц и сообщений электронной почты. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание .

'''ICDAR 2013 "Focused Scene Text"''' {{---}} датасет c изображениями с текстом на вывесках, логотипах и так далее. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов , сквозное распознавание.

'''ICDAR 2015 "Incidental Scene Text"''' {{---}} датасет c изображениями, на которых текст попал в поле зрения камеры Google Glass случайно<ref>https://rrc.cvc.uab.es/?ch=4</ref>. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов , сквозное распознавание.

{| class="wikitable"

|-

! Наименование датасета

~~! Тип текста~~

! Количество объектов

! Количество обучающих объектов

! Количество обучающих слов

! Количество тестовых слов

~~! Язык текста на изображениях~~

~~! Задачи~~

|-

| ICDAR 2015 "Born Digital Images"

~~| изображения, извлеченные с веб-страниц и сообщений электронной почты~~

| 561

| 420

| 3564

| 1439

~~| Английский~~

~~| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание~~

|-

| ICDAR 2015 "Focused Scene Text"

~~| изображения с текстом на вывесках, логотипах и т.д.~~

| 462

| 229

| 848

| 1095

~~| Английский~~

~~| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание~~

|-

| ICDAR 2015 "Incidental Scene Text"

~~| изображения, на которых текст попал в поле зрения камеры Google Glass случайно<ref>https://rrc.cvc.uab.es/?ch=4</ref>~~

| 1670 (1500 публичных)

| 1000

| -

~~| Английский~~

~~| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание~~

|}

<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARIST.png |x150px|center|thumb|Рисунок 24. ICDAR "Incidental Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>

===ICDAR 2017===

'''ICDAR 2017 "COCO-Text"''' {{---}} набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст. Текст на изображениях на английском, немецком, французском и других языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, распознавание символов , сквозное распознавание.

'''ICDAR 2017 "Multi-lingual Scene Text"''' {{---}} набор данных, где собраны изображения с текстом на 9 языках. Текст на изображениях на арабском, английском, немецком, бенгальском, китайском, японском, французском, корейском языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста.

'''ICDAR 2017 "French Street Name Signs"''' {{---}} набор данных с изображениями, на которых есть названия французских улиц. Текст на изображениях на французском языке. Датасет предназначен для следующих задач оптического распознавани символов: сквозное распознавание.

{| class="wikitable"

|-

! Наименование датасета

~~! Тип текста~~

! Количество объектов

! Количество обучающих объектов

! Количество обучающих слов

! Количество тестовых слов

~~! Язык текста на изображениях~~

~~! Задачи~~

|-

| ICDAR 2017 "COCO-Text"

| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст

| 63686

| 43686

| -

~~| Французский~~

~~| сквозное распознавание~~

|-

| ICDAR 2017 "Multi-lingual Scene Text"

~~| изображения с текстом на 9 различных языках~~

| 18 000

| -

~~| Английский, Арабский, Бенгальский, Китайский, Французский, Немецкий, Японский, Корейский~~

~~| обнаружение текста, сегментация текста~~

|-

| ICDAR 2017 "French Street Name Signs"

~~| изображения, на которых есть названия француззских улиц~~

| 1 081 422, где каждое изображение содержит до 4 объектов с названией улицы

| -

~~| Английский~~

~~| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание~~

|}

<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARCOCO.png |x250px|center|thumb|Рисунок 25. ICDAR "COCO-Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>

<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARMSTD.png |x250px|center|thumb|Рисунок 26. ICDAR "Multi-lingual Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>

<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARFS2.png |x150px|center|thumb|Рисунок 27. ICDAR "French Street Name Signs". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>

===ICDAR 2019===

'''ICDAR 2019 "COCO-Text"''' {{---}} набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст. Текст на изображениях на английском, немецком, французском и других языках. Датасет предназначен для следующих задач оптического распознавани символов: сквозное распознавание.

'''ICDAR 2019 "Multi-lingual Scene Text"''' {{---}} набор данных, где собраны изображения с текстом на 10 языках. Текст на изображениях на арабском, английском, деванагари, немецком, бенгальском, китайском, японском, французском, корейском языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, идентификация скрипта, сквозное распознавание.

'''ICDAR 2019 "Scene Text Visual Question Answering"''' {{---}} набор данных, включающий 23 038 изображений с 31 791 парой вопросов и ответов, где ответ всегда основан на присутствующих текстовых экземплярах на изображении. Текст на изображениях на янглийском языке. Датасет предназначен для следующих задач оптического распознавани символов: ответ на вопрос, связанный с изображением.

{| class="wikitable"

|-

! Наименование датасета

~~! Тип текста~~

! Количество объектов

! Количество обучающих объектов

! Количество обучающих слов

! Количество тестовых слов

~~! Язык текста на изображениях~~

~~! Задачи~~

|-

| ICDAR 2019 "COCO-Text"

| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст

| 63686

| 43686

| -

~~| Французский~~

~~| сквозное распознавание~~

|-

| ICDAR 2019 "Multi-lingual Scene Text"<ref>https://arxiv.org/pdf/1907.00945.pdf</ref>

~~| изображения с текстом на 10 различных языках~~

| 20 000 (2 000 для каждого языка) + 277 000 сгенерированных изображения

| 10 000

| -

~~| Английский, Арабский, Бенгальский, Деванагари, Китайский, Французский, Немецкий, Японский, Корейский~~

~~| обнаружение текста, идентификация скрипта, сквозное распознавание~~

|-

| ICDAR 2019 "Scene Text Visual Question Answering"

| ~~набор данных, включающий~~23 038 ~~изображений с 31 791 парой вопросов и ответов,где ответ всегда основан на присутствующих текстовых экземплярахна изображении.~~

| -

~~| Английский~~

~~| ответ на вопрос, связанный с изображением~~

|}

~~{|align~~<div class="~~center~~oo-ui-panelLayout-scrollable" ~~|-valign~~style="~~top"~~ ~~|[[Файл~~display:~~ICDARSamples.png |600px|thumb|Сэмплы из датасетов ICDAR 2011, ICDAR 2015, ICDAR 2017]]~~ |} {|block; vertical-align=:middle; height: auto; width: auto;"~~center"~~ ~~|-valign="top"~~ |>[[Файл:ICDAR2019Sample.png |~~600px~~x1400px|center|thumb|~~Сэмпл из датасета~~ Рисунок 28. ICDAR 2019 "Scene Text Visual Question Answering". [https://arxiv.org/pdf/1907.00490.pdf Источник]] |}]</div>

==Pointing'04==

===Описание===

Pointing'04 <ref>http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf</ref> {{---}} база данных изображений лиц в разных ~~позах~~ положениях для 15 -ти человек. Для каждого человека представлено 93 ~~позы~~положения головы, при этом каждая фотография ~~представлена~~ предложена в двух вариантах освещения и масштаба (две разные сессии). Снимки, сделанные во время первого сеанса, используются в качестве обучающих данных, а изображения из второго сеанса используются в качестве данных тестирования. 93 ~~позы~~ положения включают комбинации 13 ~~поз~~ -и вариантов поворота и 7 ~~поз~~ -и вариантов наклона вместе с двумя крайними случаями наклона при отсутствии поворота.

===Пример сета изображений===

{|align="center"

|-valign="top"

|[[Файл:Pointing.png|600px|thumb|Рисунок 29. Пример сета изображений Pointing'04[https://www.researchgate.net/publication/221545772_Evaluation_of_Head_Pose_Estimation_for_Studio_Data Источник]]]

|}

===Описание===

Репозиторий FASSEG <ref>http://massimomauro.github.io/FASSEG-repository/</ref> (англ. FAce Semantic SEGmentation ) состоит из двух наборов данных (Frontal01 и Frontal02) для сегментации лиц в фронтальном положении и одного набора данных (Multipose01) с лицами в нескольких ~~позах~~определенных положениях.

Frontal01 содержит 70 сегментированных изображений лиц и исходные изображения RGB. Исходные лица в основном взяты из наборов данных [http://cbcl.mit.edu/software-datasets/FaceData2.html MIT-CBCL] и [http://www.fei.edu.br/~cet/facedatabase.html FEI].

Frontal02 {{---}} это «высокоточный» Frontal01. Он содержит те же изображения, что и Frontal01, но с гораздо более точной сегментацией.

Multipose01 содержит более 200 размеченных лиц в 13 ~~позах (~~-ти положениях с углом поворота от -90 градусов до 90 градусов)включительно. Исходные лица взяты из базы данных [http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf Pointing'04].

===Сегментация===

{|align="right"

|-valign="top"

|[[Файл:FASSEG3.png|300px|thumb|Рисунок 30. Сегментация изображения [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf Источник]]]

|}

Изображение размечается на 6 сегментов(см. рис. 30):*~~Глаза~~глаза;*~~Нос~~нос;*~~Рот~~рот;*~~Волосы~~ волосы (вместе с бровями);*~~Фон~~фон изображения;*~~Кожа~~кожа.

===Примеры изображений===

{|align="center"

|-valign="top"

|[[Файл:FASSEG1.png|300px|thumb|Рисунок 31. Пример изображений из датасетов Frontal01 и Frontal02 [https://raw.githubusercontent.com/massimomauro/FASSEG-dataset/master/other/V1V2_diff.png Оригинал]]] |[[Файл:FASSEG2.png|400px|thumb|Рисунок 32. Пример изображений из датасета Multipose01 [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf Источник]]]

|}

==MPI==

{|align="right"

|-valign="top"

|[[Файл: MPI1.jpg|500px|thumb|Рисунок 33. Пример изображений из подкласса датасета MPI [http://human-pose.mpi-inf.mpg.de/#dataset Источник]]]

|}

Датасет представлен двадцатью различными классами активности: езда на велосипеде, упражнения, танцы, рыбалка и охота, домашняя активность, ~~починка~~ремонт, отдых, активность на природе, игра на музыкальных инструментах, религиозная деятельность, бег, самоуход, спорт, передвижение на транспорте, волонтерство, прогулки, ~~деятельность, связанная с водой~~активность на воде, зимние виды активности, разное. ~~Каждый класс также разделен на уникальные подклассы~~.

Датасет снабжен документацией с описанием структуры хранимых объектов и методами взаимодействия с ними, всю необходимую информацию по датасету, как и сами исходники, можно получить по [http://human-poseКаждый класс также разделен на уникальные подклассы.~~mpi-inf.mpg.de/ ссылке]~~Пример такого разделения приведен на рисунке 33.

Датасет снабжен документацией с описанием структуры объектов и методами взаимодействия с ними, всю необходимую информацию по датасету, как и сами исходники, можно получить по [http://human-pose.mpi-inf.mpg.de/ ссылке].

==См.также==

Maintenance script

1632

правки

Изменения

Известные наборы данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты