Изменения

Известные наборы данных

20 854 байта добавлено, 15:06, 8 апреля 2021

→‎Код

| 30

| не описано

|-

| ICDAR 2017 "COCO Text"

| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, присутствует текст

| 63686 изображений, 43686 {{---}} обучающая выборка,10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая

| 173589 слов

| не описано

|-

| Pointing'04

| Изображения лиц людей с разными углами поворота и наклона

| 15 сетов по 186 изображений в каждом

| 93

| 7.9% <ref>https://www.researchgate.net/publication/221125207_Generalized_subspace_based_high_dimensional_density_estimation</ref>

|-

| FASSEG

| Изображения лиц людей с разными углами поворота, как в оригинале, так и в сегментированном виде

| Часть frontal01: 70, часть frontal02: 70, часть multipose01: 200

| frontal01 и frontal02 {{---}} разделяют изображение на 6 различных сегментов, multipose01 {{---}} 13 углов поворота

| 7.73% <ref>https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf</ref> для сегментации, 22.6% <ref>https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf</ref> для определения поз

|-

| MPI

| Изображения повседневной деятельности людей в различных позах

| 25 тысяч

| 410

| ~10% <ref>http://human-pose.mpi-inf.mpg.de/#results</ref>

|}

from sklearn.datasets import load_iris

from sklearn.ensemble import RandomForestClassifier

from sklearn import metrics

iris=load_iris()

X = iris.data

Y = iris.target

~~X, Y = shuffle(X, Y)~~

n = len(iris.data)

train = n // 2

2 0.88 0.96 0.92 23

avg / total 0.95 0.95 0.95 75

==MNIST==

===Описание===

[[Файл:MnistExamples.png|мини|Рисунок 1. Примеры изображений из датасета MNIST [https://en.wikipedia.org/wiki/MNIST_database#/media/File:MnistExamples.png Оригинал]]]

Набор данных MNIST {{---}} большой (порядка 60 000 тренировочных и 10 000 проверочных объектов, помеченных на принадлежность одному из десяти классов {{---}} какая цифра изображена на картинке) набор картинок с рукописными цифрами, часто используемый для тестирования различных алгоритмов распознавания образов. Он содержит черно-белые картинки размера 28x28 пикселей, исходно взятые из набора образцов из бюро переписи населения США, к которым были добавлены тестовые образцы, написанные студентами американских университетов. На рисунке 1 представлены примеры рукописных цифр из данного датасета.

===Результаты===

===Код===

Простой пример, скачивающий набор данных и запускающий на нем один из классификаторов. Даже с уменьшением набора данных в сто раз и не самым подходящим классификатором точность выше половины угаданных цифр {{---}} заметно лучше, чем случайная разметка. С результатом работы данного кода можно ознакомиться на рисунке 2.

from sklearn.datasets import ~~fetch_mldata~~fetch_openml

from numpy import arange

import random

from sklearn import datasets, svm, metrics

[[Файл:Mnist-predict.png|мини|Рисунок 2. Результат работы классификатора]]

mnist = ~~fetch_mldata~~fetch_openml('~~MNIST original~~MNIST_784')

indices = arange(len(mnist.data))

randidx = random.sample(list(indices), 500)

expected = Y[train:]

predicted = clf.predict(X[train:])

print("Classification report for classifier %s:\n%s\n" % (clf, metrics.classification_report(expected, predicted)))

digit precision recall f1-score support

===Описание===

[[Файл:Cifar-10.png|мини|Рисунок 3. Примеры изображений из датасета CIFAR-10 [https://medium.com/@jannik.zuern/training-a-cifar-10-classifier-in-the-cloud-using-tensorflow-and-google-colab-f3a5fbdfe24d Источник]]]CIFAR-10 (Canadian Institute For Advanced Research) {{---}} еще один большой набор изображений, который обычно используется для тестирования алгоритмов машинного обучения. Он содержит 60 000 цветных картинок размером 32х32 пикселя, размеченных в один из десяти классов: самолеты, автомобили, коты, олени, собаки, лягушки, лошади, корабли и грузовики. В наборе данных по 6000 картинок каждого класса, примеры некоторых из них приведены на рисунке 3. CIFAR-10 является размеченным подмножеством заметно большего набора данных, состоящего примерно из восьмидесяти миллионов изображений.

===Результаты===

===Описание===

[[Файл:Imagenet.png|мини|Рисунок 4. Пример разметки объектов в датасете ImageNet [http://www.image-net.org/challenges/LSVRC/2014/ Источник]]]

База данных Imagenet {{---}} проект по созданию и сопровождению массивной базы данных аннотированных изображений. Аннотация изображений происходит путем краудсорсинга сообществом. Из-за этого достигается большое количество размеченных данных.

Особенность данного набора данных {{---}} про каждую картинку известно несколько фактов вида "в этом прямоугольнике есть автомобиль"(см. рис. 4), что в совокупности с индексом по типам объектов, которые есть на изображениях, позволяет обучить алгоритм для распознавания объектов какой-то конкретной категории. На август 2017 года в ImageNet 14 197 122 изображения, разбитых на 21 841 категорию.

===Imagenet Challenge===

[[Файл:Imagenet-contest.png|мини|Рисунок 5. Лучшие результаты на Imagenet Challenge за различные годы [https://en.wikipedia.org/wiki/File:ImageNet_error_rate_history_(just_systems).svg Оригинал]]]

Вместе с публикацией набора данных стартовал конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC<ref>http://www.image-net.org/challenges/LSVRC/[http://www.image-net.org/challenges/LSVRC/]</ref>). В его рамках участникам предлагается достигнуть наибольшей точности при классификации набора изображений. Организаторы использовали около тысячи различных категорий объектов, которые нужно классифицировать. На примере этого конкурса хорошо видно, как в 2010-е годы люди научились заметно лучше распознавать образы на изображениях, уже в 2017 году большинство участвующих команд преодолели порог в 95% правильных ответов. История улучшения результатов представлена на рисунке 5. Эта задача, проблема компьютерного зрения, имеет огромное практическое значение во многих прикладных областях.

==ADE20K==

===Описание===

[[Файл:ADE20K_merged.png|мини|300px|Рисунок 6. Изображение из ADE20K и его разбиение на части.]]ADE20K {{---}} набор изображений с размеченными сущностями, который хорошо подходит для задачи [[Сегментация изображений|семантической сегментации данных]] в компьютерном зрении, пример разметки приведен на рисунке 6. Особенность этого набора состоит в том, что кроме объектов приводится также информация об их составных частях: например, если на изображении находится человек, то в дополнение к местоположению его фигуры будет также приведено положение его глаз и носа.

Подобные наборы данных часто страдают от несогласованности меток при их разметке сообществом. Для ADE20K эта проблема была решена {{---}} все изображения размечал только один человек, что обусловило высокую согласованность меток.

===Описание===

[[Файл:Coco-examples.jpg|мини|400px| Рисунок 7. Пример изображений из MS Coco [http://cocodataset.org/images/coco-examples.jpg Оригинал]]]

MS COCO (англ. ''Common Objects in Context'') {{---}} большой набор изображений. Состоит из более чем 330000 изображений (220000 {{---}} размеченных), с более чем 1.5 милионов объектов на них. Примеры изображений приведены на рисунке 7. Все объекты находятся в их естественном окружении (контексте). Изображения, как правило, содержат объекты разных классов (только 10% имеют единственный класс). Все изображения сопровождаются аннотациями, хранящихся в json формате. Подробнее о структуре аннотаций можно прочитать [http://cocodataset.org/#format-data здесь].

COCO имеет пять типов аннотаций для разных задач:

Более подробно с метриками можно ознакомиться [http://cocodataset.org/#detection-leaderboard здесь].

Приведем лишь результаты детектора [https://arxiv.org/abs/1512.03385 ResNet] (bbox) - победителя 2015 Detection Challenge.

Графики , изображенные на рисунках 8 и 9, представляют из себя семейство кривых Pressision Recall для различных метрик.

{|align="center"

|-valign="top"

|[[Файл:Detection-analysis-person.jpg|мини|Рисунок 8. PR кривые для класса "Person" [http://cocodataset.org/images/detection-analysis-person.jpg ~~оригинал~~Оригинал]]] |[[Файл:Detection-analysis-all.jpg|мини|Рисунок 9. Усредненные значения для всех классов [http://cocodataset.org/images/detection-analysis-all.jpg ~~оригинал~~Оригинал]]]

|}

plt.show()

[[Файл:Coco-1.png |мини| center| Рисунок 10. Пример изображения из датасета COCO [https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoDemo.ipynb ~~оригинал~~Оригинал]]]

# load and display instance annotations

coco.showAnns(anns)

[[Файл:Coco-2.png|мини|center| Рисунок 11. Пример обнаруженного объекта [https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoDemo.ipynb ~~оригинал~~Оригинал]]]

==Fashion-MNIST==

===Описание===

[[Файл:FMNIST.png|мини|Рисунок 12. Пример изображений из Fashion-MNIST]]Fashion-MNIST {{---}} это набор изображений, взятых из статей [https://jobs.zalando.com/en/tech/?gh_src=nevh2y1 Zalando], состоящий из обучающего набора из 60000 примеров и тестового набора из 10000 примеров. Каждый пример представляет собой черно-белое изображение 28x28(см. рис. 12), связанное с меткой из 10 классов. Создатели Fashion-MNIST предложили его в качестве прямой замены исходного набора данных MNIST, состоящего из рукописных цифр, для сравнительного анализа алгоритмов машинного обучения. Он имеет одинаковый размер изображения и структуру разделений для обучения и тестирования. Аргументировали необходимость такой замены тем, что исходный набор данных MNIST действительно хорошо отражает возможность алгоритма хоть что-то классифицировать, но если алгоритм работает на стандартном MNIST, он все равно может не сработать на других примерах данных. Также на наборе данных MNIST научились достигать слишком высоких результатов точности (97% для классических алгоритмов машинного обучения и 99.7% для сверточных нейронных сетей), в то время как MNIST не отражает современных сложных проблем компьютерного зрения. Это позволило сделать предположение о том, что набор данных MNIST слишком простой по современным меркам и его требуется заменить.

===Результаты===

==Caltech-UCSD Birds 200 (CUB)==

[[Файл:cub_dataset_logo.jpg |мини|Рисунок 13. Пример изображений из CUB [http://www.vision.caltech.edu/visipedia/collage.jpg Оригинал]]]

===Описание===

Caltech-UCSD Birds 200 {{---}} это набор данных, содержащий изображения птиц. Данный набор включает в себя фотографии 200 видов птиц (. Большинство видов птиц, представленных в ~~основном североамериканских)~~наборе данных, являются североамериканскими. Общее количество категорий птиц составляет 200~~, в~~ . В набор данных 2010 года ~~влючены~~ включены 6033 изображения, а в набор данных 2011 года {{- --}} 11 788 изображений, некоторые из них приведены на рисунке 13.

===Поиск и аннотация изображений===

Изображения для набора данных были ~~загружены~~ получены с сайта [https://www.flickr.com/ Flickr ] и отфильтрованы ~~сотрудниками~~ с помощью [https://www.mturk.com/ Amazon Mechanical Turk]. Каждое изображение аннотировано ~~ограничивающей рамкой~~границей области, содержащей птицу, грубой сегментацией птиц и , набором меток атрибутови текстовым описанием. Примеры аннотированных изображений представлены на рисунке 14.

{|align="center"

|-valign="top"

|[[Файл:birds_annotations.png |~~800px~~мини|600px|Рисунок 14. Изображения и аннотации из CUB-200[https://www.researchgate.net/profile/Serge_Belongie/publication/46572499/figure/fig1/AS:669472046206977@1536625982259/Images-and-annotations-from-CUB-200-Each-example-image-is-shown-with-a-rough-outline.png Оригинал]]]

|}

==102 Category Flower==

===Описание===

[[Файл:flowers-examples.jpg|мини| Рисунок 15. Примеры изображений из Oxford Flowers 102[https://www.researchgate.net/profile/Zhiwu_Lu2/publication/318204948/figure/fig7/AS:512607066439687@1499226456587/Examples-of-images-in-the-Oxford-Flower-102-Dataset-Corresponding-categories-are-given.png Оригинал]]]Oxford Flowers 102 {{---}} набор данных, состоящий из цветов, встречающихся в Соединенном Королевстве. Набор стоит состоит из 102 видов цветов~~. Каждый вид представлен изображениями в количестве~~ и содержит от 40 до 258изображений каждого вида. ~~Изображения имеют крупный масштаб~~Примеры изображений из данного датасета приведены на рисунке 15. Цветы представлены в различных ракурсах и вариациях освещения. Кроме того, в наборе присутствуют виды цветов ~~очень похожие~~ тяжело отличимые друг от друга. Графы соседства цветков по различным признакам представлены на ~~друга~~рисунках 16 и 17.

Набор данных делится на обучающий набор, проверочный набор и тестовый наборы. Каждый обучающий и проверочный наборы состоят из 10 изображений на класс (всего 1020 изображений ~~каждый~~). Тестовый набор состоит из оставшихся 6149 изображений (минимум 20 изображений на класс).

{|align="center"

|-valign="top"

|[[Файл:cad_Shapeiso.jpg|мини| Рисунок 16. Граф соседства по форме [https://www.robots.ox.ac.uk/~vgg/data/flowers/102/shapeiso.jpg Оригинал]]] |[[Файл:cad_Colouriso.jpg|мини|Рисунок 17. Граф соседства по ~~свету~~ цвету [https://www.robots.ox.ac.uk/~vgg/data/flowers/102/colouriso.jpg Оригинал]]]

|}

==Visual Genome==

[[Файл:Visual_Genome_учфьзду.png|мини| ~~600px|~~Рисунок 18. Результат визуализации[http://visualgenome.org/api/v0/region_visualization_demo/ Оригинал]]]

===Описание===

Visual Genome {{---}} это набор данных, связывающий изображения ~~с словестным~~ со словесным описанием их содержимого. Является ~~черпывающим~~ исчерпывающим набором данных для обучения и тестирования моделей компьютерного зрения, обеспечивает ~~многослойное понимание картинок~~обширный анализ изображений с учетом зависимостей между объектами. Это позволяет ~~многосторонне изучать изображение~~использовать набор данных для решения большого количества различных задач: ~~от информации на уровне пикселей~~поиск объектов, ~~такой как объекты, до~~ поиск отношений, требующих дальнейшего вывода, ~~и даже более глубокие~~ задачи, ~~такие как ответы~~ связанные с ответами на вопросы.

~~Набор~~ Изображение часто представляет сложную картину, которую невозможно полностью раскрыть одним предложением. Существующие наборы данных ~~содержит более 108К изображений~~, ~~каждое из которых изображение имеет~~ такие как Flickr 30K, ориентированы на высокоточное описание всего изображения в ~~среднем 35 объектов, 26 атрибутов и 21 парное отношение между объектами~~целом. ~~Мы канонизируем объекты, атрибуты, отношения и словосочетания~~ Вместо этого для каждого изображения в ~~описаниях~~ Visual Genome собираются более 50 описаний для разных регионов ~~и пары вопрос-ответ в WordNet синсеты. Вместе эти аннотации представляют самый плотный и самый большой~~ изображения, обеспечивая тем самым намного более полный набор ~~данных с описаниями изображений, объекты, атрибуты, отношения и вопрос-ответ пары~~описаний.

~~Изображение часто представляет сложную картину~~Набор данных содержит более 108К изображений, каждое из которых имеет в среднем 35 объектов, ~~которую невозможно полностью раскрыть одним предложением~~26 атрибутов и 21 парное отношение между объектами. ~~Существующие наборы~~ В данном наборе данныхпроисходит преобразование объектов, ~~такие как Flickr 30K~~атрибутов, ~~ориентированы на высокоточное описание изображения~~отношений и словосочетаний в описаниях регионов и пар вопрос-ответ в синсеты из [https://ru. ~~Вместо этого~~ wikipedia.org/wiki/WordNet WordNet]. Cинсет {{---}} это набор данных, элементы в котором считаются семантически эквивалентными для ~~каждого изображения в~~ поиска или восстановления информации. Visual Genomeявляется самым большим набором данных с описаниями изображений, ~~собираются более 50 описаний для разных регионов изображения~~объектов, атрибутов, ~~обеспечивая намного более полный набор описаний сценариев~~отношений и пар вопрос-ответ.

===Код===

plt.show()

visualize_regions(image, regions[:8])

Результат работы кода представлен на рисунке 18.

==CelebA==

[[Файл:CelebA.jpg|мини|Рисунок 19. Пример изображений из CelebA [http://mmlab.ie.cuhk.edu.hk/projects/CelebA/overview.png Оригинал]]]

===Описание===

CelebA (англ. CelebFaces Attributes Dataset) {{---}} это крупномасштабный набор данных атрибутов лиц, содержащий более 200 тысяч изображений знаменитостей(см. рис. 19). Изображения в этом наборе данных охватывают ~~большие вариации поз и беспорядок на фоне~~лица людей с разных ракурсов. ~~CelebA имеет большое разнообразие, большое количество и богатые аннотации~~Более подробная характеристика датасета: 10 177 уникальных личностей, 202 599 изображений лиц и 5 ориентиров, 40 бинарных аннотаций атрибутов на изображение. Эти данные были первоначально собраны исследователями из MMLAB<ref>http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html[http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html]</ref>, Китайского университета Гонконга.

Набор данных можно использовать в качестве обучающих и тестовых наборов для следующих задач [[Компьютерное зрение|компьютерного зрения]]: распознавание атрибутов лица, обнаружение лиц и локализация ориентиров (или части лица).

===Пример атрибутов===

Ниже приведен ~~пример некоторых~~ список бинарных атрибутов в CelebA, где отдельный атрибут {{---}} одна из характеристик лица~~. Оригинал примера доступен [https://towardsdatascience.com/celeba-attribute-prediction-and-clustering-with-keras-3d148063098d здесь]~~.

Более подробно со всеми атрибутами можно ознакомиться [https://www.tensorflow.org/datasets/catalog/celeb_a здесь]

{| class="wikitable"

|-

! ~~Идентификатор изображения~~Индекс атрибута! ~~Короткая~~ Наименование! Пояснение|-| 1| 5oClockShadow| щетина, появшившаяся в течение дня|-| 2| ArchedEyebrows| изогнутые брови|-| 3| Attractive| привлекательный/ая|-| 4~~! Круги~~ | BagsUnderEyes| мешки под глазами~~! Лысый~~|-| 5| Bald| лысый|-| 6| Bangs| челка|-| 7~~! Челка~~| BigLips~~! Большие~~ | большие губы~~! Большой~~ |-| 8| BigNose| большой нос|-| 9| BlackHair| темные волосы|-| 10| BlondHair| блондинистые волосы|-| 11| Blurry| размытый|-| 12| BrownHair | русые волосы|-| 13| BushyEyebrows| густые брови|-| 14| Chubby| полный|-| 15| DoubleChin| второй подбородок|-| 16| Eyeglasses| очки|-| 17| Goatee| козлиная бородка/эспаньолка|-| 18| GrayHair| седые волосы|-| 19| HeavyMakeup| много макияжа|-| 20| HighCheekBones| высокие скулы|-| 21| Male| мужчина|-| 22| MouthSlighltyOpen| слегка приоткрытый рот|-| 23| Mustache| усы|-| 24| NarrowEyes| узкий разрез глаз|-| 25| NoBeard| отсутствет борода|-| 26| OvalFace| овальное лицо|-| 27| PaleSkin| бледная кожа|-| 28| PointyNose| заостренный нос~~! Темные~~ |-| 29| RecedingHairline| залысина|-| 30| RosyCheeks| розовые щеки|-| 31| Sideburns| бакенбарды|-| 32| Smiling| улыбка|-| 33| StraightHair| прямые волосы|-| 34| WavyHair| волнистые волосы|-| 35| WearingEarrings| присутствует серьга/серьги|-| 36| WearingHat| присутствует шляпа|-| 37| WearingLipstick| накрашены губы

|-

| ~~146596.jpg~~38| 0WearingNecklace| 0~~| 0| 0| 0| 0| 0~~присутствует ожерелье

|-

| ~~027415.jpg~~39| 0WearingNecktie| 0~~| 0| 0| 1| 0| 1~~присутствует галстук

|-

| ~~031426.jpg~~40| 0Young| 0~~| 0~~ ~~| 1| 1| 1| 1~~молодой/ая

|}

==CityScapes==

[[Файл:CityscapesZuerich.jpg|мини|Рисунок 20. Пример изображения из CityScapes [https://www.cityscapes-dataset.com/examples/ ~~источник~~Источник]]]

===Описание===

CityScapes<ref>https://www.cityscapes-dataset.com/</ref> {{---}} это набор данных, состоящий из разнообразных городских уличных сцен в 50 разных городах в разное время года. Данный набор хорошо подходит для задач компьютерного зрения, таких как: [[Сегментация изображений|семантическая сегментация данных]], сегментация на уровне экземпляра и вывод несоответствия стереопар. Пример изображения из данного датасета представлен на рисунке 20.

===Структура данных <ref>https://www.cityscapes-dataset.com/dataset-overview/#features</ref>===

===Результаты===

Основной метрикой для этого набора данных является [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]]. Также, хорошо известно, что глобальная мера ~~[[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс~~ Ыеиндекса Жаккара]] смещена в сторону экземпляров объектов, которые покрывают большую область изображения. В уличных сценах с их сильным изменением масштаба это может быть проблематично.Чтобы решить эту проблему, создатели датасета дополнительно оценивают семантическую маркировку, используя метрику пересечения по объединению на уровне экземпляра ~~{{---}}~~<math>

iIoU = \dfrac{iTP}{iTP + FP + iFN}

</math>, где <math>iTP</math>, <math>FP</math> и <math>iFN</math> обозначают количество истинно положительных, ложноположительных и ложно отрицательных пикселей соответственно. Сейчас лучшей нейронной сетью для этого набора данных в задаче семантической сегментации данных является [https://www.cityscapes-dataset.com/benchmarks/#scene-labeling-task DAHUA-ARI], которая позволяет достичь индекс Жаккара 85.8% и iIoU 70.6% для классов, индекс Жаккара 93.2% и iIoU 85.4% для категорий, соответственно.

==СмICDAR==[[Файл:ICDAR2017.png|мини|Рисунок 21. Пример изображения из датасета ICDAR2017 Competition on Multi-lingual Scene Text Detection and Script Identification (MLT) [https://arxiv.org/pdf/1812.05219.pdf Источник]]]===Описание===ICDAR<ref>https://rrc.cvc.uab.es/</ref> (англ. International Conference on Document Analysis and Recognition) {{---}} это международная конференция по анализу и распознаванию текста и одноименное семейство набора данных, состоящее из фотографий (см. рис. 21, 22 и 23), на которых изображен текст на разных языках. Данные наборы создаются для соревнований RRC (англ. Robust Reading Competition), где требуется решить следующие задачи: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание, распознавание скриптов, ответы на вопросы, связанные с изображениями.~~также~~Ниже приведен анализ наборов данных ICDAR2013, ICDAR2015, ICDAR2017, ICDAR2019. ===ICDAR 2013==='''ICDAR 2013 "Born Digital Images"''' {{---}} датасет, который содержит изображения, извлеченные с веб-страниц и сообщений электронной почты. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов. '''ICDAR 2013 "Focused Scene Text"''' {{---}} датасет c изображениями с текстом на вывесках, логотипах и так далее. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов. {| class="wikitable"|-! Наименование датасета! Количество объектов! Количество обучающих объектов! Количество тестовых объектов! Количество слов! Количество обучающих слов! Количество тестовых слов|-* | ICDAR 2013 "Born Digital Images"| 561| 420 | 141 | 5003| 3564| 1439|-| ICDAR 2013 "Focused Scene Text" | 462| 229 | 233 | 1943| 848 | 1095 |} <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARBDI.png|thumb|alt=ICDAR "Born Digital Images"|x200px|center|Рисунок 22. ICDAR "Born Digital Images". [~~Общие понятия~~https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div> * <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARFST2.png|x150px|center|thumb|Рисунок 23. ICDAR "Focused Scene Text". [~~Сегментация изображений~~https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div> ===ICDAR 2015==='''ICDAR 2015 "Born Digital Images"''' {{---}} датасет, который содержит изображения, извлеченные с веб-страниц и сообщений электронной почты. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание . '''ICDAR 2013 "Focused Scene Text"''' {{---}} датасет c изображениями с текстом на вывесках, логотипах и так далее. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов , сквозное распознавание. '''ICDAR 2015 "Incidental Scene Text"''' {{---}} датасет c изображениями, на которых текст попал в поле зрения камеры Google Glass случайно<ref>https://rrc.cvc.uab.es/?ch=4</ref>. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов , сквозное распознавание. {| class="wikitable"|-! Наименование датасета! Количество объектов! Количество обучающих объектов! Количество тестовых объектов! Количество слов! Количество обучающих слов! Количество тестовых слов|-| ICDAR 2015 "Born Digital Images"| 561| 420 | 141 | 5003| 3564| 1439|-| ICDAR 2015 "Focused Scene Text" | 462| 229 | 233 | 1943| 848 | 1095 |-| ICDAR 2015 "Incidental Scene Text" | 1670 (1500 публичных)| 1000| 500| 17548| -| - |} * <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARIST.png |x150px|center|thumb|Рисунок 24. ICDAR "Incidental Scene Text". [~~Задача нахождения~~ https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div> ===ICDAR 2017=== '''ICDAR 2017 "COCO-Text"''' {{---}} набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст. Текст на изображениях на английском, немецком, французском и других языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, распознавание символов , сквозное распознавание. '''ICDAR 2017 "Multi-lingual Scene Text"''' {{---}} набор данных, где собраны изображения с текстом на 9 языках. Текст на изображениях на арабском, английском, немецком, бенгальском, китайском, японском, французском, корейском языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста. '''ICDAR 2017 "French Street Name Signs"''' {{---}} набор данных с изображениями, на которых есть названия французских улиц. Текст на изображениях на французском языке. Датасет предназначен для следующих задач оптического распознавани символов: сквозное распознавание. {| class="wikitable"|-! Наименование датасета! Количество объектов! Количество обучающих объектов! Количество тестовых объектов ! Количество слов! Количество обучающих слов! Количество тестовых слов|-| ICDAR 2017 "COCO-Text"| 63686| 43686 | 10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая| 173589| -| -|-| ICDAR 2017 "Multi-lingual Scene Text" | 18 000| - | - | 107 547(тренировочные + валидирующие слова)| - | -|-| ICDAR 2017 "French Street Name Signs" | 1 081 422, где каждое изображение содержит до 4 объектов с названией улицы| -| -| -| - | - |} <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARCOCO.png |x250px|center|thumb|Рисунок 25. ICDAR "COCO-Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div> <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARMSTD.png |x250px|center|thumb|Рисунок 26. ICDAR "Multi-lingual Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div> <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARFS2.png |x150px|center|thumb|Рисунок 27. ICDAR "French Street Name Signs". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div> ===ICDAR 2019=== '''ICDAR 2019 "COCO-Text"''' {{---}} набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст. Текст на изображениях на английском, немецком, французском и других языках. Датасет предназначен для следующих задач оптического распознавани символов: сквозное распознавание. '''ICDAR 2019 "Multi-lingual Scene Text"''' {{---}} набор данных, где собраны изображения с текстом на 10 языках. Текст на изображениях на арабском, английском, деванагари, немецком, бенгальском, китайском, японском, французском, корейском языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, идентификация скрипта, сквозное распознавание. '''ICDAR 2019 "Scene Text Visual Question Answering"''' {{---}} набор данных, включающий 23 038 изображений с 31 791 парой вопросов и ответов, где ответ всегда основан на присутствующих текстовых экземплярах на изображении. Текст на изображениях на янглийском языке. Датасет предназначен для следующих задач оптического распознавани символов: ответ на вопрос, связанный с изображением. {| class="wikitable"|-! Наименование датасета! Количество объектов! Количество обучающих объектов! Количество тестовых объектов! Количество слов! Количество обучающих слов! Количество тестовых слов|-| ICDAR 2019 "COCO-Text"| 63686| 43686 | 10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая| 173589| -| -|-| ICDAR 2019 "Multi-lingual Scene Text"<ref>https://arxiv.org/pdf/1907.00945.pdf</ref>| 20 000 (2 000 для каждого языка) + 277 000 сгенерированных изображения| 10 000| 10 000 | -| - | -|-| ICDAR 2019 "Scene Text Visual Question Answering" | 23 038| -| -| -| -| - | - |} <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDAR2019Sample.png |x1400px|center|thumb|Рисунок 28. ICDAR 2019 "Scene Text Visual Question Answering". [https://arxiv.org/pdf/1907.00490.pdf Источник]]]</div> ==Pointing'04== ===Описание=== Pointing'04 <ref>http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf</ref> {{---}} база данных изображений лиц в разных положениях для 15-ти человек. Для каждого человека представлено 93 положения головы, при этом каждая фотография предложена в двух вариантах освещения и масштаба (две разные сессии). Снимки, сделанные во время первого сеанса, используются в качестве обучающих данных, а изображения из второго сеанса используются в качестве данных тестирования. 93 положения включают комбинации 13-и вариантов поворота и 7-и вариантов наклона вместе с двумя крайними случаями наклона при отсутствии поворота. ===Пример сета изображений=== {|align="center" |-valign="top" |[[Файл:Pointing.png|600px|thumb|Рисунок 29. Пример сета изображений Pointing'04 [https://www.researchgate.net/publication/221545772_Evaluation_of_Head_Pose_Estimation_for_Studio_Data Источник]]] |} ==FASSEG== ===Описание=== Репозиторий FASSEG <ref>http://massimomauro.github.io/FASSEG-repository/</ref> (англ. FAce Semantic SEGmentation ) состоит из двух наборов данных (Frontal01 и Frontal02) для сегментации лиц в фронтальном положении и одного набора данных (Multipose01) с лицами в нескольких определенных положениях. Frontal01 содержит 70 сегментированных изображений лиц и исходные изображения RGB. Исходные лица в основном взяты из наборов данных [http://cbcl.mit.edu/software-datasets/FaceData2.html MIT-CBCL] и [http://www.fei.edu.br/~cet/facedatabase.html FEI]. Frontal02 {{---}} это «высокоточный» Frontal01. Он содержит те же изображения, что и Frontal01, но с гораздо более точной сегментацией. Multipose01 содержит более 200 размеченных лиц в 13-ти положениях с углом поворота от -90 градусов до 90 градусов включительно. Исходные лица взяты из базы данных [http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf Pointing'04]. ===Сегментация=== {|align="right" |-valign="top" |[[Файл:FASSEG3.png|300px|thumb|Рисунок 30. Сегментация изображения [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf Источник]]] |} Изображение размечается на 6 сегментов (см. рис. 30):*глаза;*нос;*рот;*волосы (вместе с бровями);* фон изображения;*кожа. ===Примеры изображений=== {|align="center" |-valign="top" |[[~~Оценка качества в задачах классификации~~ Файл:FASSEG1.png|300px|thumb|Рисунок 31. Пример изображений из датасетов Frontal01 и ~~регрессии~~Frontal02 [https://raw.githubusercontent.com/massimomauro/FASSEG-dataset/master/other/V1V2_diff.png Оригинал]]] |[[Файл:FASSEG2.png|400px|thumb|Рисунок 32. Пример изображений из датасета Multipose01 [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf Источник]]] |} ==MPI==

~~==ICDAR==~~

[[Файл:ICDAR2017.png|мини|Пример изображения из датасета ICDAR2017 Competition on Multi-lingual Scene Text Detection and Script Identification (MLT) [https://arxiv.org/pdf/1812.05219.pdf источник]]]

===Описание===

ICDAR<ref>https://rrc.cvc.uab.es/</ref> (англ. International Conference on Document Analysis and Recognition) {{---}} это международная конференция по анализу и распознаванию текста и одноименное семейство набора данных, состоящее из фотографий, на которых изображен текст на разных языках. Данные наборы создаются для соревнований ICDAR, где требуется решить следующие задачи: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание.

~~==ICDAR 2013==~~MPI Human Pose <ref>http://human-pose.mpi-inf.mpg.de/</ref> (англ. Max Planck Institute) {{---}} это набор данных, позволяющий определять различные виды активности человека по позам на изображениях и аннотациям к ним. Набор данных включает около 25 тысяч изображений, содержащих более 40 тысяч людей с указанным положением отдельных частей тела. Изображения систематически собирались с использованием установленной таксономии повседневной деятельности человека. В целом набор данных охватывает 410 видов деятельности человека, каждое изображение снабжено меткой активности. Каждое изображение было извлечено из видео с YouTube и снабжено предшествующими и последующими кадрами без аннотации. Кроме того, для тестового набора приложены более детальные аннотации, включая сгибы частей тела и ориентации туловища и головы.

~~ICDAR 2013 {{---}} набор данных включает изображения, извлеченные с веб-страниц~~ ===Структура датасета и сообщений электронной почты. В датасете содержится репрезентативная выборка веб-страниц различных категорий (новости, личные, коммерческие, социальные, правительственные и т.д.), а также электронные письма разного типа (спам, информационные бюллетени и т.д.) на трех языках {{---}} Английский, Испанский, Французский, в пропорциях, которые отражают их использование в реальном мире. Размер набора данных составляет 561 изображение с минимальным размером 100x100 пикселей. Коллекция была разделена на обучающий набор из 420 примеры изображений и тестовый набор из 141 изображения. Для задачи распознавания слов учитывались только слова длиной от 3 символов. Набор данных содержит 5003 таких слова, из которых 3564 составляют обучающий набор, а 1439 {{---}} тестовый.===

{|align="right" |-valign=~~=Структура данных <ref>https~~"top" |[[Файл: MPI1.jpg|500px|thumb|Рисунок 33. Пример изображений из подкласса датасета MPI [http://~~www~~human-pose.~~cityscapes~~mpi-~~dataset~~inf.mpg.~~com~~de/#dataset~~-overview/#features</ref>===~~Источник]]] |} ~~Всего в наборе данных находится 25 000 изображений~~Датасет представлен двадцатью различными классами активности: езда на велосипеде, упражнения, танцы, рыбалка и охота, домашняя активность, ремонт, отдых, активность на природе, игра на музыкальных инструментах, религиозная деятельность, бег, самоуход, ~~из них 5000 составляют набор с более детальными аннотациями изображений с разрешением 1024 * 2048~~спорт, ~~предварительно разделенных~~ передвижение на ~~наборы для обучения {{---}} 2975~~транспорте, волонтерство, прогулки, ~~проверки {{---}} 500 и тестирования {{---}} 1525. Оставшиеся 20 000 изображений имеют грубые аннотации~~активность на воде, ~~позволяющие применять методы~~зимние виды активности, ~~использующие большие объемы данных со слабой маркировкой~~разное.

~~===Результаты===~~Каждый класс также разделен на уникальные подклассы. Пример такого разделения приведен на рисунке 33.

Основной метрикой для этого набора данных является [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]]. Также, хорошо известно, что глобальная мера [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]] смещена в сторону экземпляров Датасет снабжен документацией с описанием структуры объектов~~, которые покрывают большую область изображения. В уличных сценах~~ и методами взаимодействия с ~~их сильным изменением масштаба это может быть проблематично.Чтобы решить эту проблему~~ними, ~~создатели датасета дополнительно оценивают семантическую маркировку, используя метрику пересечения~~ всю необходимую информацию по ~~объединению на уровне экземпляра {{---}}<math>iIoU = \dfrac{iTP}{iTP + FP + iFN}</math>~~датасету, ~~где <math>iTP</math>, <math>FP</math>~~ как и ~~<math>iFN</math> обозначают количество истинно положительных~~сами исходники, ложноположительных и ложно отрицательных пикселей соответственно. Сейчас лучшей нейронной сетью для этого набора данных в задаче семантической сегментации данных является можно получить по [~~https~~http://~~www~~human-pose.~~cityscapes~~mpi-~~dataset~~inf.~~com~~mpg.de/~~benchmarks/#scene-labeling-task DAHUA-ARI~~ссылке], которая позволяет достичь индекс Жаккара 85.8% и iIoU 70.6% для классов, индекс Жаккара 93.2% и iIoU 85.4% для категорий, соответственно.

==См.также==

Анонимный участник

94.29.124.140

Изменения

Известные наборы данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты