Изменения

Перейти к: навигация, поиск

Известные наборы данных

20 854 байта добавлено, 15:06, 8 апреля 2021
Код
| 30
| не описано
|-
| ICDAR 2017 "COCO Text"
| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, присутствует текст
| 63686 изображений, 43686 {{---}} обучающая выборка,10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая
| 173589 слов
| не описано
|-
| Pointing'04
| Изображения лиц людей с разными углами поворота и наклона
| 15 сетов по 186 изображений в каждом
| 93
| 7.9% <ref>https://www.researchgate.net/publication/221125207_Generalized_subspace_based_high_dimensional_density_estimation</ref>
|-
| FASSEG
| Изображения лиц людей с разными углами поворота, как в оригинале, так и в сегментированном виде
| Часть frontal01: 70, часть frontal02: 70, часть multipose01: 200
| frontal01 и frontal02 {{---}} разделяют изображение на 6 различных сегментов, multipose01 {{---}} 13 углов поворота
| 7.73% <ref>https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf</ref> для сегментации, 22.6% <ref>https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf</ref> для определения поз
|-
| MPI
| Изображения повседневной деятельности людей в различных позах
| 25 тысяч
| 410
| ~10% <ref>http://human-pose.mpi-inf.mpg.de/#results</ref>
|}
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
iris=load_iris()
X = iris.data
Y = iris.target
X, Y = shuffle(X, Y)
n = len(iris.data)
train = n // 2
2 0.88 0.96 0.92 23
avg / total 0.95 0.95 0.95 75
 
==MNIST==
===Описание===
[[Файл:MnistExamples.png|мини|Рисунок 1. Примеры изображений из датасета MNIST [https://en.wikipedia.org/wiki/MNIST_database#/media/File:MnistExamples.png Оригинал]]]
Набор данных MNIST {{---}} большой (порядка 60 000 тренировочных и 10 000 проверочных объектов, помеченных на принадлежность одному из десяти классов {{---}} какая цифра изображена на картинке) набор картинок с рукописными цифрами, часто используемый для тестирования различных алгоритмов распознавания образов. Он содержит черно-белые картинки размера 28x28 пикселей, исходно взятые из набора образцов из бюро переписи населения США, к которым были добавлены тестовые образцы, написанные студентами американских университетов. На рисунке 1 представлены примеры рукописных цифр из данного датасета.
===Результаты===
===Код===
Простой пример, скачивающий набор данных и запускающий на нем один из классификаторов. Даже с уменьшением набора данных в сто раз и не самым подходящим классификатором точность выше половины угаданных цифр {{---}} заметно лучше, чем случайная разметка. С результатом работы данного кода можно ознакомиться на рисунке 2.
from sklearn.datasets import fetch_mldatafetch_openml
from numpy import arange
import random
from sklearn import datasets, svm, metrics
[[Файл:Mnist-predict.png|мини|Рисунок 2. Результат работы классификатора]]
mnist = fetch_mldatafetch_openml('MNIST originalMNIST_784')
indices = arange(len(mnist.data))
randidx = random.sample(list(indices), 500)
expected = Y[train:]
predicted = clf.predict(X[train:])
print("Classification report for classifier %s:\n%s\n" % (clf, metrics.classification_report(expected, predicted)))
digit precision recall f1-score support
===Описание===
[[Файл:Cifar-10.png|мини|Рисунок 3. Примеры изображений из датасета CIFAR-10 [https://medium.com/@jannik.zuern/training-a-cifar-10-classifier-in-the-cloud-using-tensorflow-and-google-colab-f3a5fbdfe24d Источник]]]CIFAR-10 (Canadian Institute For Advanced Research) {{---}} еще один большой набор изображений, который обычно используется для тестирования алгоритмов машинного обучения. Он содержит 60 000 цветных картинок размером 32х32 пикселя, размеченных в один из десяти классов: самолеты, автомобили, коты, олени, собаки, лягушки, лошади, корабли и грузовики. В наборе данных по 6000 картинок каждого класса, примеры некоторых из них приведены на рисунке 3. CIFAR-10 является размеченным подмножеством заметно большего набора данных, состоящего примерно из восьмидесяти миллионов изображений.
===Результаты===
===Описание===
[[Файл:Imagenet.png|мини|Рисунок 4. Пример разметки объектов в датасете ImageNet [http://www.image-net.org/challenges/LSVRC/2014/ Источник]]]
База данных Imagenet {{---}} проект по созданию и сопровождению массивной базы данных аннотированных изображений. Аннотация изображений происходит путем краудсорсинга сообществом. Из-за этого достигается большое количество размеченных данных.
Особенность данного набора данных {{---}} про каждую картинку известно несколько фактов вида "в этом прямоугольнике есть автомобиль"(см. рис. 4), что в совокупности с индексом по типам объектов, которые есть на изображениях, позволяет обучить алгоритм для распознавания объектов какой-то конкретной категории. На август 2017 года в ImageNet 14 197 122 изображения, разбитых на 21 841 категорию.
===Imagenet Challenge===
[[Файл:Imagenet-contest.png|мини|Рисунок 5. Лучшие результаты на Imagenet Challenge за различные годы [https://en.wikipedia.org/wiki/File:ImageNet_error_rate_history_(just_systems).svg Оригинал]]]
Вместе с публикацией набора данных стартовал конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC<ref>http://www.image-net.org/challenges/LSVRC/[http://www.image-net.org/challenges/LSVRC/]</ref>). В его рамках участникам предлагается достигнуть наибольшей точности при классификации набора изображений. Организаторы использовали около тысячи различных категорий объектов, которые нужно классифицировать. На примере этого конкурса хорошо видно, как в 2010-е годы люди научились заметно лучше распознавать образы на изображениях, уже в 2017 году большинство участвующих команд преодолели порог в 95% правильных ответов. История улучшения результатов представлена на рисунке 5. Эта задача, проблема компьютерного зрения, имеет огромное практическое значение во многих прикладных областях.
==ADE20K==
===Описание===
[[Файл:ADE20K_merged.png|мини|300px|Рисунок 6. Изображение из ADE20K и его разбиение на части.]]ADE20K {{---}} набор изображений с размеченными сущностями, который хорошо подходит для задачи [[Сегментация изображений|семантической сегментации данных]] в компьютерном зрении, пример разметки приведен на рисунке 6. Особенность этого набора состоит в том, что кроме объектов приводится также информация об их составных частях: например, если на изображении находится человек, то в дополнение к местоположению его фигуры будет также приведено положение его глаз и носа.
Подобные наборы данных часто страдают от несогласованности меток при их разметке сообществом. Для ADE20K эта проблема была решена {{---}} все изображения размечал только один человек, что обусловило высокую согласованность меток.
===Описание===
[[Файл:Coco-examples.jpg|мини|400px| Рисунок 7. Пример изображений из MS Coco [http://cocodataset.org/images/coco-examples.jpg Оригинал]]]
MS COCO (англ. ''Common Objects in Context'') {{---}} большой набор изображений. Состоит из более чем 330000 изображений (220000 {{---}} размеченных), с более чем 1.5 милионов объектов на них. Примеры изображений приведены на рисунке 7. Все объекты находятся в их естественном окружении (контексте). Изображения, как правило, содержат объекты разных классов (только 10% имеют единственный класс). Все изображения сопровождаются аннотациями, хранящихся в json формате. Подробнее о структуре аннотаций можно прочитать [http://cocodataset.org/#format-data здесь].
COCO имеет пять типов аннотаций для разных задач:
Более подробно с метриками можно ознакомиться [http://cocodataset.org/#detection-leaderboard здесь].
Приведем лишь результаты детектора [https://arxiv.org/abs/1512.03385 ResNet] (bbox) - победителя 2015 Detection Challenge.
Графики , изображенные на рисунках 8 и 9, представляют из себя семейство кривых Pressision Recall для различных метрик.
{|align="center"
|-valign="top"
|[[Файл:Detection-analysis-person.jpg|мини|Рисунок 8. PR кривые для класса "Person" [http://cocodataset.org/images/detection-analysis-person.jpg оригиналОригинал]]] |[[Файл:Detection-analysis-all.jpg|мини|Рисунок 9. Усредненные значения для всех классов [http://cocodataset.org/images/detection-analysis-all.jpg оригиналОригинал]]]
|}
plt.show()
[[Файл:Coco-1.png |мини| center| Рисунок 10. Пример изображения из датасета COCO [https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoDemo.ipynb оригиналОригинал]]]
# load and display instance annotations
coco.showAnns(anns)
[[Файл:Coco-2.png|мини|center| Рисунок 11. Пример обнаруженного объекта [https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoDemo.ipynb оригиналОригинал]]]
==Fashion-MNIST==
===Описание===
[[Файл:FMNIST.png|мини|Рисунок 12. Пример изображений из Fashion-MNIST]]Fashion-MNIST {{---}} это набор изображений, взятых из статей [https://jobs.zalando.com/en/tech/?gh_src=nevh2y1 Zalando], состоящий из обучающего набора из 60000 примеров и тестового набора из 10000 примеров. Каждый пример представляет собой черно-белое изображение 28x28(см. рис. 12), связанное с меткой из 10 классов. Создатели Fashion-MNIST предложили его в качестве прямой замены исходного набора данных MNIST, состоящего из рукописных цифр, для сравнительного анализа алгоритмов машинного обучения. Он имеет одинаковый размер изображения и структуру разделений для обучения и тестирования. Аргументировали необходимость такой замены тем, что исходный набор данных MNIST действительно хорошо отражает возможность алгоритма хоть что-то классифицировать, но если алгоритм работает на стандартном MNIST, он все равно может не сработать на других примерах данных. Также на наборе данных MNIST научились достигать слишком высоких результатов точности (97% для классических алгоритмов машинного обучения и 99.7% для сверточных нейронных сетей), в то время как MNIST не отражает современных сложных проблем компьютерного зрения. Это позволило сделать предположение о том, что набор данных MNIST слишком простой по современным меркам и его требуется заменить.
===Результаты===
==Caltech-UCSD Birds 200 (CUB)==
[[Файл:cub_dataset_logo.jpg |мини|Рисунок 13. Пример изображений из CUB [http://www.vision.caltech.edu/visipedia/collage.jpg Оригинал]]]
===Описание===
Caltech-UCSD Birds 200 {{---}} это набор данных, содержащий изображения птиц. Данный набор включает в себя фотографии 200 видов птиц (. Большинство видов птиц, представленных в основном североамериканских)наборе данных, являются североамериканскими. Общее количество категорий птиц составляет 200, в . В набор данных 2010 года влючены включены 6033 изображения, а в набор данных 2011 года {{- --}} 11 788 изображений, некоторые из них приведены на рисунке 13.
===Поиск и аннотация изображений===
Изображения для набора данных были загружены получены с сайта [https://www.flickr.com/ Flickr ] и отфильтрованы сотрудниками с помощью [https://www.mturk.com/ Amazon Mechanical Turk]. Каждое изображение аннотировано ограничивающей рамкойграницей области, содержащей птицу, грубой сегментацией птиц и , набором меток атрибутови текстовым описанием. Примеры аннотированных изображений представлены на рисунке 14.
{|align="center"
|-valign="top"
|[[Файл:birds_annotations.png |800pxмини|600px|Рисунок 14. Изображения и аннотации из CUB-200[https://www.researchgate.net/profile/Serge_Belongie/publication/46572499/figure/fig1/AS:669472046206977@1536625982259/Images-and-annotations-from-CUB-200-Each-example-image-is-shown-with-a-rough-outline.png Оригинал]]]
|}
==102 Category Flower==
===Описание===
[[Файл:flowers-examples.jpg|мини| Рисунок 15. Примеры изображений из Oxford Flowers 102[https://www.researchgate.net/profile/Zhiwu_Lu2/publication/318204948/figure/fig7/AS:512607066439687@1499226456587/Examples-of-images-in-the-Oxford-Flower-102-Dataset-Corresponding-categories-are-given.png Оригинал]]]Oxford Flowers 102 {{---}} набор данных, состоящий из цветов, встречающихся в Соединенном Королевстве. Набор стоит состоит из 102 видов цветов. Каждый вид представлен изображениями в количестве и содержит от 40 до 258изображений каждого вида. Изображения имеют крупный масштабПримеры изображений из данного датасета приведены на рисунке 15. Цветы представлены в различных ракурсах и вариациях освещения. Кроме того, в наборе присутствуют виды цветов очень похожие тяжело отличимые друг от друга. Графы соседства цветков по различным признакам представлены на другарисунках 16 и 17.
Набор данных делится на обучающий набор, проверочный набор и тестовый наборы. Каждый обучающий и проверочный наборы состоят из 10 изображений на класс (всего 1020 изображений каждый). Тестовый набор состоит из оставшихся 6149 изображений (минимум 20 изображений на класс).
{|align="center"
|-valign="top"
|[[Файл:cad_Shapeiso.jpg|мини| Рисунок 16. Граф соседства по форме [https://www.robots.ox.ac.uk/~vgg/data/flowers/102/shapeiso.jpg Оригинал]]] |[[Файл:cad_Colouriso.jpg|мини|Рисунок 17. Граф соседства по свету цвету [https://www.robots.ox.ac.uk/~vgg/data/flowers/102/colouriso.jpg Оригинал]]]
|}
==Visual Genome==
[[Файл:Visual_Genome_учфьзду.png|мини| 600px|Рисунок 18. Результат визуализации[http://visualgenome.org/api/v0/region_visualization_demo/ Оригинал]]]
===Описание===
Visual Genome {{---}} это набор данных, связывающий изображения с словестным со словесным описанием их содержимого. Является черпывающим исчерпывающим набором данных для обучения и тестирования моделей компьютерного зрения, обеспечивает многослойное понимание картинокобширный анализ изображений с учетом зависимостей между объектами. Это позволяет многосторонне изучать изображениеиспользовать набор данных для решения большого количества различных задач: от информации на уровне пикселейпоиск объектов, такой как объекты, до поиск отношений, требующих дальнейшего вывода, и даже более глубокие задачи, такие как ответы связанные с ответами на вопросы.
Набор Изображение часто представляет сложную картину, которую невозможно полностью раскрыть одним предложением. Существующие наборы данных содержит более 108К изображений, каждое из которых изображение имеет такие как Flickr 30K, ориентированы на высокоточное описание всего изображения в среднем 35 объектов, 26 атрибутов и 21 парное отношение между объектамицелом. Мы канонизируем объекты, атрибуты, отношения и словосочетания Вместо этого для каждого изображения в описаниях Visual Genome собираются более 50 описаний для разных регионов и пары вопрос-ответ в WordNet синсеты. Вместе эти аннотации представляют самый плотный и самый большой изображения, обеспечивая тем самым намного более полный набор данных с описаниями изображений, объекты, атрибуты, отношения и вопрос-ответ парыописаний.
Изображение часто представляет сложную картинуНабор данных содержит более 108К изображений, каждое из которых имеет в среднем 35 объектов, которую невозможно полностью раскрыть одним предложением26 атрибутов и 21 парное отношение между объектами. Существующие наборы В данном наборе данныхпроисходит преобразование объектов, такие как Flickr 30Kатрибутов, ориентированы на высокоточное описание изображенияотношений и словосочетаний в описаниях регионов и пар вопрос-ответ в синсеты из [https://ru. Вместо этого wikipedia.org/wiki/WordNet WordNet]. Cинсет {{---}} это набор данных, элементы в котором считаются семантически эквивалентными для каждого изображения в поиска или восстановления информации. Visual Genomeявляется самым большим набором данных с описаниями изображений, собираются более 50 описаний для разных регионов изображенияобъектов, атрибутов, обеспечивая намного более полный набор описаний сценариевотношений и пар вопрос-ответ.
===Код===
plt.show()
visualize_regions(image, regions[:8])
Результат работы кода представлен на рисунке 18.
==CelebA==
[[Файл:CelebA.jpg|мини|Рисунок 19. Пример изображений из CelebA [http://mmlab.ie.cuhk.edu.hk/projects/CelebA/overview.png Оригинал]]]
===Описание===
CelebA (англ. CelebFaces Attributes Dataset) {{---}} это крупномасштабный набор данных атрибутов лиц, содержащий более 200 тысяч изображений знаменитостей(см. рис. 19). Изображения в этом наборе данных охватывают большие вариации поз и беспорядок на фонелица людей с разных ракурсов. CelebA имеет большое разнообразие, большое количество и богатые аннотацииБолее подробная характеристика датасета: 10 177 уникальных личностей, 202 599 изображений лиц и 5 ориентиров, 40 бинарных аннотаций атрибутов на изображение. Эти данные были первоначально собраны исследователями из MMLAB<ref>http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html[http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html]</ref>, Китайского университета Гонконга.
Набор данных можно использовать в качестве обучающих и тестовых наборов для следующих задач [[Компьютерное зрение|компьютерного зрения]]: распознавание атрибутов лица, обнаружение лиц и локализация ориентиров (или части лица).
===Пример атрибутов===
Ниже приведен пример некоторых список бинарных атрибутов в CelebA, где отдельный атрибут {{---}} одна из характеристик лица. Оригинал примера доступен [https://towardsdatascience.com/celeba-attribute-prediction-and-clustering-with-keras-3d148063098d здесь].
Более подробно со всеми атрибутами можно ознакомиться [https://www.tensorflow.org/datasets/catalog/celeb_a здесь]
 
{| class="wikitable"
|-
! Идентификатор изображенияИндекс атрибута! Короткая Наименование! Пояснение|-| 1| 5oClockShadow| щетина, появшившаяся в течение дня|-| 2| ArchedEyebrows| изогнутые брови|-| 3| Attractive| привлекательный/ая|-| 4! Круги | BagsUnderEyes| мешки под глазами! Лысый|-| 5| Bald| лысый|-| 6| Bangs| челка|-| 7! Челка| BigLips! Большие | большие губы! Большой |-| 8| BigNose| большой нос|-| 9| BlackHair| темные волосы|-| 10| BlondHair| блондинистые волосы|-| 11| Blurry| размытый|-| 12| BrownHair | русые волосы|-| 13| BushyEyebrows| густые брови|-| 14| Chubby| полный|-| 15| DoubleChin| второй подбородок|-| 16| Eyeglasses| очки|-| 17| Goatee| козлиная бородка/эспаньолка|-| 18| GrayHair| седые волосы|-| 19| HeavyMakeup| много макияжа|-| 20| HighCheekBones| высокие скулы|-| 21| Male| мужчина|-| 22| MouthSlighltyOpen| слегка приоткрытый рот|-| 23| Mustache| усы|-| 24| NarrowEyes| узкий разрез глаз|-| 25| NoBeard| отсутствет борода|-| 26| OvalFace| овальное лицо|-| 27| PaleSkin| бледная кожа|-| 28| PointyNose| заостренный нос! Темные |-| 29| RecedingHairline| залысина|-| 30| RosyCheeks| розовые щеки|-| 31| Sideburns| бакенбарды|-| 32| Smiling| улыбка|-| 33| StraightHair| прямые волосы|-| 34| WavyHair| волнистые волосы|-| 35| WearingEarrings| присутствует серьга/серьги|-| 36| WearingHat| присутствует шляпа|-| 37| WearingLipstick| накрашены губы
|-
| 146596.jpg38| 0WearingNecklace| 0| 0| 0| 0| 0| 0присутствует ожерелье
|-
| 027415.jpg39| 0WearingNecktie| 0| 0| 0| 1| 0| 1присутствует галстук
|-
| 031426.jpg40| 0Young| 0| 0 | 1| 1| 1| 1молодой/ая
|}
==CityScapes==
[[Файл:CityscapesZuerich.jpg|мини|Рисунок 20. Пример изображения из CityScapes [https://www.cityscapes-dataset.com/examples/ источникИсточник]]]
===Описание===
CityScapes<ref>https://www.cityscapes-dataset.com/</ref> {{---}} это набор данных, состоящий из разнообразных городских уличных сцен в 50 разных городах в разное время года. Данный набор хорошо подходит для задач компьютерного зрения, таких как: [[Сегментация изображений|семантическая сегментация данных]], сегментация на уровне экземпляра и вывод несоответствия стереопар. Пример изображения из данного датасета представлен на рисунке 20.
===Структура данных <ref>https://www.cityscapes-dataset.com/dataset-overview/#features</ref>===
===Результаты===
Основной метрикой для этого набора данных является [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]]. Также, хорошо известно, что глобальная мера [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Ыеиндекса Жаккара]] смещена в сторону экземпляров объектов, которые покрывают большую область изображения. В уличных сценах с их сильным изменением масштаба это может быть проблематично.Чтобы решить эту проблему, создатели датасета дополнительно оценивают семантическую маркировку, используя метрику пересечения по объединению на уровне экземпляра {{---}}<math>
iIoU = \dfrac{iTP}{iTP + FP + iFN}
</math>, где <math>iTP</math>, <math>FP</math> и <math>iFN</math> обозначают количество истинно положительных, ложноположительных и ложно отрицательных пикселей соответственно. Сейчас лучшей нейронной сетью для этого набора данных в задаче семантической сегментации данных является [https://www.cityscapes-dataset.com/benchmarks/#scene-labeling-task DAHUA-ARI], которая позволяет достичь индекс Жаккара 85.8% и iIoU 70.6% для классов, индекс Жаккара 93.2% и iIoU 85.4% для категорий, соответственно.
==СмICDAR==[[Файл:ICDAR2017.png|мини|Рисунок 21. Пример изображения из датасета ICDAR2017 Competition on Multi-lingual Scene Text Detection and Script Identification (MLT) [https://arxiv.org/pdf/1812.05219.pdf Источник]]]===Описание===ICDAR<ref>https://rrc.cvc.uab.es/</ref> (англ. International Conference on Document Analysis and Recognition) {{---}} это международная конференция по анализу и распознаванию текста и одноименное семейство набора данных, состоящее из фотографий (см. рис. 21, 22 и 23), на которых изображен текст на разных языках. Данные наборы создаются для соревнований RRC (англ. Robust Reading Competition), где требуется решить следующие задачи: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание, распознавание скриптов, ответы на вопросы, связанные с изображениями.такжеНиже приведен анализ наборов данных ICDAR2013, ICDAR2015, ICDAR2017, ICDAR2019. ===ICDAR 2013==='''ICDAR 2013 "Born Digital Images"''' {{---}} датасет, который содержит изображения, извлеченные с веб-страниц и сообщений электронной почты. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов. '''ICDAR 2013 "Focused Scene Text"''' {{---}} датасет c изображениями с текстом на вывесках, логотипах и так далее. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов.  {| class="wikitable"|-! Наименование датасета! Количество объектов! Количество обучающих объектов! Количество тестовых объектов! Количество слов! Количество обучающих слов! Количество тестовых слов|-* | ICDAR 2013 "Born Digital Images"| 561| 420 | 141 | 5003| 3564| 1439|-| ICDAR 2013 "Focused Scene Text" | 462| 229 | 233 | 1943| 848 | 1095 |} <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARBDI.png|thumb|alt=ICDAR "Born Digital Images"|x200px|center|Рисунок 22. ICDAR "Born Digital Images". [Общие понятияhttps://arxiv.org/pdf/1812.05219.pdf Источник]]]</div> * <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARFST2.png|x150px|center|thumb|Рисунок 23. ICDAR "Focused Scene Text". [Сегментация изображенийhttps://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>    ===ICDAR 2015==='''ICDAR 2015 "Born Digital Images"''' {{---}} датасет, который содержит изображения, извлеченные с веб-страниц и сообщений электронной почты. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание . '''ICDAR 2013 "Focused Scene Text"''' {{---}} датасет c изображениями с текстом на вывесках, логотипах и так далее. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов , сквозное распознавание. '''ICDAR 2015 "Incidental Scene Text"''' {{---}} датасет c изображениями, на которых текст попал в поле зрения камеры Google Glass случайно<ref>https://rrc.cvc.uab.es/?ch=4</ref>. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов , сквозное распознавание. {| class="wikitable"|-! Наименование датасета! Количество объектов! Количество обучающих объектов! Количество тестовых объектов! Количество слов! Количество обучающих слов! Количество тестовых слов|-| ICDAR 2015 "Born Digital Images"| 561| 420 | 141 | 5003| 3564| 1439|-| ICDAR 2015 "Focused Scene Text" | 462| 229 | 233 | 1943| 848 | 1095 |-| ICDAR 2015 "Incidental Scene Text" | 1670 (1500 публичных)| 1000| 500| 17548| -| - |} * <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARIST.png |x150px|center|thumb|Рисунок 24. ICDAR "Incidental Scene Text". [Задача нахождения https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div> ===ICDAR 2017=== '''ICDAR 2017 "COCO-Text"''' {{---}} набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст. Текст на изображениях на английском, немецком, французском и других языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, распознавание символов , сквозное распознавание. '''ICDAR 2017 "Multi-lingual Scene Text"''' {{---}} набор данных, где собраны изображения с текстом на 9 языках. Текст на изображениях на арабском, английском, немецком, бенгальском, китайском, японском, французском, корейском языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста. '''ICDAR 2017 "French Street Name Signs"''' {{---}} набор данных с изображениями, на которых есть названия французских улиц. Текст на изображениях на французском языке. Датасет предназначен для следующих задач оптического распознавани символов: сквозное распознавание. {| class="wikitable"|-! Наименование датасета! Количество объектов! Количество обучающих объектов! Количество тестовых объектов ! Количество слов! Количество обучающих слов! Количество тестовых слов|-| ICDAR 2017 "COCO-Text"| 63686| 43686 | 10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая| 173589| -| -|-| ICDAR 2017 "Multi-lingual Scene Text" | 18 000| - | - | 107 547(тренировочные + валидирующие слова)| - | -|-| ICDAR 2017 "French Street Name Signs" | 1 081 422, где каждое изображение содержит до 4 объектов с названией улицы| -| -| -| - | - |} <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARCOCO.png |x250px|center|thumb|Рисунок 25. ICDAR "COCO-Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div> <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARMSTD.png |x250px|center|thumb|Рисунок 26. ICDAR "Multi-lingual Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div> <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARFS2.png |x150px|center|thumb|Рисунок 27. ICDAR "French Street Name Signs". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div> ===ICDAR 2019=== '''ICDAR 2019 "COCO-Text"''' {{---}} набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст. Текст на изображениях на английском, немецком, французском и других языках. Датасет предназначен для следующих задач оптического распознавани символов: сквозное распознавание. '''ICDAR 2019 "Multi-lingual Scene Text"''' {{---}} набор данных, где собраны изображения с текстом на 10 языках. Текст на изображениях на арабском, английском, деванагари, немецком, бенгальском, китайском, японском, французском, корейском языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, идентификация скрипта, сквозное распознавание. '''ICDAR 2019 "Scene Text Visual Question Answering"''' {{---}} набор данных, включающий 23 038 изображений с 31 791 парой вопросов и ответов, где ответ всегда основан на присутствующих текстовых экземплярах на изображении. Текст на изображениях на янглийском языке. Датасет предназначен для следующих задач оптического распознавани символов: ответ на вопрос, связанный с изображением.  {| class="wikitable"|-! Наименование датасета! Количество объектов! Количество обучающих объектов! Количество тестовых объектов! Количество слов! Количество обучающих слов! Количество тестовых слов|-| ICDAR 2019 "COCO-Text"| 63686| 43686 | 10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая| 173589| -| -|-| ICDAR 2019 "Multi-lingual Scene Text"<ref>https://arxiv.org/pdf/1907.00945.pdf</ref>| 20 000 (2 000 для каждого языка) + 277 000 сгенерированных изображения| 10 000| 10 000 | -| - | -|-| ICDAR 2019 "Scene Text Visual Question Answering" | 23 038| -| -| -| -| - | - |} <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDAR2019Sample.png |x1400px|center|thumb|Рисунок 28. ICDAR 2019 "Scene Text Visual Question Answering". [https://arxiv.org/pdf/1907.00490.pdf Источник]]]</div> ==Pointing'04== ===Описание=== Pointing'04 <ref>http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf</ref> {{---}} база данных изображений лиц в разных положениях для 15-ти человек. Для каждого человека представлено 93 положения головы, при этом каждая фотография предложена в двух вариантах освещения и масштаба (две разные сессии). Снимки, сделанные во время первого сеанса, используются в качестве обучающих данных, а изображения из второго сеанса используются в качестве данных тестирования. 93 положения включают комбинации 13-и вариантов поворота и 7-и вариантов наклона вместе с двумя крайними случаями наклона при отсутствии поворота. ===Пример сета изображений=== {|align="center" |-valign="top" |[[Файл:Pointing.png|600px|thumb|Рисунок 29. Пример сета изображений Pointing'04 [https://www.researchgate.net/publication/221545772_Evaluation_of_Head_Pose_Estimation_for_Studio_Data Источник]]] |} ==FASSEG== ===Описание=== Репозиторий FASSEG <ref>http://massimomauro.github.io/FASSEG-repository/</ref> (англ. FAce Semantic SEGmentation ) состоит из двух наборов данных (Frontal01 и Frontal02) для сегментации лиц в фронтальном положении и одного набора данных (Multipose01) с лицами в нескольких определенных положениях. Frontal01 содержит 70 сегментированных изображений лиц и исходные изображения RGB. Исходные лица в основном взяты из наборов данных [http://cbcl.mit.edu/software-datasets/FaceData2.html MIT-CBCL] и [http://www.fei.edu.br/~cet/facedatabase.html FEI]. Frontal02 {{---}} это «высокоточный» Frontal01. Он содержит те же изображения, что и Frontal01, но с гораздо более точной сегментацией. Multipose01 содержит более 200 размеченных лиц в 13-ти положениях с углом поворота от -90 градусов до 90 градусов включительно. Исходные лица взяты из базы данных [http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf Pointing'04]. ===Сегментация=== {|align="right" |-valign="top" |[[Файл:FASSEG3.png|300px|thumb|Рисунок 30. Сегментация изображения [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf Источник]]] |} Изображение размечается на 6 сегментов (см. рис. 30):*глаза;*нос;*рот;*волосы (вместе с бровями);* фон изображения;*кожа. ===Примеры изображений===  {|align="center" |-valign="top" |[[Оценка качества в задачах классификации Файл:FASSEG1.png|300px|thumb|Рисунок 31. Пример изображений из датасетов Frontal01 и регрессииFrontal02 [https://raw.githubusercontent.com/massimomauro/FASSEG-dataset/master/other/V1V2_diff.png Оригинал]]] |[[Файл:FASSEG2.png|400px|thumb|Рисунок 32. Пример изображений из датасета Multipose01 [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf Источник]]] |} ==MPI==
==ICDAR==
[[Файл:ICDAR2017.png|мини|Пример изображения из датасета ICDAR2017 Competition on Multi-lingual Scene Text Detection and Script Identification (MLT) [https://arxiv.org/pdf/1812.05219.pdf источник]]]
===Описание===
ICDAR<ref>https://rrc.cvc.uab.es/</ref> (англ. International Conference on Document Analysis and Recognition) {{---}} это международная конференция по анализу и распознаванию текста и одноименное семейство набора данных, состоящее из фотографий, на которых изображен текст на разных языках. Данные наборы создаются для соревнований ICDAR, где требуется решить следующие задачи: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание.
==ICDAR 2013==MPI Human Pose <ref>http://human-pose.mpi-inf.mpg.de/</ref> (англ. Max Planck Institute) {{---}} это набор данных, позволяющий определять различные виды активности человека по позам на изображениях и аннотациям к ним. Набор данных включает около 25 тысяч изображений, содержащих более 40 тысяч людей с указанным положением отдельных частей тела. Изображения систематически собирались с использованием установленной таксономии повседневной деятельности человека. В целом набор данных охватывает 410 видов деятельности человека, каждое изображение снабжено меткой активности. Каждое изображение было извлечено из видео с YouTube и снабжено предшествующими и последующими кадрами без аннотации. Кроме того, для тестового набора приложены более детальные аннотации, включая сгибы частей тела и ориентации туловища и головы.
ICDAR 2013 {{---}} набор данных включает изображения, извлеченные с веб-страниц ===Структура датасета и сообщений электронной почты. В датасете содержится репрезентативная выборка веб-страниц различных категорий (новости, личные, коммерческие, социальные, правительственные и т.д.), а также электронные письма разного типа (спам, информационные бюллетени и т.д.) на трех языках {{---}} Английский, Испанский, Французский, в пропорциях, которые отражают их использование в реальном мире. Размер набора данных составляет 561 изображение с минимальным размером 100x100 пикселей. Коллекция была разделена на обучающий набор из 420 примеры изображений и тестовый набор из 141 изображения. Для задачи распознавания слов учитывались только слова длиной от 3 символов. Набор данных содержит 5003 таких слова, из которых 3564 составляют обучающий набор, а 1439 {{---}} тестовый.===
{|align="right" |-valign==Структура данных <ref>https"top" |[[Файл: MPI1.jpg|500px|thumb|Рисунок 33. Пример изображений из подкласса датасета MPI [http://wwwhuman-pose.cityscapesmpi-datasetinf.mpg.comde/#dataset-overview/#features</ref>===Источник]]] |} Всего в наборе данных находится 25 000 изображенийДатасет представлен двадцатью различными классами активности: езда на велосипеде, упражнения, танцы, рыбалка и охота, домашняя активность, ремонт, отдых, активность на природе, игра на музыкальных инструментах, религиозная деятельность, бег, самоуход, из них 5000 составляют набор с более детальными аннотациями изображений с разрешением 1024 * 2048спорт, предварительно разделенных передвижение на наборы для обучения {{---}} 2975транспорте, волонтерство, прогулки, проверки {{---}} 500 и тестирования {{---}} 1525. Оставшиеся 20 000 изображений имеют грубые аннотацииактивность на воде, позволяющие применять методызимние виды активности, использующие большие объемы данных со слабой маркировкойразное.
===Результаты===Каждый класс также разделен на уникальные подклассы. Пример такого разделения приведен на рисунке 33.
Основной метрикой для этого набора данных является [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]]. Также, хорошо известно, что глобальная мера [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]] смещена в сторону экземпляров Датасет снабжен документацией с описанием структуры объектов, которые покрывают большую область изображения. В уличных сценах и методами взаимодействия с их сильным изменением масштаба это может быть проблематично.Чтобы решить эту проблемуними, создатели датасета дополнительно оценивают семантическую маркировку, используя метрику пересечения всю необходимую информацию по объединению на уровне экземпляра {{---}}<math>iIoU = \dfrac{iTP}{iTP + FP + iFN}</math>датасету, где <math>iTP</math>, <math>FP</math> как и <math>iFN</math> обозначают количество истинно положительныхсами исходники, ложноположительных и ложно отрицательных пикселей соответственно. Сейчас лучшей нейронной сетью для этого набора данных в задаче семантической сегментации данных является можно получить по [httpshttp://wwwhuman-pose.cityscapesmpi-datasetinf.commpg.de/benchmarks/#scene-labeling-task DAHUA-ARIссылке], которая позволяет достичь индекс Жаккара 85.8% и iIoU 70.6% для классов, индекс Жаккара 93.2% и iIoU 85.4% для категорий, соответственно.
==См.также==
Анонимный участник

Навигация