Изменения

Перейти к: навигация, поиск

Известные наборы данных

8866 байт добавлено, 19:27, 4 сентября 2022
м
rollbackEdits.php mass rollback
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
iris=load_iris()
X = iris.data
Y = iris.target
X, Y = shuffle(X, Y)
n = len(iris.data)
train = n // 2
2 0.88 0.96 0.92 23
avg / total 0.95 0.95 0.95 75
 
==MNIST==
===Описание===
[[Файл:MnistExamples.png|мини|Рисунок 1. Примеры изображений из датасета MNIST [https://en.wikipedia.org/wiki/MNIST_database#/media/File:MnistExamples.png Оригинал]]]
Набор данных MNIST {{---}} большой (порядка 60 000 тренировочных и 10 000 проверочных объектов, помеченных на принадлежность одному из десяти классов {{---}} какая цифра изображена на картинке) набор картинок с рукописными цифрами, часто используемый для тестирования различных алгоритмов распознавания образов. Он содержит черно-белые картинки размера 28x28 пикселей, исходно взятые из набора образцов из бюро переписи населения США, к которым были добавлены тестовые образцы, написанные студентами американских университетов. На рисунке 1 представлены примеры рукописных цифр из данного датасета.
===Результаты===
===Код===
Простой пример, скачивающий набор данных и запускающий на нем один из классификаторов. Даже с уменьшением набора данных в сто раз и не самым подходящим классификатором точность выше половины угаданных цифр {{---}} заметно лучше, чем случайная разметка. С результатом работы данного кода можно ознакомиться на рисунке 2.
from sklearn.datasets import fetch_mldatafetch_openml
from numpy import arange
import random
from sklearn import datasets, svm, metrics
[[Файл:Mnist-predict.png|мини|Рисунок 2. Результат работы классификатора]]
mnist = fetch_mldatafetch_openml('MNIST originalMNIST_784')
indices = arange(len(mnist.data))
randidx = random.sample(list(indices), 500)
expected = Y[train:]
predicted = clf.predict(X[train:])
print("Classification report for classifier %s:\n%s\n" % (clf, metrics.classification_report(expected, predicted)))
digit precision recall f1-score support
===Описание===
[[Файл:Cifar-10.png|мини|Рисунок 3. Примеры изображений из датасета CIFAR-10 [https://medium.com/@jannik.zuern/training-a-cifar-10-classifier-in-the-cloud-using-tensorflow-and-google-colab-f3a5fbdfe24d Источник]]]CIFAR-10 (Canadian Institute For Advanced Research) {{---}} еще один большой набор изображений, который обычно используется для тестирования алгоритмов машинного обучения. Он содержит 60 000 цветных картинок размером 32х32 пикселя, размеченных в один из десяти классов: самолеты, автомобили, коты, олени, собаки, лягушки, лошади, корабли и грузовики. В наборе данных по 6000 картинок каждого класса, примеры некоторых из них приведены на рисунке 3. CIFAR-10 является размеченным подмножеством заметно большего набора данных, состоящего примерно из восьмидесяти миллионов изображений.
===Результаты===
===Описание===
[[Файл:Imagenet.png|мини|Рисунок 4. Пример разметки объектов в датасете ImageNet [http://www.image-net.org/challenges/LSVRC/2014/ Источник]]]
База данных Imagenet {{---}} проект по созданию и сопровождению массивной базы данных аннотированных изображений. Аннотация изображений происходит путем краудсорсинга сообществом. Из-за этого достигается большое количество размеченных данных.
Особенность данного набора данных {{---}} про каждую картинку известно несколько фактов вида "в этом прямоугольнике есть автомобиль"(см. рис. 4), что в совокупности с индексом по типам объектов, которые есть на изображениях, позволяет обучить алгоритм для распознавания объектов какой-то конкретной категории. На август 2017 года в ImageNet 14 197 122 изображения, разбитых на 21 841 категорию.
===Imagenet Challenge===
[[Файл:Imagenet-contest.png|мини|Рисунок 5. Лучшие результаты на Imagenet Challenge за различные годы [https://en.wikipedia.org/wiki/File:ImageNet_error_rate_history_(just_systems).svg Оригинал]]]
Вместе с публикацией набора данных стартовал конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC<ref>http://www.image-net.org/challenges/LSVRC/[http://www.image-net.org/challenges/LSVRC/]</ref>). В его рамках участникам предлагается достигнуть наибольшей точности при классификации набора изображений. Организаторы использовали около тысячи различных категорий объектов, которые нужно классифицировать. На примере этого конкурса хорошо видно, как в 2010-е годы люди научились заметно лучше распознавать образы на изображениях, уже в 2017 году большинство участвующих команд преодолели порог в 95% правильных ответов. История улучшения результатов представлена на рисунке 5. Эта задача, проблема компьютерного зрения, имеет огромное практическое значение во многих прикладных областях.
==ADE20K==
===Описание===
[[Файл:ADE20K_merged.png|мини|300px|Рисунок 6. Изображение из ADE20K и его разбиение на части.]]ADE20K {{---}} набор изображений с размеченными сущностями, который хорошо подходит для задачи [[Сегментация изображений|семантической сегментации данных]] в компьютерном зрении, пример разметки приведен на рисунке 6. Особенность этого набора состоит в том, что кроме объектов приводится также информация об их составных частях: например, если на изображении находится человек, то в дополнение к местоположению его фигуры будет также приведено положение его глаз и носа.
Подобные наборы данных часто страдают от несогласованности меток при их разметке сообществом. Для ADE20K эта проблема была решена {{---}} все изображения размечал только один человек, что обусловило высокую согласованность меток.
===Описание===
[[Файл:Coco-examples.jpg|мини|400px| Рисунок 7. Пример изображений из MS Coco [http://cocodataset.org/images/coco-examples.jpg Оригинал]]]
MS COCO (англ. ''Common Objects in Context'') {{---}} большой набор изображений. Состоит из более чем 330000 изображений (220000 {{---}} размеченных), с более чем 1.5 милионов объектов на них. Примеры изображений приведены на рисунке 7. Все объекты находятся в их естественном окружении (контексте). Изображения, как правило, содержат объекты разных классов (только 10% имеют единственный класс). Все изображения сопровождаются аннотациями, хранящихся в json формате. Подробнее о структуре аннотаций можно прочитать [http://cocodataset.org/#format-data здесь].
COCO имеет пять типов аннотаций для разных задач:
Более подробно с метриками можно ознакомиться [http://cocodataset.org/#detection-leaderboard здесь].
Приведем лишь результаты детектора [https://arxiv.org/abs/1512.03385 ResNet] (bbox) - победителя 2015 Detection Challenge.
Графики , изображенные на рисунках 8 и 9, представляют из себя семейство кривых Pressision Recall для различных метрик.
{|align="center"
|-valign="top"
|[[Файл:Detection-analysis-person.jpg|мини|Рисунок 8. PR кривые для класса "Person" [http://cocodataset.org/images/detection-analysis-person.jpg оригиналОригинал]]] |[[Файл:Detection-analysis-all.jpg|мини|Рисунок 9. Усредненные значения для всех классов [http://cocodataset.org/images/detection-analysis-all.jpg оригиналОригинал]]]
|}
plt.show()
[[Файл:Coco-1.png |мини| center| Рисунок 10. Пример изображения из датасета COCO [https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoDemo.ipynb оригиналОригинал]]]
# load and display instance annotations
coco.showAnns(anns)
[[Файл:Coco-2.png|мини|center| Рисунок 11. Пример обнаруженного объекта [https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoDemo.ipynb оригиналОригинал]]]
==Fashion-MNIST==
===Описание===
[[Файл:FMNIST.png|мини|Рисунок 12. Пример изображений из Fashion-MNIST]]Fashion-MNIST {{---}} это набор изображений, взятых из статей [https://jobs.zalando.com/en/tech/?gh_src=nevh2y1 Zalando], состоящий из обучающего набора из 60000 примеров и тестового набора из 10000 примеров. Каждый пример представляет собой черно-белое изображение 28x28(см. рис. 12), связанное с меткой из 10 классов. Создатели Fashion-MNIST предложили его в качестве прямой замены исходного набора данных MNIST, состоящего из рукописных цифр, для сравнительного анализа алгоритмов машинного обучения. Он имеет одинаковый размер изображения и структуру разделений для обучения и тестирования. Аргументировали необходимость такой замены тем, что исходный набор данных MNIST действительно хорошо отражает возможность алгоритма хоть что-то классифицировать, но если алгоритм работает на стандартном MNIST, он все равно может не сработать на других примерах данных. Также на наборе данных MNIST научились достигать слишком высоких результатов точности (97% для классических алгоритмов машинного обучения и 99.7% для сверточных нейронных сетей), в то время как MNIST не отражает современных сложных проблем компьютерного зрения. Это позволило сделать предположение о том, что набор данных MNIST слишком простой по современным меркам и его требуется заменить.
===Результаты===
==Caltech-UCSD Birds 200 (CUB)==
[[Файл:cub_dataset_logo.jpg |мини|Рисунок 13. Пример изображений из CUB [http://www.vision.caltech.edu/visipedia/collage.jpg Оригинал]]]
===Описание===
Caltech-UCSD Birds 200 {{---}} это набор данных, содержащий изображения птиц. Данный набор включает в себя фотографии 200 видов птиц. Большинство видов птиц, представленных в наборе данных, являются североамериканскими. Общее количество категорий птиц составляет 200, в . В набор данных 2010 года влючены включены 6033 изображения, а в набор данных 2011 года {{---}} 11 788 изображений, некоторые из них приведены на рисунке 13.
===Поиск и аннотация изображений===
Изображения для набора днанных данных были получены с сайта [https://www.flickr.com/ Flickr ] и отфильтрованы с помощью [https://www.mturk.com/ Amazon Mechanical Turk]. Каждое изображение аннотировано границей области, содержащей птицу, грубой сегментацией птиц, набором меток атрибутов и текстовым описанием. Примеры аннотированных изображений представлены на рисунке 14.
{|align="center"
|-valign="top"
|[[Файл:birds_annotations.png |800pxмини|600px|Рисунок 14. Изображения и аннотации из CUB-200[https://www.researchgate.net/profile/Serge_Belongie/publication/46572499/figure/fig1/AS:669472046206977@1536625982259/Images-and-annotations-from-CUB-200-Each-example-image-is-shown-with-a-rough-outline.png Оригинал]]]
|}
==102 Category Flower==
===Описание===
[[Файл:flowers-examples.jpg|мини| Рисунок 15. Примеры изображений из Oxford Flowers 102[https://www.researchgate.net/profile/Zhiwu_Lu2/publication/318204948/figure/fig7/AS:512607066439687@1499226456587/Examples-of-images-in-the-Oxford-Flower-102-Dataset-Corresponding-categories-are-given.png Оригинал]]]Oxford Flowers 102 {{---}} набор данных, состоящий из цветов, встречающихся в Соединенном Королевстве. Набор стоит состоит из 102 видов цветов и содержит от 40 до 258 изображений каждого вида. Все изображения имеют крупный масштабПримеры изображений из данного датасета приведены на рисунке 15. Цветы представлены в различных ракурсах и вариациях освещения. Кроме того, в наборе присутствуют виды цветов очень похожие тяжело отличимые друг от друга. Графы соседства цветков по различным признакам представлены на другарисунках 16 и 17.
Набор данных делится на обучающий набор, проверочный набор и тестовый наборы. Каждый обучающий и проверочный наборы состоят из 10 изображений на класс (всего 1020 изображений). Тестовый набор состоит из оставшихся 6149 изображений (минимум 20 изображений на класс).
{|align="center"
|-valign="top"
|[[Файл:cad_Shapeiso.jpg|мини| Рисунок 16. Граф соседства по форме [https://www.robots.ox.ac.uk/~vgg/data/flowers/102/shapeiso.jpg Оригинал]]] |[[Файл:cad_Colouriso.jpg|мини|Рисунок 17. Граф соседства по свету цвету [https://www.robots.ox.ac.uk/~vgg/data/flowers/102/colouriso.jpg Оригинал]]]
|}
==Visual Genome==
[[Файл:Visual_Genome_учфьзду.png|мини| 600px|Рисунок 18. Результат визуализации[http://visualgenome.org/api/v0/region_visualization_demo/ Оригинал]]]
===Описание===
Visual Genome {{---}} это набор данных, связывающий изображения со словесным описанием их содержимого. Является исчерпывающим набором данных для обучения и тестирования моделей компьютерного зрения, обеспечивает обширный анализ содержимого в изображениях изображений с учетом зависимостей между объектами. Это позволяет использовать набор данных для решения большого количества различных задач: от поиска поиск объектов до поиска , поиск отношений, требующих дальнейшего вывода, и даже задачи, связанные с ответами на вопросы.
Изображение часто представляет сложную картину, которую невозможно полностью раскрыть одним предложением. Существующие наборы данных, такие как Flickr 30K, ориентированы на высокоточное описание всего изображения в целом. Вместо этого для каждого изображения в Visual Genome собираются более 50 описаний для разных регионов изображения, обеспечивая тем самым намного более полный набор описаний.
Набор данных содержит более 108К изображений, каждое из которых имеет в среднем 35 объектов, 26 атрибутов и 21 парное отношение между объектами. В данном наборе данных происходит канонизация преобразование объектов, атрибутов, отношений и словосочетаний в описаниях регионов и пар вопрос-ответ в синсеты из [https://ru.wikipedia.org/wiki/WordNet WordNet]. Cинсет {{---}} это набор даныхданных, элементы в котором считаются семантически эквивалентными для поиска или восстановления информации. Visual Genome является самым большим набором данных с описаниями изображений, объектов, атрибутов, отношений и пар вопрос-ответ.
===Код===
plt.show()
visualize_regions(image, regions[:8])
Результат работы кода представлен на рисунке 18.
==CelebA==
[[Файл:CelebA.jpg|мини|Рисунок 19. Пример изображений из CelebA [http://mmlab.ie.cuhk.edu.hk/projects/CelebA/overview.png Оригинал]]]
===Описание===
CelebA (англ. CelebFaces Attributes Dataset) {{---}} это крупномасштабный набор данных атрибутов лиц, содержащий более 200 тысяч изображений знаменитостей(см. рис. 19). Изображения в этом наборе данных охватывают большие вариации поз и беспорядок на фонелица людей с разных ракурсов. CelebA имеет большое разнообразие, большое количество и богатые аннотацииБолее подробная характеристика датасета: 10 177 уникальных личностей, 202 599 изображений лиц и 5 ориентиров, 40 бинарных аннотаций атрибутов на изображение. Эти данные были первоначально собраны исследователями из MMLAB<ref>http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html[http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html]</ref>, Китайского университета Гонконга.
Набор данных можно использовать в качестве обучающих и тестовых наборов для следующих задач [[Компьютерное зрение|компьютерного зрения]]: распознавание атрибутов лица, обнаружение лиц и локализация ориентиров (или части лица).
===Пример атрибутов===
Ниже приведен пример некоторых список бинарных атрибутов в CelebA, где отдельный атрибут {{---}} одна из характеристик лица. Оригинал примера доступен [https://towardsdatascience.com/celeba-attribute-prediction-and-clustering-with-keras-3d148063098d здесь].
Более подробно со всеми атрибутами можно ознакомиться [https://www.tensorflow.org/datasets/catalog/celeb_a здесь]
 
{| class="wikitable"
|-
! Идентификатор изображенияИндекс атрибута! Короткая Наименование! Пояснение|-| 1| 5oClockShadow| щетина, появшившаяся в течение дня! Круги |-| 2| ArchedEyebrows| изогнутые брови|-| 3| Attractive| привлекательный/ая|-| 4| BagsUnderEyes| мешки под глазами! Лысый|-| 5| Bald| лысый|-| 6| Bangs| челка|-| 7! Челка| BigLips! Большие | большие губы! Большой |-| 8| BigNose| большой нос|-| 9| BlackHair| темные волосы|-| 10| BlondHair| блондинистые волосы|-| 11| Blurry| размытый|-| 12| BrownHair | русые волосы|-| 13| BushyEyebrows| густые брови|-| 14| Chubby| полный|-| 15| DoubleChin| второй подбородок|-| 16| Eyeglasses| очки|-| 17| Goatee| козлиная бородка/эспаньолка|-| 18| GrayHair| седые волосы|-| 19| HeavyMakeup| много макияжа|-| 20| HighCheekBones| высокие скулы|-| 21| Male| мужчина|-| 22| MouthSlighltyOpen| слегка приоткрытый рот|-| 23| Mustache| усы|-| 24| NarrowEyes| узкий разрез глаз|-| 25| NoBeard| отсутствет борода|-| 26| OvalFace| овальное лицо|-| 27| PaleSkin| бледная кожа|-| 28| PointyNose| заостренный нос! Темные |-| 29| RecedingHairline| залысина|-| 30| RosyCheeks| розовые щеки|-| 31| Sideburns| бакенбарды|-| 32| Smiling| улыбка|-| 33| StraightHair| прямые волосы|-| 34| WavyHair| волнистые волосы|-| 35| WearingEarrings| присутствует серьга/серьги|-| 36| WearingHat| присутствует шляпа
|-
| 146596.jpg37| 0WearingLipstick| 0| 0| 0| 0| 0| 0накрашены губы
|-
| 027415.jpg38| 0WearingNecklace| 0присутствует ожерелье| 0-| 039| 1WearingNecktie| 0| 1присутствует галстук
|-
| 031426.jpg40| 0Young| 0| 0 | 1| 1| 1| 1молодой/ая
|}
==CityScapes==
[[Файл:CityscapesZuerich.jpg|мини|Рисунок 20. Пример изображения из CityScapes [https://www.cityscapes-dataset.com/examples/ источникИсточник]]]
===Описание===
CityScapes<ref>https://www.cityscapes-dataset.com/</ref> {{---}} это набор данных, состоящий из разнообразных городских уличных сцен в 50 разных городах в разное время года. Данный набор хорошо подходит для задач компьютерного зрения, таких как: [[Сегментация изображений|семантическая сегментация данных]], сегментация на уровне экземпляра и вывод несоответствия стереопар. Пример изображения из данного датасета представлен на рисунке 20.
===Структура данных <ref>https://www.cityscapes-dataset.com/dataset-overview/#features</ref>===
===Результаты===
Основной метрикой для этого набора данных является [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]]. Также, хорошо известно, что глобальная мера [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Ыеиндекса Жаккара]] смещена в сторону экземпляров объектов, которые покрывают большую область изображения. В уличных сценах с их сильным изменением масштаба это может быть проблематично.Чтобы решить эту проблему, создатели датасета дополнительно оценивают семантическую маркировку, используя метрику пересечения по объединению на уровне экземпляра {{---}}<math>
iIoU = \dfrac{iTP}{iTP + FP + iFN}
</math>, где <math>iTP</math>, <math>FP</math> и <math>iFN</math> обозначают количество истинно положительных, ложноположительных и ложно отрицательных пикселей соответственно. Сейчас лучшей нейронной сетью для этого набора данных в задаче семантической сегментации данных является [https://www.cityscapes-dataset.com/benchmarks/#scene-labeling-task DAHUA-ARI], которая позволяет достичь индекс Жаккара 85.8% и iIoU 70.6% для классов, индекс Жаккара 93.2% и iIoU 85.4% для категорий, соответственно.
 
==ICDAR==
[[Файл:ICDAR2017.png|мини|Рисунок 21. Пример изображения из датасета ICDAR2017 Competition on Multi-lingual Scene Text Detection and Script Identification (MLT) [https://arxiv.org/pdf/1812.05219.pdf источникИсточник]]]
===Описание===
ICDAR<ref>https://rrc.cvc.uab.es/</ref> (англ. International Conference on Document Analysis and Recognition) {{---}} это международная конференция по анализу и распознаванию текста и одноименное семейство набора данных, состоящее из фотографий(см. рис. 21, 22 и 23), на которых изображен текст на разных языках. Данные наборы создаются для соревнований RRC (англ.Robust Reading Competition), где требуется решить следующие задачи: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание, распознавание скриптов, ответы на вопросы, связанные с изображениями.
Ниже приведен анализ наборов данных ICDAR2013, ICDAR2015, ICDAR2017, ICDAR2019.
===ICDAR 2013===
'''ICDAR 2013 "Born Digital Images"''' {{---}} датасет, который содержит изображения, извлеченные с веб-страниц и сообщений электронной почты. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов.
 
'''ICDAR 2013 "Focused Scene Text"''' {{---}} датасет c изображениями с текстом на вывесках, логотипах и так далее. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов.
 
{| class="wikitable"
|-
! Наименование датасета
! Тип текста
! Количество объектов
! Количество обучающих объектов
! Количество обучающих слов
! Количество тестовых слов
! Язык текста на изображениях
! Задачи
|-
| ICDAR 2013 "Born Digital Images"
| изображения, извлеченные с веб-страниц и сообщений электронной почты
| 561
| 420
| 3564
| 1439
| Английский
| обнаружение текста, сегментация текста, распознавание символов
|-
| ICDAR 2013 "Focused Scene Text"
| изображения с текстом на вывесках, логотипах и т.д.
| 462
| 229
| 848
| 1095
| Английский
| обнаружение текста, сегментация текста, распознавание символов
|}
 
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARBDI.png|thumb|alt=ICDAR "Born Digital Images"|x200px|center|Рисунок 22. ICDAR "Born Digital Images". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>
 
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARFST2.png|x150px|center|thumb|Рисунок 23. ICDAR "Focused Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>
 
 
 
===ICDAR 2015===
'''ICDAR 2015 "Born Digital Images"''' {{---}} датасет, который содержит изображения, извлеченные с веб-страниц и сообщений электронной почты. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание .
 
'''ICDAR 2013 "Focused Scene Text"''' {{---}} датасет c изображениями с текстом на вывесках, логотипах и так далее. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов , сквозное распознавание.
 
'''ICDAR 2015 "Incidental Scene Text"''' {{---}} датасет c изображениями, на которых текст попал в поле зрения камеры Google Glass случайно<ref>https://rrc.cvc.uab.es/?ch=4</ref>. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов , сквозное распознавание.
{| class="wikitable"
|-
! Наименование датасета
! Тип текста
! Количество объектов
! Количество обучающих объектов
! Количество обучающих слов
! Количество тестовых слов
! Язык текста на изображениях
! Задачи
|-
| ICDAR 2015 "Born Digital Images"
| изображения, извлеченные с веб-страниц и сообщений электронной почты
| 561
| 420
| 3564
| 1439
| Английский
| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание
|-
| ICDAR 2015 "Focused Scene Text"
| изображения с текстом на вывесках, логотипах и т.д.
| 462
| 229
| 848
| 1095
| Английский
| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание
|-
| ICDAR 2015 "Incidental Scene Text"
| изображения, на которых текст попал в поле зрения камеры Google Glass случайно<ref>https://rrc.cvc.uab.es/?ch=4</ref>
| 1670 (1500 публичных)
| 1000
| -
| -
| Английский
| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание
|}
 
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARIST.png |x150px|center|thumb|Рисунок 24. ICDAR "Incidental Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>
===ICDAR 2017===
 
'''ICDAR 2017 "COCO-Text"''' {{---}} набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст. Текст на изображениях на английском, немецком, французском и других языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, распознавание символов , сквозное распознавание.
 
'''ICDAR 2017 "Multi-lingual Scene Text"''' {{---}} набор данных, где собраны изображения с текстом на 9 языках. Текст на изображениях на арабском, английском, немецком, бенгальском, китайском, японском, французском, корейском языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста.
 
'''ICDAR 2017 "French Street Name Signs"''' {{---}} набор данных с изображениями, на которых есть названия французских улиц. Текст на изображениях на французском языке. Датасет предназначен для следующих задач оптического распознавани символов: сквозное распознавание.
{| class="wikitable"
|-
! Наименование датасета
! Тип текста
! Количество объектов
! Количество обучающих объектов
! Количество обучающих слов
! Количество тестовых слов
! Язык текста на изображениях
! Задачи
|-
| ICDAR 2017 "COCO-Text"
| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст
| 63686
| 43686
| -
| -
| Французский
| сквозное распознавание
|-
| ICDAR 2017 "Multi-lingual Scene Text"
| изображения с текстом на 9 различных языках
| 18 000
| -
| -
| -
| Английский, Арабский, Бенгальский, Китайский, Французский, Немецкий, Японский, Корейский
| обнаружение текста, сегментация текста
|-
| ICDAR 2017 "French Street Name Signs"
| изображения, на которых есть названия француззских улиц
| 1 081 422, где каждое изображение содержит до 4 объектов с названией улицы
| -
| -
| -
| Английский
| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание
|}
 
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARCOCO.png |x250px|center|thumb|Рисунок 25. ICDAR "COCO-Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>
 
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARMSTD.png |x250px|center|thumb|Рисунок 26. ICDAR "Multi-lingual Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>
 
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARFS2.png |x150px|center|thumb|Рисунок 27. ICDAR "French Street Name Signs". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>
===ICDAR 2019===
 
'''ICDAR 2019 "COCO-Text"''' {{---}} набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст. Текст на изображениях на английском, немецком, французском и других языках. Датасет предназначен для следующих задач оптического распознавани символов: сквозное распознавание.
 
'''ICDAR 2019 "Multi-lingual Scene Text"''' {{---}} набор данных, где собраны изображения с текстом на 10 языках. Текст на изображениях на арабском, английском, деванагари, немецком, бенгальском, китайском, японском, французском, корейском языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, идентификация скрипта, сквозное распознавание.
 
'''ICDAR 2019 "Scene Text Visual Question Answering"''' {{---}} набор данных, включающий 23 038 изображений с 31 791 парой вопросов и ответов, где ответ всегда основан на присутствующих текстовых экземплярах на изображении. Текст на изображениях на янглийском языке. Датасет предназначен для следующих задач оптического распознавани символов: ответ на вопрос, связанный с изображением.
 
{| class="wikitable"
|-
! Наименование датасета
! Тип текста
! Количество объектов
! Количество обучающих объектов
! Количество обучающих слов
! Количество тестовых слов
! Язык текста на изображениях
! Задачи
|-
| ICDAR 2019 "COCO-Text"
| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст
| 63686
| 43686
| -
| -
| Французский
| сквозное распознавание
|-
| ICDAR 2019 "Multi-lingual Scene Text"<ref>https://arxiv.org/pdf/1907.00945.pdf</ref>
| изображения с текстом на 10 различных языках
| 20 000 (2 000 для каждого языка) + 277 000 сгенерированных изображения
| 10 000
| -
| -
| Английский, Арабский, Бенгальский, Деванагари, Китайский, Французский, Немецкий, Японский, Корейский
| обнаружение текста, идентификация скрипта, сквозное распознавание
|-
| ICDAR 2019 "Scene Text Visual Question Answering"
| набор данных, включающий23 038 изображений с 31 791 парой вопросов и ответов,где ответ всегда основан на присутствующих текстовых экземплярахна изображении.
| -
| -
| -
| -
| Английский
| ответ на вопрос, связанный с изображением
|}
{|align<div class="centeroo-ui-panelLayout-scrollable" |-valignstyle="top" |[[Файлdisplay:ICDARSamples.png |600px|thumb|Сэмплы из датасетов ICDAR 2011, ICDAR 2015, ICDAR 2017]] |} {|block; vertical-align=:middle; height: auto; width: auto;"center" |-valign="top" |>[[Файл:ICDAR2019Sample.png |600pxx1400px|center|thumb|Сэмпл из датасета Рисунок 28. ICDAR 2019 "Scene Text Visual Question Answering". [https://arxiv.org/pdf/1907.00490.pdf Источник]] |}]</div>
==Pointing'04==
===Описание===
Pointing'04 <ref>http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf</ref> {{---}} база данных изображений лиц в разных позах положениях для 15 -ти человек. Для каждого человека представлено 93 позыположения головы, при этом каждая фотография представлена предложена в двух вариантах освещения и масштаба (две разные сессии). Снимки, сделанные во время первого сеанса, используются в качестве обучающих данных, а изображения из второго сеанса используются в качестве данных тестирования. 93 позы положения включают комбинации 13 поз -и вариантов поворота и 7 поз -и вариантов наклона вместе с двумя крайними случаями наклона при отсутствии поворота.
===Пример сета изображений===
{|align="center"
|-valign="top"
|[[Файл:Pointing.png|600px|thumb|Рисунок 29. Пример сета изображений Pointing'04[https://www.researchgate.net/publication/221545772_Evaluation_of_Head_Pose_Estimation_for_Studio_Data Источник]]]
|}
===Описание===
Репозиторий FASSEG <ref>http://massimomauro.github.io/FASSEG-repository/</ref> (англ. FAce Semantic SEGmentation ) состоит из двух наборов данных (Frontal01 и Frontal02) для сегментации лиц в фронтальном положении и одного набора данных (Multipose01) с лицами в нескольких позахопределенных положениях.
Frontal01 содержит 70 сегментированных изображений лиц и исходные изображения RGB. Исходные лица в основном взяты из наборов данных [http://cbcl.mit.edu/software-datasets/FaceData2.html MIT-CBCL] и [http://www.fei.edu.br/~cet/facedatabase.html FEI].
Frontal02 {{---}} это «высокоточный» Frontal01. Он содержит те же изображения, что и Frontal01, но с гораздо более точной сегментацией.
Multipose01 содержит более 200 размеченных лиц в 13 позах (-ти положениях с углом поворота от -90 градусов до 90 градусов)включительно. Исходные лица взяты из базы данных [http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf Pointing'04].
===Сегментация===
{|align="right"
|-valign="top"
|[[Файл:FASSEG3.png|300px|thumb|Рисунок 30. Сегментация изображения [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf Источник]]]
|}
Изображение размечается на 6 сегментов(см. рис. 30):*Глазаглаза;*Носнос;*Ротрот;*Волосы волосы (вместе с бровями);*Фонфон изображения;*Кожакожа.
===Примеры изображений===
{|align="center"
|-valign="top"
|[[Файл:FASSEG1.png|300px|thumb|Рисунок 31. Пример изображений из датасетов Frontal01 и Frontal02 [https://raw.githubusercontent.com/massimomauro/FASSEG-dataset/master/other/V1V2_diff.png Оригинал]]] |[[Файл:FASSEG2.png|400px|thumb|Рисунок 32. Пример изображений из датасета Multipose01 [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf Источник]]]
|}
 
==MPI==
{|align="right"
|-valign="top"
|[[Файл: MPI1.jpg|500px|thumb|Рисунок 33. Пример изображений из подкласса датасета MPI [http://human-pose.mpi-inf.mpg.de/#dataset Источник]]]
|}
Датасет представлен двадцатью различными классами активности: езда на велосипеде, упражнения, танцы, рыбалка и охота, домашняя активность, починкаремонт, отдых, активность на природе, игра на музыкальных инструментах, религиозная деятельность, бег, самоуход, спорт, передвижение на транспорте, волонтерство, прогулки, деятельность, связанная с водойактивность на воде, зимние виды активности, разное. Каждый класс также разделен на уникальные подклассы.
Датасет снабжен документацией с описанием структуры хранимых объектов и методами взаимодействия с ними, всю необходимую информацию по датасету, как и сами исходники, можно получить по [http://human-poseКаждый класс также разделен на уникальные подклассы.mpi-inf.mpg.de/ ссылке]Пример такого разделения приведен на рисунке 33.
Датасет снабжен документацией с описанием структуры объектов и методами взаимодействия с ними, всю необходимую информацию по датасету, как и сами исходники, можно получить по [http://human-pose.mpi-inf.mpg.de/ ссылке].
==См.также==
1632
правки

Навигация