Изменения
→Код
| 30
| не описано
|-
| ICDAR 2017 "COCO Text"
| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, присутствует текст
| 63686 изображений, 43686 {{---}} обучающая выборка,10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая
| 173589 слов
| не описано
|-
| Pointing'04
| Изображения лиц людей с разными углами поворота и наклона
| 15 сетов по 186 изображений в каждом
| 93
| 7.9% <ref>https://www.researchgate.net/publication/221125207_Generalized_subspace_based_high_dimensional_density_estimation</ref>
|-
| FASSEG
| Изображения лиц людей с разными углами поворота, как в оригинале, так и в сегментированном виде
| Часть frontal01: 70, часть frontal02: 70, часть multipose01: 200
| frontal01 и frontal02 {{---}} разделяют изображение на 6 различных сегментов, multipose01 {{---}} 13 углов поворота
| 7.73% <ref>https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf</ref> для сегментации, 22.6% <ref>https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf</ref> для определения поз
|-
| MPI
| Изображения повседневной деятельности людей в различных позах
| 25 тысяч
| 410
| ~10% <ref>http://human-pose.mpi-inf.mpg.de/#results</ref>
|}
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
iris=load_iris()
X = iris.data
Y = iris.target
n = len(iris.data)
train = n // 2
2 0.88 0.96 0.92 23
avg / total 0.95 0.95 0.95 75
==MNIST==
===Описание===
[[Файл:MnistExamples.png|мини|Рисунок 1. Примеры изображений из датасета MNIST [https://en.wikipedia.org/wiki/MNIST_database#/media/File:MnistExamples.png Оригинал]]]
Набор данных MNIST {{---}} большой (порядка 60 000 тренировочных и 10 000 проверочных объектов, помеченных на принадлежность одному из десяти классов {{---}} какая цифра изображена на картинке) набор картинок с рукописными цифрами, часто используемый для тестирования различных алгоритмов распознавания образов. Он содержит черно-белые картинки размера 28x28 пикселей, исходно взятые из набора образцов из бюро переписи населения США, к которым были добавлены тестовые образцы, написанные студентами американских университетов. На рисунке 1 представлены примеры рукописных цифр из данного датасета.
===Результаты===
===Код===
Простой пример, скачивающий набор данных и запускающий на нем один из классификаторов. Даже с уменьшением набора данных в сто раз и не самым подходящим классификатором точность выше половины угаданных цифр {{---}} заметно лучше, чем случайная разметка. С результатом работы данного кода можно ознакомиться на рисунке 2.
from sklearn.datasets import fetch_mldatafetch_openml
from numpy import arange
import random
from sklearn import datasets, svm, metrics
[[Файл:Mnist-predict.png|мини|Рисунок 2. Результат работы классификатора]]
mnist = fetch_mldatafetch_openml('MNIST originalMNIST_784')
indices = arange(len(mnist.data))
randidx = random.sample(list(indices), 500)
expected = Y[train:]
predicted = clf.predict(X[train:])
print("Classification report for classifier %s:\n%s\n" % (clf, metrics.classification_report(expected, predicted)))
digit precision recall f1-score support
===Описание===
[[Файл:Cifar-10.png|мини|Рисунок 3. Примеры изображений из датасета CIFAR-10 [https://medium.com/@jannik.zuern/training-a-cifar-10-classifier-in-the-cloud-using-tensorflow-and-google-colab-f3a5fbdfe24d Источник]]]CIFAR-10 (Canadian Institute For Advanced Research) {{---}} еще один большой набор изображений, который обычно используется для тестирования алгоритмов машинного обучения. Он содержит 60 000 цветных картинок размером 32х32 пикселя, размеченных в один из десяти классов: самолеты, автомобили, коты, олени, собаки, лягушки, лошади, корабли и грузовики. В наборе данных по 6000 картинок каждого класса, примеры некоторых из них приведены на рисунке 3. CIFAR-10 является размеченным подмножеством заметно большего набора данных, состоящего примерно из восьмидесяти миллионов изображений.
===Результаты===
===Описание===
[[Файл:Imagenet.png|мини|Рисунок 4. Пример разметки объектов в датасете ImageNet [http://www.image-net.org/challenges/LSVRC/2014/ Источник]]]
База данных Imagenet {{---}} проект по созданию и сопровождению массивной базы данных аннотированных изображений. Аннотация изображений происходит путем краудсорсинга сообществом. Из-за этого достигается большое количество размеченных данных.
Особенность данного набора данных {{---}} про каждую картинку известно несколько фактов вида "в этом прямоугольнике есть автомобиль"(см. рис. 4), что в совокупности с индексом по типам объектов, которые есть на изображениях, позволяет обучить алгоритм для распознавания объектов какой-то конкретной категории. На август 2017 года в ImageNet 14 197 122 изображения, разбитых на 21 841 категорию.
===Imagenet Challenge===
[[Файл:Imagenet-contest.png|мини|Рисунок 5. Лучшие результаты на Imagenet Challenge за различные годы [https://en.wikipedia.org/wiki/File:ImageNet_error_rate_history_(just_systems).svg Оригинал]]]
Вместе с публикацией набора данных стартовал конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC<ref>http://www.image-net.org/challenges/LSVRC/[http://www.image-net.org/challenges/LSVRC/]</ref>). В его рамках участникам предлагается достигнуть наибольшей точности при классификации набора изображений. Организаторы использовали около тысячи различных категорий объектов, которые нужно классифицировать. На примере этого конкурса хорошо видно, как в 2010-е годы люди научились заметно лучше распознавать образы на изображениях, уже в 2017 году большинство участвующих команд преодолели порог в 95% правильных ответов. История улучшения результатов представлена на рисунке 5. Эта задача, проблема компьютерного зрения, имеет огромное практическое значение во многих прикладных областях.
==ADE20K==
===Описание===
[[Файл:ADE20K_merged.png|мини|300px|Рисунок 6. Изображение из ADE20K и его разбиение на части.]]ADE20K {{---}} набор изображений с размеченными сущностями, который хорошо подходит для задачи [[Сегментация изображений|семантической сегментации данных]] в компьютерном зрении, пример разметки приведен на рисунке 6. Особенность этого набора состоит в том, что кроме объектов приводится также информация об их составных частях: например, если на изображении находится человек, то в дополнение к местоположению его фигуры будет также приведено положение его глаз и носа.
Подобные наборы данных часто страдают от несогласованности меток при их разметке сообществом. Для ADE20K эта проблема была решена {{---}} все изображения размечал только один человек, что обусловило высокую согласованность меток.
===Описание===
[[Файл:Coco-examples.jpg|мини|400px| Рисунок 7. Пример изображений из MS Coco [http://cocodataset.org/images/coco-examples.jpg Оригинал]]]
MS COCO (англ. ''Common Objects in Context'') {{---}} большой набор изображений. Состоит из более чем 330000 изображений (220000 {{---}} размеченных), с более чем 1.5 милионов объектов на них. Примеры изображений приведены на рисунке 7. Все объекты находятся в их естественном окружении (контексте). Изображения, как правило, содержат объекты разных классов (только 10% имеют единственный класс). Все изображения сопровождаются аннотациями, хранящихся в json формате. Подробнее о структуре аннотаций можно прочитать [http://cocodataset.org/#format-data здесь].
COCO имеет пять типов аннотаций для разных задач:
Более подробно с метриками можно ознакомиться [http://cocodataset.org/#detection-leaderboard здесь].
Приведем лишь результаты детектора [https://arxiv.org/abs/1512.03385 ResNet] (bbox) - победителя 2015 Detection Challenge.
Графики , изображенные на рисунках 8 и 9, представляют из себя семейство кривых Pressision Recall для различных метрик.
{|align="center"
|-valign="top"
|[[Файл:Detection-analysis-person.jpg|мини|Рисунок 8. PR кривые для класса "Person" [http://cocodataset.org/images/detection-analysis-person.jpg оригиналОригинал]]] |[[Файл:Detection-analysis-all.jpg|мини|Рисунок 9. Усредненные значения для всех классов [http://cocodataset.org/images/detection-analysis-all.jpg оригиналОригинал]]]
|}
plt.show()
[[Файл:Coco-1.png |мини| center| Рисунок 10. Пример изображения из датасета COCO [https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoDemo.ipynb оригиналОригинал]]]
# load and display instance annotations
coco.showAnns(anns)
[[Файл:Coco-2.png|мини|center| Рисунок 11. Пример обнаруженного объекта [https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoDemo.ipynb оригиналОригинал]]]
==Fashion-MNIST==
===Описание===
[[Файл:FMNIST.png|мини|Рисунок 12. Пример изображений из Fashion-MNIST]]Fashion-MNIST {{---}} это набор изображений, взятых из статей [https://jobs.zalando.com/en/tech/?gh_src=nevh2y1 Zalando], состоящий из обучающего набора из 60000 примеров и тестового набора из 10000 примеров. Каждый пример представляет собой черно-белое изображение 28x28(см. рис. 12), связанное с меткой из 10 классов. Создатели Fashion-MNIST предложили его в качестве прямой замены исходного набора данных MNIST, состоящего из рукописных цифр, для сравнительного анализа алгоритмов машинного обучения. Он имеет одинаковый размер изображения и структуру разделений для обучения и тестирования. Аргументировали необходимость такой замены тем, что исходный набор данных MNIST действительно хорошо отражает возможность алгоритма хоть что-то классифицировать, но если алгоритм работает на стандартном MNIST, он все равно может не сработать на других примерах данных. Также на наборе данных MNIST научились достигать слишком высоких результатов точности (97% для классических алгоритмов машинного обучения и 99.7% для сверточных нейронных сетей), в то время как MNIST не отражает современных сложных проблем компьютерного зрения. Это позволило сделать предположение о том, что набор данных MNIST слишком простой по современным меркам и его требуется заменить.
===Результаты===
==Caltech-UCSD Birds 200 (CUB)==
[[Файл:cub_dataset_logo.jpg |мини|Рисунок 13. Пример изображений из CUB [http://www.vision.caltech.edu/visipedia/collage.jpg Оригинал]]]
===Описание===
Caltech-UCSD Birds 200 {{---}} это набор данных, содержащий изображения птиц. Данный набор включает в себя фотографии 200 видов птиц (. Большинство видов птиц, представленных в основном североамериканских)наборе данных, являются североамериканскими. Общее количество категорий птиц составляет 200, в . В набор данных 2010 года влючены включены 6033 изображения, а в набор данных 2011 года {{- --}} 11 788 изображений, некоторые из них приведены на рисунке 13.
===Поиск и аннотация изображений===
Изображения для набора данных были загружены получены с сайта [https://www.flickr.com/ Flickr ] и отфильтрованы сотрудниками с помощью [https://www.mturk.com/ Amazon Mechanical Turk]. Каждое изображение аннотировано ограничивающей рамкойграницей области, содержащей птицу, грубой сегментацией птиц и , набором меток атрибутови текстовым описанием. Примеры аннотированных изображений представлены на рисунке 14.
{|align="center"
|-valign="top"
|[[Файл:birds_annotations.png |800pxмини|600px|Рисунок 14. Изображения и аннотации из CUB-200[https://www.researchgate.net/profile/Serge_Belongie/publication/46572499/figure/fig1/AS:669472046206977@1536625982259/Images-and-annotations-from-CUB-200-Each-example-image-is-shown-with-a-rough-outline.png Оригинал]]]
|}
==102 Category Flower==
===Описание===
[[Файл:flowers-examples.jpg|мини| Рисунок 15. Примеры изображений из Oxford Flowers 102[https://www.researchgate.net/profile/Zhiwu_Lu2/publication/318204948/figure/fig7/AS:512607066439687@1499226456587/Examples-of-images-in-the-Oxford-Flower-102-Dataset-Corresponding-categories-are-given.png Оригинал]]]Oxford Flowers 102 {{---}} набор данных, состоящий из цветов, встречающихся в Соединенном Королевстве. Набор стоит состоит из 102 видов цветов. Каждый вид представлен изображениями в количестве и содержит от 40 до 258изображений каждого вида. Изображения имеют крупный масштабПримеры изображений из данного датасета приведены на рисунке 15. Цветы представлены в различных ракурсах и вариациях освещения. Кроме того, в наборе присутствуют виды цветов очень похожие тяжело отличимые друг от друга. Графы соседства цветков по различным признакам представлены на другарисунках 16 и 17.
Набор данных делится на обучающий набор, проверочный набор и тестовый наборы. Каждый обучающий и проверочный наборы состоят из 10 изображений на класс (всего 1020 изображений каждый). Тестовый набор состоит из оставшихся 6149 изображений (минимум 20 изображений на класс).
{|align="center"
|-valign="top"
|[[Файл:cad_Shapeiso.jpg|мини| Рисунок 16. Граф соседства по форме [https://www.robots.ox.ac.uk/~vgg/data/flowers/102/shapeiso.jpg Оригинал]]] |[[Файл:cad_Colouriso.jpg|мини|Рисунок 17. Граф соседства по свету цвету [https://www.robots.ox.ac.uk/~vgg/data/flowers/102/colouriso.jpg Оригинал]]]
|}
==Visual Genome==
[[Файл:Visual_Genome_учфьзду.png|мини| 600px|Рисунок 18. Результат визуализации[http://visualgenome.org/api/v0/region_visualization_demo/ Оригинал]]]
===Описание===
Visual Genome {{---}} это набор данных, связывающий изображения с словестным со словесным описанием их содержимого. Является черпывающим исчерпывающим набором данных для обучения и тестирования моделей компьютерного зрения, обеспечивает многослойное понимание картинокобширный анализ изображений с учетом зависимостей между объектами. Это позволяет многосторонне изучать изображениеиспользовать набор данных для решения большого количества различных задач: от информации на уровне пикселейпоиск объектов, такой как объекты, до поиск отношений, требующих дальнейшего вывода, и даже более глубокие задачи, такие как ответы связанные с ответами на вопросы.
===Код===
plt.show()
visualize_regions(image, regions[:8])
Результат работы кода представлен на рисунке 18.
==CelebA==
[[Файл:CelebA.jpg|мини|Рисунок 19. Пример изображений из CelebA [http://mmlab.ie.cuhk.edu.hk/projects/CelebA/overview.png Оригинал]]]
===Описание===
CelebA (англ. CelebFaces Attributes Dataset) {{---}} это крупномасштабный набор данных атрибутов лиц, содержащий более 200 тысяч изображений знаменитостей(см. рис. 19). Изображения в этом наборе данных охватывают большие вариации поз и беспорядок на фонелица людей с разных ракурсов. CelebA имеет большое разнообразие, большое количество и богатые аннотацииБолее подробная характеристика датасета: 10 177 уникальных личностей, 202 599 изображений лиц и 5 ориентиров, 40 бинарных аннотаций атрибутов на изображение. Эти данные были первоначально собраны исследователями из MMLAB<ref>http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html[http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html]</ref>, Китайского университета Гонконга.
Набор данных можно использовать в качестве обучающих и тестовых наборов для следующих задач [[Компьютерное зрение|компьютерного зрения]]: распознавание атрибутов лица, обнаружение лиц и локализация ориентиров (или части лица).
===Пример атрибутов===
Ниже приведен пример некоторых список бинарных атрибутов в CelebA, где отдельный атрибут {{---}} одна из характеристик лица. Оригинал примера доступен [https://towardsdatascience.com/celeba-attribute-prediction-and-clustering-with-keras-3d148063098d здесь].
Более подробно со всеми атрибутами можно ознакомиться [https://www.tensorflow.org/datasets/catalog/celeb_a здесь]
{| class="wikitable"
|-
! Идентификатор изображенияИндекс атрибута! Короткая Наименование! Пояснение|-| 1| 5oClockShadow| щетина, появшившаяся в течение дня|-| 2| ArchedEyebrows| изогнутые брови|-| 3| Attractive| привлекательный/ая|-| 4! Круги | BagsUnderEyes| мешки под глазами! Лысый|-| 5| Bald| лысый|-| 6| Bangs| челка|-| 7! Челка| BigLips! Большие | большие губы! Большой |-| 8| BigNose| большой нос|-| 9| BlackHair| темные волосы|-| 10| BlondHair| блондинистые волосы|-| 11| Blurry| размытый|-| 12| BrownHair | русые волосы|-| 13| BushyEyebrows| густые брови|-| 14| Chubby| полный|-| 15| DoubleChin| второй подбородок|-| 16| Eyeglasses| очки|-| 17| Goatee| козлиная бородка/эспаньолка|-| 18| GrayHair| седые волосы|-| 19| HeavyMakeup| много макияжа|-| 20| HighCheekBones| высокие скулы|-| 21| Male| мужчина|-| 22| MouthSlighltyOpen| слегка приоткрытый рот|-| 23| Mustache| усы|-| 24| NarrowEyes| узкий разрез глаз|-| 25| NoBeard| отсутствет борода|-| 26| OvalFace| овальное лицо|-| 27| PaleSkin| бледная кожа|-| 28| PointyNose| заостренный нос! Темные |-| 29| RecedingHairline| залысина|-| 30| RosyCheeks| розовые щеки|-| 31| Sideburns| бакенбарды|-| 32| Smiling| улыбка|-| 33| StraightHair| прямые волосы|-| 34| WavyHair| волнистые волосы|-| 35| WearingEarrings| присутствует серьга/серьги|-| 36| WearingHat| присутствует шляпа|-| 37| WearingLipstick| накрашены губы
|-
| 146596.jpg38| 0WearingNecklace| 0| 0| 0| 0| 0| 0присутствует ожерелье
|-
| 027415.jpg39| 0WearingNecktie| 0| 0| 0| 1| 0| 1присутствует галстук
|-
| 031426.jpg40| 0Young| 0| 0 | 1| 1| 1| 1молодой/ая
|}
==CityScapes==
[[Файл:CityscapesZuerich.jpg|мини|Рисунок 20. Пример изображения из CityScapes [https://www.cityscapes-dataset.com/examples/ источникИсточник]]]
===Описание===
CityScapes<ref>https://www.cityscapes-dataset.com/</ref> {{---}} это набор данных, состоящий из разнообразных городских уличных сцен в 50 разных городах в разное время года. Данный набор хорошо подходит для задач компьютерного зрения, таких как: [[Сегментация изображений|семантическая сегментация данных]], сегментация на уровне экземпляра и вывод несоответствия стереопар. Пример изображения из данного датасета представлен на рисунке 20.
===Структура данных <ref>https://www.cityscapes-dataset.com/dataset-overview/#features</ref>===
===Результаты===
Основной метрикой для этого набора данных является [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]]. Также, хорошо известно, что глобальная мера [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Ыеиндекса Жаккара]] смещена в сторону экземпляров объектов, которые покрывают большую область изображения. В уличных сценах с их сильным изменением масштаба это может быть проблематично.Чтобы решить эту проблему, создатели датасета дополнительно оценивают семантическую маркировку, используя метрику пересечения по объединению на уровне экземпляра {{---}}<math>
iIoU = \dfrac{iTP}{iTP + FP + iFN}
</math>, где <math>iTP</math>, <math>FP</math> и <math>iFN</math> обозначают количество истинно положительных, ложноположительных и ложно отрицательных пикселей соответственно. Сейчас лучшей нейронной сетью для этого набора данных в задаче семантической сегментации данных является [https://www.cityscapes-dataset.com/benchmarks/#scene-labeling-task DAHUA-ARI], которая позволяет достичь индекс Жаккара 85.8% и iIoU 70.6% для классов, индекс Жаккара 93.2% и iIoU 85.4% для категорий, соответственно.
==СмICDAR==[[Файл:ICDAR2017.png|мини|Рисунок 21. Пример изображения из датасета ICDAR2017 Competition on Multi-lingual Scene Text Detection and Script Identification (MLT) [https://arxiv.org/pdf/1812.05219.pdf Источник]]]===Описание===ICDAR<ref>https://rrc.cvc.uab.es/</ref> (англ. International Conference on Document Analysis and Recognition) {{---}} это международная конференция по анализу и распознаванию текста и одноименное семейство набора данных, состоящее из фотографий (см. рис. 21, 22 и 23), на которых изображен текст на разных языках. Данные наборы создаются для соревнований RRC (англ. Robust Reading Competition), где требуется решить следующие задачи: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание, распознавание скриптов, ответы на вопросы, связанные с изображениями.такжеНиже приведен анализ наборов данных ICDAR2013, ICDAR2015, ICDAR2017, ICDAR2019. ===ICDAR 2013==='''ICDAR 2013 "Born Digital Images"''' {{---}} датасет, который содержит изображения, извлеченные с веб-страниц и сообщений электронной почты. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов. '''ICDAR 2013 "Focused Scene Text"''' {{---}} датасет c изображениями с текстом на вывесках, логотипах и так далее. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов. {| class="wikitable"|-! Наименование датасета! Количество объектов! Количество обучающих объектов! Количество тестовых объектов! Количество слов! Количество обучающих слов! Количество тестовых слов|-* | ICDAR 2013 "Born Digital Images"| 561| 420 | 141 | 5003| 3564| 1439|-| ICDAR 2013 "Focused Scene Text" | 462| 229 | 233 | 1943| 848 | 1095 |} <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARBDI.png|thumb|alt=ICDAR "Born Digital Images"|x200px|center|Рисунок 22. ICDAR "Born Digital Images". [Общие понятияhttps://arxiv.org/pdf/1812.05219.pdf Источник]]]</div> * <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARFST2.png|x150px|center|thumb|Рисунок 23. ICDAR "Focused Scene Text". [Сегментация изображенийhttps://arxiv.org/pdf/1812.05219.pdf Источник]]]</div> ===ICDAR 2015==='''ICDAR 2015 "Born Digital Images"''' {{---}} датасет, который содержит изображения, извлеченные с веб-страниц и сообщений электронной почты. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание . '''ICDAR 2013 "Focused Scene Text"''' {{---}} датасет c изображениями с текстом на вывесках, логотипах и так далее. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов , сквозное распознавание. '''ICDAR 2015 "Incidental Scene Text"''' {{---}} датасет c изображениями, на которых текст попал в поле зрения камеры Google Glass случайно<ref>https://rrc.cvc.uab.es/?ch=4</ref>. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов , сквозное распознавание. {| class="wikitable"|-! Наименование датасета! Количество объектов! Количество обучающих объектов! Количество тестовых объектов! Количество слов! Количество обучающих слов! Количество тестовых слов|-| ICDAR 2015 "Born Digital Images"| 561| 420 | 141 | 5003| 3564| 1439|-| ICDAR 2015 "Focused Scene Text" | 462| 229 | 233 | 1943| 848 | 1095 |-| ICDAR 2015 "Incidental Scene Text" | 1670 (1500 публичных)| 1000| 500| 17548| -| - |} * <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARIST.png |x150px|center|thumb|Рисунок 24. ICDAR "Incidental Scene Text". [Задача нахождения https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div> ===ICDAR 2017=== '''ICDAR 2017 "COCO-Text"''' {{---}} набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст. Текст на изображениях на английском, немецком, французском и других языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, распознавание символов , сквозное распознавание. '''ICDAR 2017 "Multi-lingual Scene Text"''' {{---}} набор данных, где собраны изображения с текстом на 9 языках. Текст на изображениях на арабском, английском, немецком, бенгальском, китайском, японском, французском, корейском языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста. '''ICDAR 2017 "French Street Name Signs"''' {{---}} набор данных с изображениями, на которых есть названия французских улиц. Текст на изображениях на французском языке. Датасет предназначен для следующих задач оптического распознавани символов: сквозное распознавание. {| class="wikitable"|-! Наименование датасета! Количество объектов! Количество обучающих объектов! Количество тестовых объектов ! Количество слов! Количество обучающих слов! Количество тестовых слов|-| ICDAR 2017 "COCO-Text"| 63686| 43686 | 10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая| 173589| -| -|-| ICDAR 2017 "Multi-lingual Scene Text" | 18 000| - | - | 107 547(тренировочные + валидирующие слова)| - | -|-| ICDAR 2017 "French Street Name Signs" | 1 081 422, где каждое изображение содержит до 4 объектов с названией улицы| -| -| -| - | - |} <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARCOCO.png |x250px|center|thumb|Рисунок 25. ICDAR "COCO-Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div> <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARMSTD.png |x250px|center|thumb|Рисунок 26. ICDAR "Multi-lingual Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div> <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARFS2.png |x150px|center|thumb|Рисунок 27. ICDAR "French Street Name Signs". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div> ===ICDAR 2019=== '''ICDAR 2019 "COCO-Text"''' {{---}} набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст. Текст на изображениях на английском, немецком, французском и других языках. Датасет предназначен для следующих задач оптического распознавани символов: сквозное распознавание. '''ICDAR 2019 "Multi-lingual Scene Text"''' {{---}} набор данных, где собраны изображения с текстом на 10 языках. Текст на изображениях на арабском, английском, деванагари, немецком, бенгальском, китайском, японском, французском, корейском языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, идентификация скрипта, сквозное распознавание. '''ICDAR 2019 "Scene Text Visual Question Answering"''' {{---}} набор данных, включающий 23 038 изображений с 31 791 парой вопросов и ответов, где ответ всегда основан на присутствующих текстовых экземплярах на изображении. Текст на изображениях на янглийском языке. Датасет предназначен для следующих задач оптического распознавани символов: ответ на вопрос, связанный с изображением. {| class="wikitable"|-! Наименование датасета! Количество объектов! Количество обучающих объектов! Количество тестовых объектов! Количество слов! Количество обучающих слов! Количество тестовых слов|-| ICDAR 2019 "COCO-Text"| 63686| 43686 | 10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая| 173589| -| -|-| ICDAR 2019 "Multi-lingual Scene Text"<ref>https://arxiv.org/pdf/1907.00945.pdf</ref>| 20 000 (2 000 для каждого языка) + 277 000 сгенерированных изображения| 10 000| 10 000 | -| - | -|-| ICDAR 2019 "Scene Text Visual Question Answering" | 23 038| -| -| -| -| - | - |} <div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDAR2019Sample.png |x1400px|center|thumb|Рисунок 28. ICDAR 2019 "Scene Text Visual Question Answering". [https://arxiv.org/pdf/1907.00490.pdf Источник]]]</div> ==Pointing'04== ===Описание=== Pointing'04 <ref>http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf</ref> {{---}} база данных изображений лиц в разных положениях для 15-ти человек. Для каждого человека представлено 93 положения головы, при этом каждая фотография предложена в двух вариантах освещения и масштаба (две разные сессии). Снимки, сделанные во время первого сеанса, используются в качестве обучающих данных, а изображения из второго сеанса используются в качестве данных тестирования. 93 положения включают комбинации 13-и вариантов поворота и 7-и вариантов наклона вместе с двумя крайними случаями наклона при отсутствии поворота. ===Пример сета изображений=== {|align="center" |-valign="top" |[[Файл:Pointing.png|600px|thumb|Рисунок 29. Пример сета изображений Pointing'04 [https://www.researchgate.net/publication/221545772_Evaluation_of_Head_Pose_Estimation_for_Studio_Data Источник]]] |} ==FASSEG== ===Описание=== Репозиторий FASSEG <ref>http://massimomauro.github.io/FASSEG-repository/</ref> (англ. FAce Semantic SEGmentation ) состоит из двух наборов данных (Frontal01 и Frontal02) для сегментации лиц в фронтальном положении и одного набора данных (Multipose01) с лицами в нескольких определенных положениях. Frontal01 содержит 70 сегментированных изображений лиц и исходные изображения RGB. Исходные лица в основном взяты из наборов данных [http://cbcl.mit.edu/software-datasets/FaceData2.html MIT-CBCL] и [http://www.fei.edu.br/~cet/facedatabase.html FEI]. Frontal02 {{---}} это «высокоточный» Frontal01. Он содержит те же изображения, что и Frontal01, но с гораздо более точной сегментацией. Multipose01 содержит более 200 размеченных лиц в 13-ти положениях с углом поворота от -90 градусов до 90 градусов включительно. Исходные лица взяты из базы данных [http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf Pointing'04]. ===Сегментация=== {|align="right" |-valign="top" |[[Файл:FASSEG3.png|300px|thumb|Рисунок 30. Сегментация изображения [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf Источник]]] |} Изображение размечается на 6 сегментов (см. рис. 30):*глаза;*нос;*рот;*волосы (вместе с бровями);* фон изображения;*кожа. ===Примеры изображений=== {|align="center" |-valign="top" |[[Оценка качества в задачах классификации Файл:FASSEG1.png|300px|thumb|Рисунок 31. Пример изображений из датасетов Frontal01 и регрессииFrontal02 [https://raw.githubusercontent.com/massimomauro/FASSEG-dataset/master/other/V1V2_diff.png Оригинал]]] |[[Файл:FASSEG2.png|400px|thumb|Рисунок 32. Пример изображений из датасета Multipose01 [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf Источник]]] |} ==MPI==
===Описание===
{|align="right" |-valign==Структура данных <ref>https"top" |[[Файл: MPI1.jpg|500px|thumb|Рисунок 33. Пример изображений из подкласса датасета MPI [http://wwwhuman-pose.cityscapesmpi-datasetinf.mpg.comde/#dataset-overview/#features</ref>===Источник]]] |} Всего в наборе данных находится 25 000 изображенийДатасет представлен двадцатью различными классами активности: езда на велосипеде, упражнения, танцы, рыбалка и охота, домашняя активность, ремонт, отдых, активность на природе, игра на музыкальных инструментах, религиозная деятельность, бег, самоуход, из них 5000 составляют набор с более детальными аннотациями изображений с разрешением 1024 * 2048спорт, предварительно разделенных передвижение на наборы для обучения {{---}} 2975транспорте, волонтерство, прогулки, проверки {{---}} 500 и тестирования {{---}} 1525. Оставшиеся 20 000 изображений имеют грубые аннотацииактивность на воде, позволяющие применять методызимние виды активности, использующие большие объемы данных со слабой маркировкойразное.
==См.также==