Изменения

Перейти к: навигация, поиск

Известные наборы данных

5790 байт добавлено, 15:06, 8 апреля 2021
Код
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
iris=load_iris()
X = iris.data
Y = iris.target
X, Y = shuffle(X, Y)
n = len(iris.data)
train = n // 2
2 0.88 0.96 0.92 23
avg / total 0.95 0.95 0.95 75
 
==MNIST==
from sklearn.datasets import fetch_mldatafetch_openml
from numpy import arange
import random
[[Файл:Mnist-predict.png|мини|Рисунок 2. Результат работы классификатора]]
mnist = fetch_mldatafetch_openml('MNIST originalMNIST_784')
indices = arange(len(mnist.data))
randidx = random.sample(list(indices), 500)
expected = Y[train:]
predicted = clf.predict(X[train:])
print("Classification report for classifier %s:\n%s\n" % (clf, metrics.classification_report(expected, predicted)))
digit precision recall f1-score support
==Visual Genome==
[[Файл:Visual_Genome_учфьзду.png|мини|Рисунок 18. Результат визуализации[http://visualgenome.org/api/v0/region_visualization_demo/ Оригинал]]]
===Описание===
Visual Genome {{---}} это набор данных, связывающий изображения со словесным описанием их содержимого. Является исчерпывающим набором данных для обучения и тестирования моделей компьютерного зрения, обеспечивает обширный анализ изображений с учетом зависимостей между объектами. Это позволяет использовать набор данных для решения большого количества различных задач: поиск объектов, поиск отношений, требующих дальнейшего вывода, задачи, связанные с ответами на вопросы.
Изображение часто представляет сложную картину, которую невозможно полностью раскрыть одним предложением. Существующие наборы данных, такие как Flickr 30K, ориентированы на высокоточное описание всего изображения в целом. Вместо этого для каждого изображения в Visual Genome собираются более 50 описаний для разных регионов изображения, обеспечивая тем самым намного более полный набор описаний.
Набор данных содержит более 108К изображений, каждое из которых имеет в среднем 35 объектов, 26 атрибутов и 21 парное отношение между объектами. В данном наборе данных происходит преобразование объектов, атрибутов, отношений и словосочетаний в описа ниях описаниях регионов и пар вопрос-ответ в синсеты из [https://ru.wikipedia.org/wiki/WordNet WordNet]. Cинсет {{---}} это набор данных, элементы в котором считаются семантически эквивалентными для поиска или восстановления информации. Visual Genome является самым большим набором данных с описаниями изображений, объектов, атрибутов, отношений и пар вопрос-ответ.
===Код===
[[Файл:CelebA.jpg|мини|Рисунок 19. Пример изображений из CelebA [http://mmlab.ie.cuhk.edu.hk/projects/CelebA/overview.png Оригинал]]]
===Описание===
CelebA (англ. CelebFaces Attributes Dataset) {{---}} это крупномасштабный набор данных атрибутов лиц, содержащий более 200 тысяч изображений знаменитостей (см. рис. 19). Изображения в этом наборе данных охватывают большие вариации поз и беспорядок на фонелица людей с разных ракурсов. CelebA имеет большое разнообразие, большое количество и богатые аннотацииБолее подробная характеристика датасета: 10 177 уникальных личностей, 202 599 изображений лиц и 5 ориентиров, 40 бинарных аннотаций атрибутов на изображение. Эти данные были первоначально собраны исследователями из MMLAB<ref>http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html[http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html]</ref>, Китайского университета Гонконга.
Набор данных можно использовать в качестве обучающих и тестовых наборов для следующих задач [[Компьютерное зрение|компьютерного зрения]]: распознавание атрибутов лица, обнаружение лиц и локализация ориентиров (или части лица).
===Пример атрибутов===
Ниже приведен пример некоторых список бинарных атрибутов в CelebA, где отдельный атрибут {{---}} одна из характеристик лица. Оригинал примера доступен [https://towardsdatascience.com/celeba-attribute-prediction-and-clustering-with-keras-3d148063098d здесь].
Более подробно со всеми атрибутами можно ознакомиться [https://www.tensorflow.org/datasets/catalog/celeb_a здесь]
 
{| class="wikitable"
|-
! Идентификатор изображенияИндекс атрибута! Короткая Наименование! Пояснение|-| 1| 5oClockShadow| щетина, появшившаяся в течение дня! Круги |-| 2| ArchedEyebrows| изогнутые брови|-| 3| Attractive| привлекательный/ая|-| 4| BagsUnderEyes| мешки под глазами! Лысый|-| 5| Bald| лысый|-| 6| Bangs| челка|-| 7! Челка| BigLips! Большие | большие губы! Большой |-| 8| BigNose| большой нос|-| 9| BlackHair| темные волосы|-| 10| BlondHair| блондинистые волосы|-| 11| Blurry| размытый|-| 12| BrownHair | русые волосы|-| 13| BushyEyebrows| густые брови|-| 14| Chubby| полный|-| 15| DoubleChin| второй подбородок|-| 16| Eyeglasses| очки|-| 17| Goatee| козлиная бородка/эспаньолка|-| 18| GrayHair| седые волосы|-| 19| HeavyMakeup| много макияжа|-| 20| HighCheekBones| высокие скулы|-| 21| Male| мужчина|-| 22| MouthSlighltyOpen| слегка приоткрытый рот|-| 23| Mustache| усы|-| 24| NarrowEyes| узкий разрез глаз|-| 25| NoBeard| отсутствет борода|-| 26| OvalFace| овальное лицо|-| 27| PaleSkin| бледная кожа|-| 28| PointyNose| заостренный нос! Темные |-| 29| RecedingHairline| залысина|-| 30| RosyCheeks| розовые щеки|-| 31| Sideburns| бакенбарды|-| 32| Smiling| улыбка|-| 33| StraightHair| прямые волосы|-| 34| WavyHair| волнистые волосы|-| 35| WearingEarrings| присутствует серьга/серьги
|-
| 146596.jpg36| 0WearingHat| 0| 0| 0| 0| 0| 0присутствует шляпа
|-
| 027415.jpg37| 0WearingLipstick| 0накрашены губы| 0-| 038| 1WearingNecklace| 0присутствует ожерелье| 1-| 39| WearingNecktie| присутствует галстук
|-
| 031426.jpg40| 0Young| 0| 0 | 1| 1| 1| 1молодой/ая
|}
===Результаты===
Основной метрикой для этого набора данных является [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]]. Также, хорошо известно, что глобальная мера [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Ыеиндекса Жаккара]] смещена в сторону экземпляров объектов, которые покрывают большую область изображения. В уличных сценах с их сильным изменением масштаба это может быть проблематично.Чтобы решить эту проблему, создатели датасета дополнительно оценивают семантическую маркировку, используя метрику пересечения по объединению на уровне экземпляра {{---}}<math>
iIoU = \dfrac{iTP}{iTP + FP + iFN}
</math>, где <math>iTP</math>, <math>FP</math> и <math>iFN</math> обозначают количество истинно положительных, ложноположительных и ложно отрицательных пикселей соответственно. Сейчас лучшей нейронной сетью для этого набора данных в задаче семантической сегментации данных является [https://www.cityscapes-dataset.com/benchmarks/#scene-labeling-task DAHUA-ARI], которая позволяет достичь индекс Жаккара 85.8% и iIoU 70.6% для классов, индекс Жаккара 93.2% и iIoU 85.4% для категорий, соответственно.
 
==ICDAR==
[[Файл:ICDAR2017.png|мини|Рисунок 21. Пример изображения из датасета ICDAR2017 Competition on Multi-lingual Scene Text Detection and Script Identification (MLT) [https://arxiv.org/pdf/1812.05219.pdf Источник]]]
===Описание===
ICDAR<ref>https://rrc.cvc.uab.es/</ref> (англ. International Conference on Document Analysis and Recognition) {{---}} это международная конференция по анализу и распознаванию текста и одноименное семейство набора данных, состоящее из фотографий (см. рис. 21, 22 и 23), на которых изображен текст на разных языках. Данные наборы создаются для соревнований RRC (англ.Robust Reading Competition), где требуется решить следующие задачи: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание, распознавание скриптов, ответы на вопросы, связанные с изображениями.
Ниже приведен анализ наборов данных ICDAR2013, ICDAR2015, ICDAR2017, ICDAR2019.
===ICDAR 2013===
'''ICDAR 2013 "Born Digital Images"''' {{---}} датасет, который содержит изображения, извлеченные с веб-страниц и сообщений электронной почты. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов.
 
'''ICDAR 2013 "Focused Scene Text"''' {{---}} датасет c изображениями с текстом на вывесках, логотипах и так далее. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов.
 
{| class="wikitable"
|-
! Наименование датасета
! Тип текста
! Количество объектов
! Количество обучающих объектов
! Количество обучающих слов
! Количество тестовых слов
! Язык текста на изображениях
! Задачи
|-
| ICDAR 2013 "Born Digital Images"
| изображения, извлеченные с веб-страниц и сообщений электронной почты
| 561
| 420
| 3564
| 1439
| Английский
| обнаружение текста, сегментация текста, распознавание символов
|-
| ICDAR 2013 "Focused Scene Text"
| изображения с текстом на вывесках, логотипах и т.д.
| 462
| 229
| 848
| 1095
| Английский
| обнаружение текста, сегментация текста, распознавание символов
|}
 
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARBDI.png|thumb|alt=ICDAR "Born Digital Images"|x200px|center|Рисунок 22. ICDAR "Born Digital Images". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>
 
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARFST2.png|x150px|center|thumb|Рисунок 23. ICDAR "Focused Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>
 
 
 
===ICDAR 2015===
'''ICDAR 2015 "Born Digital Images"''' {{---}} датасет, который содержит изображения, извлеченные с веб-страниц и сообщений электронной почты. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание .
 
'''ICDAR 2013 "Focused Scene Text"''' {{---}} датасет c изображениями с текстом на вывесках, логотипах и так далее. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов , сквозное распознавание.
 
'''ICDAR 2015 "Incidental Scene Text"''' {{---}} датасет c изображениями, на которых текст попал в поле зрения камеры Google Glass случайно<ref>https://rrc.cvc.uab.es/?ch=4</ref>. Текст на изображениях на английском языке. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста, распознавание символов , сквозное распознавание.
{| class="wikitable"
|-
! Наименование датасета
! Тип текста
! Количество объектов
! Количество обучающих объектов
! Количество обучающих слов
! Количество тестовых слов
! Язык текста на изображениях
! Задачи
|-
| ICDAR 2015 "Born Digital Images"
| изображения, извлеченные с веб-страниц и сообщений электронной почты
| 561
| 420
| 3564
| 1439
| Английский
| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание
|-
| ICDAR 2015 "Focused Scene Text"
| изображения с текстом на вывесках, логотипах и т.д.
| 462
| 229
| 848
| 1095
| Английский
| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание
|-
| ICDAR 2015 "Incidental Scene Text"
| изображения, на которых текст попал в поле зрения камеры Google Glass случайно<ref>https://rrc.cvc.uab.es/?ch=4</ref>
| 1670 (1500 публичных)
| 1000
| -
| -
| Английский
| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание
|}
 
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARIST.png |x150px|center|thumb|Рисунок 24. ICDAR "Incidental Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>
===ICDAR 2017===
 
'''ICDAR 2017 "COCO-Text"''' {{---}} набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст. Текст на изображениях на английском, немецком, французском и других языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, распознавание символов , сквозное распознавание.
 
'''ICDAR 2017 "Multi-lingual Scene Text"''' {{---}} набор данных, где собраны изображения с текстом на 9 языках. Текст на изображениях на арабском, английском, немецком, бенгальском, китайском, японском, французском, корейском языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста.
 
'''ICDAR 2017 "French Street Name Signs"''' {{---}} набор данных с изображениями, на которых есть названия французских улиц. Текст на изображениях на французском языке. Датасет предназначен для следующих задач оптического распознавани символов: сквозное распознавание.
{| class="wikitable"
|-
! Наименование датасета
! Тип текста
! Количество объектов
! Количество обучающих объектов
! Количество обучающих слов
! Количество тестовых слов
! Язык текста на изображениях
! Задачи
|-
| ICDAR 2017 "COCO-Text"
| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст
| 63686
| 43686
| -
| -
| Французский
| сквозное распознавание
|-
| ICDAR 2017 "Multi-lingual Scene Text"
| изображения с текстом на 9 различных языках
| 18 000
| -
| -
| -
| Английский, Арабский, Бенгальский, Китайский, Французский, Немецкий, Японский, Корейский
| обнаружение текста, сегментация текста
|-
| ICDAR 2017 "French Street Name Signs"
| изображения, на которых есть названия француззских улиц
| 1 081 422, где каждое изображение содержит до 4 объектов с названией улицы
| -
| -
| -
| Английский
| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание
|}
 
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARCOCO.png |x250px|center|thumb|Рисунок 25. ICDAR "COCO-Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>
 
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARMSTD.png |x250px|center|thumb|Рисунок 26. ICDAR "Multi-lingual Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>
 
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARFS2.png |x150px|center|thumb|Рисунок 27. ICDAR "French Street Name Signs". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>
===ICDAR 2019===
 
'''ICDAR 2019 "COCO-Text"''' {{---}} набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст. Текст на изображениях на английском, немецком, французском и других языках. Датасет предназначен для следующих задач оптического распознавани символов: сквозное распознавание.
 
'''ICDAR 2019 "Multi-lingual Scene Text"''' {{---}} набор данных, где собраны изображения с текстом на 10 языках. Текст на изображениях на арабском, английском, деванагари, немецком, бенгальском, китайском, японском, французском, корейском языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, идентификация скрипта, сквозное распознавание.
 
'''ICDAR 2019 "Scene Text Visual Question Answering"''' {{---}} набор данных, включающий 23 038 изображений с 31 791 парой вопросов и ответов, где ответ всегда основан на присутствующих текстовых экземплярах на изображении. Текст на изображениях на янглийском языке. Датасет предназначен для следующих задач оптического распознавани символов: ответ на вопрос, связанный с изображением.
 
{| class="wikitable"
|-
! Наименование датасета
! Тип текста
! Количество объектов
! Количество обучающих объектов
! Количество обучающих слов
! Количество тестовых слов
! Язык текста на изображениях
! Задачи
|-
| ICDAR 2019 "COCO-Text"
| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст
| 63686
| 43686
| -
| -
| Французский
| сквозное распознавание
|-
| ICDAR 2019 "Multi-lingual Scene Text"<ref>https://arxiv.org/pdf/1907.00945.pdf</ref>
| изображения с текстом на 10 различных языках
| 20 000 (2 000 для каждого языка) + 277 000 сгенерированных изображения
| 10 000
| -
| -
| Английский, Арабский, Бенгальский, Деванагари, Китайский, Французский, Немецкий, Японский, Корейский
| обнаружение текста, идентификация скрипта, сквозное распознавание
|-
| ICDAR 2019 "Scene Text Visual Question Answering"
| набор данных, включающий23 038 изображений с 31 791 парой вопросов и ответов,где ответ всегда основан на присутствующих текстовых экземплярахна изображении.
| -
| -
| -
| -
| Английский
| ответ на вопрос, связанный с изображением
|}
{|align<div class="centeroo-ui-panelLayout-scrollable" |-valignstyle="top" |[[Файлdisplay:ICDARSamples.png |600px|thumb|Рисунок 22. Сэмплы из датасетов ICDAR 2011, ICDAR 2015, ICDAR 2017]] |} {|block; vertical-align=:middle; height: auto; width: auto;"center" |-valign="top" |>[[Файл:ICDAR2019Sample.png |600pxx1400px|center|thumb|Рисунок 2328. Сэмпл из датасета ICDAR 2019 "Scene Text Visual Question Answering". [https://arxiv.org/pdf/1907.00490.pdf Источник]] |}]</div>
==Pointing'04==
{|align="center"
|-valign="top"
|[[Файл:Pointing.png|600px|thumb|Рисунок 2429. Пример сета изображений Pointing'04 [https://www.researchgate.net/publication/221545772_Evaluation_of_Head_Pose_Estimation_for_Studio_Data Источник]]]
|}
{|align="right"
|-valign="top"
|[[Файл:FASSEG3.png|300px|thumb|Рисунок 2530. Сегментация изображения [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf Источник]]]
|}
Изображение размечается на 6 сегментов (см. рис. 2530):
*глаза;
*нос;
{|align="center"
|-valign="top"
|[[Файл:FASSEG1.png|300px|thumb|Рисунок 2631. Пример изображений из датасетов Frontal01 и Frontal02 [https://raw.githubusercontent.com/massimomauro/FASSEG-dataset/master/other/V1V2_diff.png Оригинал]]] |[[Файл:FASSEG2.png|400px|thumb|Рисунок 2732. Пример изображений из датасета Multipose01 [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf Источник]]]
|}
 
==MPI==
{|align="right"
|-valign="top"
|[[Файл: MPI1.jpg|500px|thumb|Рисунок 2833. Пример изображений из подкласса датасета MPI [http://human-pose.mpi-inf.mpg.de/#dataset Источник]]]
|}
Датасет представлен двадцатью различными классами активности: езда на велосипеде, упражнения, танцы, рыбалка и охота, домашняя активность, ремонт, отдых, активность на природе, игра на музыкальных инструментах, религиозная деятельность, бег, самоуход, спорт, передвижение на транспорте, волонтерство, прогулки, активность на воде, зимние виды активности, разное.
Каждый класс также разделен на уникальные подклассы. Пример такого разделения приведен на рисунке 2833.
Датасет снабжен документацией с описанием структуры объектов и методами взаимодействия с ними, всю необходимую информацию по датасету, как и сами исходники, можно получить по [http://human-pose.mpi-inf.mpg.de/ ссылке].
Анонимный участник

Навигация