Изменения

Перейти к: навигация, поиск

Известные наборы данных

4344 байта добавлено, 8 апрель
Код
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn import metrics
iris=load_iris()
X = iris.data
Y = iris.target
X, Y = shuffle(X, Y)
n = len(iris.data)
train = n // 2
2 0.88 0.96 0.92 23
avg / total 0.95 0.95 0.95 75
 
==MNIST==
from sklearn.datasets import fetch_mldatafetch_openml
from numpy import arange
import random
[[Файл:Mnist-predict.png|мини|Рисунок 2. Результат работы классификатора]]
mnist = fetch_mldatafetch_openml('MNIST originalMNIST_784')
indices = arange(len(mnist.data))
randidx = random.sample(list(indices), 500)
expected = Y[train:]
predicted = clf.predict(X[train:])
print("Classification report for classifier %s:\n%s\n" % (clf, metrics.classification_report(expected, predicted)))
digit precision recall f1-score support
[[Файл:CelebA.jpg|мини|Рисунок 19. Пример изображений из CelebA [http://mmlab.ie.cuhk.edu.hk/projects/CelebA/overview.png Оригинал]]]
===Описание===
CelebA (англ. CelebFaces Attributes Dataset) {{---}} это крупномасштабный набор данных атрибутов лиц, содержащий более 200 тысяч изображений знаменитостей (см. рис. 19). Изображения в этом наборе данных охватывают лица людей с разных ракурсов. Изображения в CelebA имеют большое разнообразие, большое количество и богатые аннотацииБолее подробная характеристика датасета: 10 177 уникальных личностей, 202 599 изображений лиц и 5 ориентиров, 40 бинарных аннотаций атрибутов на изображение. Эти данные были первоначально собраны исследователями из MMLAB<ref>http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html[http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html]</ref>, Китайского университета Гонконга.
Набор данных можно использовать в качестве обучающих и тестовых наборов для следующих задач [[Компьютерное зрение|компьютерного зрения]]: распознавание атрибутов лица, обнаружение лиц и локализация ориентиров (или части лица).
Ниже приведен список бинарных атрибутов в CelebA, где отдельный атрибут {{---}} одна из характеристик лица.
Более подробно со всеми атрибутами можно ознакомиться [https://www.tensorflow.org/datasets/catalog/celeb_a здесь]
[[Файл:CelebaAttributes.png{|600pxclass="wikitable"|thumb-! Индекс атрибута! Наименование! Пояснение|-|centre1|[https:5oClockShadow| щетина, появшившаяся в течение дня|-| 2| ArchedEyebrows| изогнутые брови|-| 3| Attractive| привлекательный/ая|-| 4| BagsUnderEyes| мешки под глазами|-| 5| Bald| лысый|-| 6| Bangs| челка|-| 7| BigLips| большие губы|-| 8| BigNose| большой нос|-| 9| BlackHair| темные волосы|-| 10| BlondHair| блондинистые волосы|-| 11| Blurry| размытый|-| 12| BrownHair | русые волосы|-| 13| BushyEyebrows| густые брови|-| 14| Chubby| полный|-| 15| DoubleChin| второй подбородок|-| 16| Eyeglasses| очки|-| 17| Goatee| козлиная бородка/towardsdatascience.com/celebaэспаньолка|-| 18| GrayHair| седые волосы|-| 19| HeavyMakeup| много макияжа|-| 20| HighCheekBones| высокие скулы|-| 21| Male| мужчина|-| 22| MouthSlighltyOpen| слегка приоткрытый рот|-| 23| Mustache| усы|-| 24| NarrowEyes| узкий разрез глаз|-| 25| NoBeard| отсутствет борода|-| 26| OvalFace| овальное лицо|-| 27| PaleSkin| бледная кожа|-| 28| PointyNose| заостренный нос|-| 29| RecedingHairline| залысина|-| 30| RosyCheeks| розовые щеки|-attribute| 31| Sideburns| бакенбарды|-prediction| 32| Smiling| улыбка|-and| 33| StraightHair| прямые волосы|-clustering| 34| WavyHair| волнистые волосы|-with| 35| WearingEarrings| присутствует серьга/серьги|-keras| 36| WearingHat| присутствует шляпа|-| 37| WearingLipstick| накрашены губы|-| 38| WearingNecklace| присутствует ожерелье|-| 39| WearingNecktie| присутствует галстук|-3d148063098d Источник]]]| 40| Young| молодой/ая|}
==CityScapes==
===Результаты===
Основной метрикой для этого набора данных является [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]]. Также, хорошо известно, что глобальная мера [[Оценка качества в задаче кластеризации#Индекс Ыеиндекса Жаккара (англ. Jaccard Index)|индекса Жаккара]] смещена в сторону экземпляров объектов, которые покрывают большую область изображения. В уличных сценах с их сильным изменением масштаба это может быть проблематично.
Чтобы решить эту проблему, создатели датасета дополнительно оценивают семантическую маркировку, используя метрику пересечения по объединению на уровне экземпляра <math>
iIoU = \dfrac{iTP}{iTP + FP + iFN}
[[Файл:ICDAR2017.png|мини|Рисунок 21. Пример изображения из датасета ICDAR2017 Competition on Multi-lingual Scene Text Detection and Script Identification (MLT) [https://arxiv.org/pdf/1812.05219.pdf Источник]]]
===Описание===
ICDAR<ref>https://rrc.cvc.uab.es/</ref> (англ. International Conference on Document Analysis and Recognition) {{---}} это международная конференция по анализу и распознаванию текста и одноименное семейство набора данных, состоящее из фотографий (см. рис. 21, 22 и 23), на которых изображен текст на разных языках. Данные наборы создаются для соревнований RRC (англ.Robust Reading Competition), где требуется решить следующие задачи: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание, распознавание скриптов, ответы на вопросы, связанные с изображениями.
Ниже приведен анализ наборов данных ICDAR2013, ICDAR2015, ICDAR2017, ICDAR2019.
|}
{<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARBDI.png|alignthumb|alt=ICDAR "Born Digital Images"|x200px|center|Рисунок 22. ICDAR "Born Digital Images". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div> |<div class="oo-ui-panelLayout-valignscrollable" style="topdisplay: block; vertical-align:middle; height: auto; width: auto;" |>[[Файл:ICDARBDIICDARFST2.png |600pxx150px|center|thumb|Рисунок 23. ICDAR "Born Digital ImagesFocused Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]] ]</div> |}
{|align="center"
|-valign="top"
|[[Файл:ICDARFST.png |600px|thumb|ICDAR "Focused Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]
|}
| 5003
| 3564
| 1439
|-
| ICDAR 2015 "Focused Scene Text"
|}
{|align<div class="centeroo-ui-panelLayout-scrollable" |-valignstyle="topdisplay: block; vertical-align:middle; height: auto; width: auto;" |>[[Файл:ICDARIST.png |600pxx150px|center|thumb|Рисунок 24. ICDAR "Incidental Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]] |}]</div>
===ICDAR 2017===
 
'''ICDAR 2017 "COCO-Text"''' {{---}} набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст. Текст на изображениях на английском, немецком, французском и других языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, распознавание символов , сквозное распознавание.
 
'''ICDAR 2017 "Multi-lingual Scene Text"''' {{---}} набор данных, где собраны изображения с текстом на 9 языках. Текст на изображениях на арабском, английском, немецком, бенгальском, китайском, японском, французском, корейском языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, сегментация текста.
 
'''ICDAR 2017 "French Street Name Signs"''' {{---}} набор данных с изображениями, на которых есть названия французских улиц. Текст на изображениях на французском языке. Датасет предназначен для следующих задач оптического распознавани символов: сквозное распознавание.
{| class="wikitable"
|-
! Наименование датасета
! Тип текста
! Количество объектов
! Количество обучающих объектов
! Количество обучающих слов
! Количество тестовых слов
! Язык текста на изображениях
! Задачи
|-
| ICDAR 2017 "COCO-Text"
| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст
| 63686
| 43686
| -
| -
| Французский
| сквозное распознавание
|-
| ICDAR 2017 "Multi-lingual Scene Text"
| изображения с текстом на 9 различных языках
| 18 000
| -
| -
| -
| Английский, Арабский, Бенгальский, Китайский, Французский, Немецкий, Японский, Корейский
| обнаружение текста, сегментация текста
|-
| ICDAR 2017 "French Street Name Signs"
| изображения, на которых есть названия француззских улиц
| 1 081 422, где каждое изображение содержит до 4 объектов с названией улицы
| -
| -
| -
| Английский
| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание
|}
 
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARCOCO.png |x250px|center|thumb|Рисунок 25. ICDAR "COCO-Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>
 
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARMSTD.png |x250px|center|thumb|Рисунок 26. ICDAR "Multi-lingual Scene Text". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>
 
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:ICDARFS2.png |x150px|center|thumb|Рисунок 27. ICDAR "French Street Name Signs". [https://arxiv.org/pdf/1812.05219.pdf Источник]]]</div>
===ICDAR 2019===
 
'''ICDAR 2019 "COCO-Text"''' {{---}} набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст. Текст на изображениях на английском, немецком, французском и других языках. Датасет предназначен для следующих задач оптического распознавани символов: сквозное распознавание.
 
'''ICDAR 2019 "Multi-lingual Scene Text"''' {{---}} набор данных, где собраны изображения с текстом на 10 языках. Текст на изображениях на арабском, английском, деванагари, немецком, бенгальском, китайском, японском, французском, корейском языках. Датасет предназначен для следующих задач оптического распознавани символов: обнаружение текста, идентификация скрипта, сквозное распознавание.
 
'''ICDAR 2019 "Scene Text Visual Question Answering"''' {{---}} набор данных, включающий 23 038 изображений с 31 791 парой вопросов и ответов, где ответ всегда основан на присутствующих текстовых экземплярах на изображении. Текст на изображениях на янглийском языке. Датасет предназначен для следующих задач оптического распознавани символов: ответ на вопрос, связанный с изображением.
 
{| class="wikitable"
|-
! Наименование датасета
! Тип текста
! Количество объектов
! Количество обучающих объектов
! Количество обучающих слов
! Количество тестовых слов
! Язык текста на изображениях
! Задачи
|-
| ICDAR 2019 "COCO-Text"
| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст
| 63686
| 43686
| -
| -
| Французский
| сквозное распознавание
|-
| ICDAR 2019 "Multi-lingual Scene Text"<ref>https://arxiv.org/pdf/1907.00945.pdf</ref>
| изображения с текстом на 10 различных языках
| 20 000 (2 000 для каждого языка) + 277 000 сгенерированных изображения
| 10 000
| -
| -
| Английский, Арабский, Бенгальский, Деванагари, Китайский, Французский, Немецкий, Японский, Корейский
| обнаружение текста, идентификация скрипта, сквозное распознавание
|-
| ICDAR 2019 "Scene Text Visual Question Answering"
| набор данных, включающий23 038 изображений с 31 791 парой вопросов и ответов,где ответ всегда основан на присутствующих текстовых экземплярахна изображении.
| -
| -
| -
| -
| Английский
| ответ на вопрос, связанный с изображением
|}
{|align<div class="centeroo-ui-panelLayout-scrollable" |-valignstyle="top" |[[Файлdisplay:ICDARSamples.png |600px|thumb|Рисунок 22. Сэмплы из датасетов ICDAR 2011, ICDAR 2015, ICDAR 2017]] |} {|block; vertical-align=:middle; height: auto; width: auto;"center" |-valign="top" |>[[Файл:ICDAR2019Sample.png |600pxx1400px|center|thumb|Рисунок 2328. Сэмпл из датасета ICDAR 2019 "Scene Text Visual Question Answering". [https://arxiv.org/pdf/1907.00490.pdf Источник]] |}]</div>
==Pointing'04==
{|align="center"
|-valign="top"
|[[Файл:Pointing.png|600px|thumb|Рисунок 2429. Пример сета изображений Pointing'04 [https://www.researchgate.net/publication/221545772_Evaluation_of_Head_Pose_Estimation_for_Studio_Data Источник]]]
|}
{|align="right"
|-valign="top"
|[[Файл:FASSEG3.png|300px|thumb|Рисунок 2530. Сегментация изображения [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf Источник]]]
|}
Изображение размечается на 6 сегментов (см. рис. 2530):
*глаза;
*нос;
{|align="center"
|-valign="top"
|[[Файл:FASSEG1.png|300px|thumb|Рисунок 2631. Пример изображений из датасетов Frontal01 и Frontal02 [https://raw.githubusercontent.com/massimomauro/FASSEG-dataset/master/other/V1V2_diff.png Оригинал]]] |[[Файл:FASSEG2.png|400px|thumb|Рисунок 2732. Пример изображений из датасета Multipose01 [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf Источник]]]
|}
 
==MPI==
{|align="right"
|-valign="top"
|[[Файл: MPI1.jpg|500px|thumb|Рисунок 2833. Пример изображений из подкласса датасета MPI [http://human-pose.mpi-inf.mpg.de/#dataset Источник]]]
|}
Датасет представлен двадцатью различными классами активности: езда на велосипеде, упражнения, танцы, рыбалка и охота, домашняя активность, ремонт, отдых, активность на природе, игра на музыкальных инструментах, религиозная деятельность, бег, самоуход, спорт, передвижение на транспорте, волонтерство, прогулки, активность на воде, зимние виды активности, разное.
Каждый класс также разделен на уникальные подклассы. Пример такого разделения приведен на рисунке 2833.
Датасет снабжен документацией с описанием структуры объектов и методами взаимодействия с ними, всю необходимую информацию по датасету, как и сами исходники, можно получить по [http://human-pose.mpi-inf.mpg.de/ ссылке].
Анонимный участник

Навигация