Изменения

Известные наборы данных

202 байта добавлено, 23:35, 18 января 2021

Нет описания правки

===Описание===

[[Файл:MnistExamples.png|мини| ~~Рис.~~ Рисунок 1. Примеры изображений из датасета MNIST [https://en.wikipedia.org/wiki/MNIST_database#/media/File:MnistExamples.png Оригинал]]]

Набор данных MNIST {{---}} большой (порядка 60 000 тренировочных и 10 000 проверочных объектов, помеченных на принадлежность одному из десяти классов {{---}} какая цифра изображена на картинке) набор картинок с рукописными цифрами, часто используемый для тестирования различных алгоритмов распознавания образов. Он содержит черно-белые картинки размера 28x28 пикселей, исходно взятые из набора образцов из бюро переписи населения США, к которым были добавлены тестовые образцы, написанные студентами американских университетов. На рисунке 1 представлены примеры рукописных цифр из данного датасета.

from sklearn import datasets, svm, metrics

[[Файл:Mnist-predict.png|мини|~~Рис.~~ Рисунок 2. Результат работы классификатора]]

mnist = fetch_mldata('MNIST original')

===Описание===

[[Файл:Cifar-10.png|мини|~~Рис.~~ Рисунок 3. Примеры изображений из датасета CIFAR-10 [https://medium.com/@jannik.zuern/training-a-cifar-10-classifier-in-the-cloud-using-tensorflow-and-google-colab-f3a5fbdfe24d Источник]]]

CIFAR-10 (Canadian Institute For Advanced Research) {{---}} еще один большой набор изображений, который обычно используется для тестирования алгоритмов машинного обучения. Он содержит 60 000 цветных картинок размером 32х32 пикселя, размеченных в один из десяти классов: самолеты, автомобили, коты, олени, собаки, лягушки, лошади, корабли и грузовики. В наборе данных по 6000 картинок каждого класса, примеры некоторых из них приведены на рисунке 3. CIFAR-10 является размеченным подмножеством заметно большего набора данных, состоящего примерно из восьмидесяти миллионов изображений.

===Описание===

[[Файл:Imagenet.png|мини| ~~Рис.~~ Рисунок 4. Пример разметки объектов в датасете ImageNet [http://www.image-net.org/challenges/LSVRC/2014/ Источник]]]

База данных Imagenet {{---}} проект по созданию и сопровождению массивной базы данных аннотированных изображений. Аннотация изображений происходит путем краудсорсинга сообществом. Из-за этого достигается большое количество размеченных данных.

===Imagenet Challenge===

[[Файл:Imagenet-contest.png|мини| ~~Рис.~~ Рисунок 5. Лучшие результаты на Imagenet Challenge за различные годы [https://en.wikipedia.org/wiki/File:ImageNet_error_rate_history_(just_systems).svg Оригинал]]]

Вместе с публикацией набора данных стартовал конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC<ref>http://www.image-net.org/challenges/LSVRC/[http://www.image-net.org/challenges/LSVRC/]</ref>). В его рамках участникам предлагается достигнуть наибольшей точности при классификации набора изображений. Организаторы использовали около тысячи различных категорий объектов, которые нужно классифицировать. На примере этого конкурса хорошо видно, как в 2010-е годы люди научились заметно лучше распознавать образы на изображениях, уже в 2017 году большинство участвующих команд преодолели порог в 95% правильных ответов. История улучшения результатов представлена на рисунке 5. Эта задача, проблема компьютерного зрения, имеет огромное практическое значение во многих прикладных областях.

===Описание===

[[Файл:ADE20K_merged.png|мини|~~400px~~300px|~~Рис.~~ Рисунок 6. Изображение из ADE20K и его разбиение на части.]]

ADE20K {{---}} набор изображений с размеченными сущностями, который хорошо подходит для задачи [[Сегментация изображений|семантической сегментации данных]] в компьютерном зрении, пример разметки приведен на рисунке 6. Особенность этого набора состоит в том, что кроме объектов приводится также информация об их составных частях: например, если на изображении находится человек, то в дополнение к местоположению его фигуры будет также приведено положение его глаз и носа.

===Описание===

[[Файл:Coco-examples.jpg|мини| ~~Рис.~~ 400px| Рисунок 7. Пример изображений из MS Coco [http://cocodataset.org/images/coco-examples.jpg Оригинал]]]

MS COCO (англ. ''Common Objects in Context'') {{---}} большой набор изображений. Состоит из более чем 330000 изображений (220000 {{---}} размеченных), с более чем 1.5 милионов объектов на них. Примеры изображений приведены на рисунке 7. Все объекты находятся в их естественном окружении (контексте). Изображения, как правило, содержат объекты разных классов (только 10% имеют единственный класс). Все изображения сопровождаются аннотациями, хранящихся в json формате. Подробнее о структуре аннотаций можно прочитать [http://cocodataset.org/#format-data здесь].

{|align="center"

|-valign="top"

|[[Файл:Detection-analysis-person.jpg|мини| ~~Рис.~~ Рисунок 8. PR кривые для класса "Person" [http://cocodataset.org/images/detection-analysis-person.jpg Оригинал]]] |[[Файл:Detection-analysis-all.jpg|мини|~~Рис.~~ Рисунок 9. Усредненные значения для всех классов [http://cocodataset.org/images/detection-analysis-all.jpg Оригинал]]]

|}

plt.show()

[[Файл:Coco-1.png |мини| center|~~Рис.~~ Рисунок 10. Пример изображения из датасета COCO [https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoDemo.ipynb Оригинал]]]

# load and display instance annotations

coco.showAnns(anns)

[[Файл:Coco-2.png|мини|center|~~Рис.~~ Рисунок 11. Пример обнаруженного объекта [https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoDemo.ipynb Оригинал]]]

==Fashion-MNIST==

===Описание===

[[Файл:FMNIST.png|мини|~~Рис.~~ Рисунок 12. Пример изображений из Fashion-MNIST]]

Fashion-MNIST {{---}} это набор изображений, взятых из статей [https://jobs.zalando.com/en/tech/?gh_src=nevh2y1 Zalando], состоящий из обучающего набора из 60000 примеров и тестового набора из 10000 примеров. Каждый пример представляет собой черно-белое изображение 28x28 (см. рис. 12), связанное с меткой из 10 классов. Создатели Fashion-MNIST предложили его в качестве прямой замены исходного набора данных MNIST, состоящего из рукописных цифр, для сравнительного анализа алгоритмов машинного обучения. Он имеет одинаковый размер изображения и структуру разделений для обучения и тестирования. Аргументировали необходимость такой замены тем, что исходный набор данных MNIST действительно хорошо отражает возможность алгоритма хоть что-то классифицировать, но если алгоритм работает на стандартном MNIST, он все равно может не сработать на других примерах данных. Также на наборе данных MNIST научились достигать слишком высоких результатов точности (97% для классических алгоритмов машинного обучения и 99.7% для сверточных нейронных сетей), в то время как MNIST не отражает современных сложных проблем компьютерного зрения. Это позволило сделать предположение о том, что набор данных MNIST слишком простой по современным меркам и его требуется заменить.

==Caltech-UCSD Birds 200 (CUB)==

[[Файл:cub_dataset_logo.jpg |мини|~~Рис.~~ Рисунок 13. Пример изображений из CUB [http://www.vision.caltech.edu/visipedia/collage.jpg Оригинал]]]

===Описание===

Caltech-UCSD Birds 200 {{---}} это набор данных, содержащий изображения птиц. Данный набор включает в себя фотографии 200 видов птиц. Большинство видов птиц, представленных в наборе данных, являются североамериканскими. Общее количество категорий птиц составляет 200, в набор данных 2010 года включены 6033 изображения, а в набор данных 2011 года {{---}} 11 788 изображений, некоторые из них приведены на рисунке 13.

{|align="center"

|-valign="top"

|[[Файл:birds_annotations.png|800px|мини|~~Рис.~~ Рисунок 14. Изображения и аннотации из CUB-200]]

|}

==102 Category Flower==

===Описание===

[[Файл:flowers-examples.jpg|мини|~~Рис.~~ Рисунок 15. Примеры изображений из Oxford Flowers 102]]

Oxford Flowers 102 {{---}} набор данных, состоящий из цветов, встречающихся в Соединенном Королевстве. Набор стоит состоит из 102 видов цветов и содержит от 40 до 258 изображений каждого вида. Примеры изображений из данного датасета приведены на рисунке 15. Все изображения имеют крупный масштаб. Цветы представлены в различных ракурсах и вариациях освещения. Кроме того, в наборе присутствуют виды цветов очень похожие друг на друга. Графы соседства цветков по различным признакам представлены на рисунках 16 и 17.

{|align="center"

|-valign="top"

|[[Файл:cad_Shapeiso.jpg|мини|~~Рис.~~ Рисунок 16. Граф соседства по форме [https://www.robots.ox.ac.uk/~vgg/data/flowers/102/shapeiso.jpg Оригинал]]] |[[Файл:cad_Colouriso.jpg|мини|~~Рис.~~ Рисунок 17. Граф соседства по цвету [https://www.robots.ox.ac.uk/~vgg/data/flowers/102/colouriso.jpg Оригинал]]]

|}

==Visual Genome==

[[Файл:Visual_Genome_учфьзду.png|мини| 600px|~~Рис.~~ Рисунок 18. Результат визуализации]]

===Описание===

Visual Genome {{---}} это набор данных, связывающий изображения со словесным описанием их содержимого. Является исчерпывающим набором данных для обучения и тестирования моделей компьютерного зрения, обеспечивает обширный анализ содержимого в изображениях с учетом зависимостей между объектами. Это позволяет использовать набор данных для решения большого количества различных задач: от поиска объектов до поиска отношений, требующих дальнейшего вывода, и даже задачи, связанные с ответами на вопросы.

==CelebA==

[[Файл:CelebA.jpg|мини|~~Рис.~~ Рисунок 19. Пример изображений из CelebA [http://mmlab.ie.cuhk.edu.hk/projects/CelebA/overview.png Оригинал]]]

===Описание===

CelebA (CelebFaces Attributes Dataset) {{---}} это крупномасштабный набор данных атрибутов лиц, содержащий более 200 тысяч изображений знаменитостей (см. рис. 19). Изображения в этом наборе данных охватывают большие вариации поз и беспорядок на фоне. CelebA имеет большое разнообразие, большое количество и богатые аннотации: 10 177 уникальных личностей, 202 599 изображений лиц и 5 ориентиров, 40 бинарных аннотаций атрибутов на изображение. Эти данные были первоначально собраны исследователями из MMLAB<ref>http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html[http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html]</ref>, Китайского университета Гонконга.

==CityScapes==

[[Файл:CityscapesZuerich.jpg|мини|~~Рис.~~ Рисунок 20. Пример изображения из CityScapes [https://www.cityscapes-dataset.com/examples/ Источник]]]

===Описание===

CityScapes<ref>https://www.cityscapes-dataset.com/</ref> {{---}} это набор данных, состоящий из разнообразных городских уличных сцен в 50 разных городах в разное время года. Данный набор хорошо подходит для задач компьютерного зрения, таких как: [[Сегментация изображений|семантическая сегментация данных]], сегментация на уровне экземпляра и вывод несоответствия стереопар. Пример изображения из данного датасета представлен на рисунке 20.

==ICDAR==

[[Файл:ICDAR2017.png|мини|~~Рис.~~ Рисунок 21. Пример изображения из датасета ICDAR2017 Competition on Multi-lingual Scene Text Detection and Script Identification (MLT) [https://arxiv.org/pdf/1812.05219.pdf Источник]]]

===Описание===

ICDAR<ref>https://rrc.cvc.uab.es/</ref> (англ. International Conference on Document Analysis and Recognition) {{---}} это международная конференция по анализу и распознаванию текста и одноименное семейство набора данных, состоящее из фотографий (см. рис. 21, 22 и 23), на которых изображен текст на разных языках. Данные наборы создаются для соревнований RRC (англ.Robust Reading Competition), где требуется решить следующие задачи: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание, распознавание скриптов, ответы на вопросы, связанные с изображениями.

{|align="center"

|-valign="top"

|[[Файл:ICDARSamples.png |600px|thumb|~~Рис.~~ Рисунок 22. Сэмплы из датасетов ICDAR 2011, ICDAR 2015, ICDAR 2017]]

|}

{|align="center"

|-valign="top"

|[[Файл:ICDAR2019Sample.png |600px|thumb|~~Рис.~~ Рисунок 23. Сэмпл из датасета ICDAR 2019 "Scene Text Visual Question Answering"]]

|}

{|align="center"

|-valign="top"

|[[Файл:Pointing.png|600px|thumb|~~Рис.~~ Рисунок 24. Пример сета изображений Pointing'04 [https://www.researchgate.net/publication/221545772_Evaluation_of_Head_Pose_Estimation_for_Studio_Data Источник]]]

|}

{|align="right"

|-valign="top"

|[[Файл:FASSEG3.png|300px|thumb|~~Рис.~~ Рисунок 25. Сегментация изображения [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf Источник]]]

|}

{|align="center"

|-valign="top"

|[[Файл:FASSEG1.png|300px|thumb|~~Рис.~~ Рисунок 26. Пример изображений из датасетов Frontal01 и Frontal02 [https://raw.githubusercontent.com/massimomauro/FASSEG-dataset/master/other/V1V2_diff.png Оригинал]]] |[[Файл:FASSEG2.png|400px|thumb|~~Рис.~~ Рисунок 27. Пример изображений из датасета Multipose01 [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf Источник]]]

|}

{|align="right"

|-valign="top"

|[[Файл: MPI1.jpg|500px|thumb|~~Рис.~~ Рисунок 28. Пример изображений из подкласса датасета MPI [http://human-pose.mpi-inf.mpg.de/#dataset Источник]]]

|}

Evaleria

174

правки

Изменения

Известные наборы данных

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты