Викиконспекты - Вклад участника [ru]

Известные наборы данных

2021-01-18T18:46:45Z

Truff4ut:

==Обзор==

Для многих алгоритмов машинного обучения требуется большое количество данных. Кроме того, что моделям нужны данные для обучения, нужно сравнивать эффективность разных моделей. Поскольку поиск хороших наборов данных и их разметка {{---}} трудная задача, на помощь приходят уже собранные и размеченные наборы данных, для которых зачастую уже опубликованы результаты каких-то алгоритмов, и можно оценить, насколько хорошо работает исследуемая модель.

В этой статье рассмотрены с примерами несколько популярных наборов данных. Другие классические наборы можно посмотреть, например, на википедии<ref>https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research[https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research]</ref>.

{| class="wikitable"
|-
! Набор данных
! Какие объекты
! Число объектов
! Число классов
! Доля ошибок лучшего опубликованного алгоритма
|-
| Iris
| Данные измерений четырех параметров цветков ириса
| 150
| 3
| N/A, малый размер набора данных
|-
| MNIST
| Рукописные цифры, черно-белые изображения 32х32 пикселя
| 70 000
| 10
| 0.18% <ref>https://arxiv.org/pdf/1805.01890.pdf[https://arxiv.org/pdf/1805.01890.pdf]</ref>
|-
| CIFAR-10
| Фотографии объектов разных классов, цветные изображения 32х32 пикселя
| 60 000
| 10
| 1.23% <ref>https://arxiv.org/pdf/1805.09501.pdf[https://arxiv.org/pdf/1805.09501.pdf]</ref>
|-
| ImageNet
| Фотографии с указанием классов объектов на изображении и их позиций
| Больше 14 миллионов
| Больше 21 тысячи
| Большое количество различных метрик, см. ImageNet Competition. 1-5% на классификацию
|-
| ADE20K
| Фотографии с указанием семантической сегментации сущностей на них. Для каждого объекта также приведена его сегментация на части
| 22 210 (434 826 вхождений объектов)
| 3 169
| 17.93% <ref>https://arxiv.org/pdf/2004.08955v1.pdf</ref>
|-
| Coco
| Фотографии сложных повседневных сцен, содержащих объекты в их естественном окружении.
| 328 000 изображений (более 2.5 миллионов вхождений объектов)
| 91
| Много метрик. Зависит, в частности, от площади, занимаемой объектом на изображении. <ref>http://cocodataset.org/#detection-leaderboard[http://cocodataset.org/#detection-leaderboard]</ref>
|-
| Fashion-MNIST
| Черно-белые фотографии различных видов одежды, 28x28 пикселей.
| 60000 изображений + 10000 тестовых изображений
| 10
| 3.3% (WRN40-4 8.9M params) <ref>https://github.com/zalandoresearch/fashion-mnist[https://github.com/zalandoresearch/fashion-mnist]</ref>
|-
|-
| Boston housing
| Данные о недвижимости в районах Бостона.
| 506
| 13
| RMSE-1.33055
|-
| Caltech-UCSD Birds 200
| Данные о видах птиц
| 11788
| 200
| не описано
|-
| 102 Category Flower
| Данные о видах цветов
| 8189
| 102
| не описано
|-
| Visual Genome
| Данные о связи объектов на картинке с текстом
| 108077
| 76340 объектов, 15626 атрибутов, 47 зависимостей
| Слишком много метрик <ref>https://arxiv.org/pdf/1602.07332.pdf [https://arxiv.org/pdf/1602.07332.pdf]</ref>
|-
| CelebA
| Изображения знаменитостей, охватывающие большие вариации поз
| Больше 200 тысяч
| 202 599 изображений лиц, 10 177 уникальных личностей, 5 ориентиров, 40 бинарных атрибутов
| не описано
|-
| Cityscapes
| Изображения городских улиц 50 городов с указанием семантической сегментации сущностей на них. Для каждого объекта также приведена его сегментация на части
| 5000 изображений с разрешением 1024 * 2048, предварительно разделенных на наборы для обучения (2975), проверки (500) и тестирования (1525) + 20000 изображений с грубыми аннотациями
| 30
| не описано
|-
| ICDAR 2017 "COCO Text"
| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, присутствует текст
| 63686 изображений, 43686 {{---}} обучающая выборка,10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая
| 173589 слов
| не описано
|-
| Pointing'04
| Изображения лиц людей с разными углами поворота и наклона
| 15 сетов по 186 изображений в каждом
| 93
| 7.9% <ref>https://www.researchgate.net/publication/221125207_Generalized_subspace_based_high_dimensional_density_estimation</ref>
|-
| FASSEG
| Изображения лиц людей с разными углами поворота, как в оригинале, так и в сегментированном виде
| Часть frontal01: 70, часть frontal02: 70, часть multipose01: 200
| frontal01 и frontal02 {{---}} разделяют изображение на 6 различных сегментов, multipose01 {{---}} 13 углов поворота
| 7.73% <ref>https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf</ref> для сегментации, 22.6% <ref>https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf</ref> для определения поз
|-
| MPI
| Изображения повседневной деятельности людей в различных позах
| 25 тысяч
| 410
| ~10% <ref>http://human-pose.mpi-inf.mpg.de/#results</ref>
|}

==Iris==

===Описание===

Iris {{---}} небольшой набор данных для задачи классификации, опубликованный еще в 1936 году Робертом Фишером, используя данные биолога Эдгара Андерсона. В этом наборе данных представлены по 50 описаний цветков одного из трех типов {{---}} Ирис щетинистый (Iris setosa), Ирис виргинский (Iris virginica) и Ирис разноцветный (Iris versicolor).

Для каждого цветка измерены четыре величины {{---}} длина чашелистника (англ. sepal length), ширина чашелистника (sepal width), длина лепестка (англ. petal length), ширина лепестка (англ. petal width). Все цветки промаркированы одним из трех типов, что позволяет тестировать на нем алгоритмы классификации. Интересное наблюдение {{---}} один из классов цветков линейно отделим от двух других.

===Пример===

{| class="wikitable"
|-
! Длина чашелистника
! Ширина чашелистника
! Длина лепестка
! Ширина лепестка
! Класс
|-
| 5.1
| 3.5
| 1.4
| 0.2
| setosa
|-
| 7.0
| 3.2
| 4.7
| 1.4
| versicolor
|-
| 6.3
| 3.3
| 6.0
| 2.5
| virginica
|-
|}

===Код===
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier

iris=load_iris()
X = iris.data
Y = iris.target
X, Y = shuffle(X, Y)
n = len(iris.data)
train = n // 2
clf = RandomForestClassifier(n_estimators=100, max_depth=2, random_state=0)
clf.fit(X[:train], Y[:train])
expected = Y[train:]
predicted = clf.predict(X[train:])
print("Classification report for classifier %s:\n%s\n"
% (clf, metrics.classification_report(expected, predicted)))

type precision recall f1-score support
0 1.00 1.00 1.00 28
1 0.95 0.88 0.91 24
2 0.88 0.96 0.92 23
avg / total 0.95 0.95 0.95 75

==MNIST==
===Описание===

[[Файл:MnistExamples.png|мини| Рис. 1. Примеры изображений из датасета MNIST [https://en.wikipedia.org/wiki/MNIST_database#/media/File:MnistExamples.png Оригинал]]]

Набор данных MNIST {{---}} большой (порядка 60 000 тренировочных и 10 000 проверочных объектов, помеченных на принадлежность одному из десяти классов {{---}} какая цифра изображена на картинке) набор картинок с рукописными цифрами, часто используемый для тестирования различных алгоритмов распознавания образов. Он содержит черно-белые картинки размера 28x28 пикселей, исходно взятые из набора образцов из бюро переписи населения США, к которым были добавлены тестовые образцы, написанные студентами американских университетов. На рисунке 1 представлены примеры рукописных цифр из данного датасета.

===Результаты===

На сайте<ref>http://yann.lecun.com/exdb/mnist/[http://yann.lecun.com/exdb/mnist/]</ref> MNIST можно найти список лучших результатов, достигнутых алгоритмами на это наборе данных. Так, худший из записанных результатов достигнут простым линейным классификатором (12% ошибок), а подавляющее большинство лучших результатов получены алгоритмами на основе нейронных сетей. Так, ансамбль из 35 сверточных нейронных сетей в 2012 году сумел получить всего 0.23% ошибок на наборе данных, что является очень хорошим результатом, вполне сравнимым с человеком.

===Код===
Простой пример, скачивающий набор данных и запускающий на нем один из классификаторов. Даже с уменьшением набора данных в сто раз и не самым подходящим классификатором точность выше половины угаданных цифр {{---}} заметно лучше, чем случайная разметка. С результатом работы данного кода можно ознакомиться на рисунке 2.

from sklearn.datasets import fetch_mldata
from numpy import arange
import random
from sklearn.tree import DecisionTreeClassifier
from sklearn import datasets, svm, metrics

[[Файл:Mnist-predict.png|мини|Рис. 2. Результат работы классификатора]]

mnist = fetch_mldata('MNIST original')
indices = arange(len(mnist.data))
randidx = random.sample(list(indices), 500)
mnist.data = mnist.data[randidx]
mnist.target = mnist.target[randidx]
X = mnist.data
Y = mnist.target
train = len(X)//2
clf = DecisionTreeClassifier(criterion="entropy", max_depth=5)
clf.fit(X[:train], Y[:train])
expected = Y[train:]
predicted = clf.predict(X[train:])
print("Classification report for classifier %s:\n%s\n"
% (clf, metrics.classification_report(expected, predicted)))

digit precision recall f1-score support
0 0.68 0.58 0.62 26
1 0.71 0.87 0.78 23
2 0.29 0.24 0.26 25
3 0.64 0.28 0.39 25
4 0.50 0.54 0.52 28
5 0.46 0.46 0.46 24
6 0.47 0.62 0.54 24
7 0.66 0.78 0.71 27
8 0.32 0.60 0.42 15
9 0.59 0.39 0.47 33
avg/total 0.54 0.53 0.52 250

==CIFAR-10==

===Описание===
[[Файл:Cifar-10.png|мини|Рис. 3. Примеры изображений из датасета CIFAR-10 [https://medium.com/@jannik.zuern/training-a-cifar-10-classifier-in-the-cloud-using-tensorflow-and-google-colab-f3a5fbdfe24d Источник]]]
CIFAR-10 (Canadian Institute For Advanced Research) {{---}} еще один большой набор изображений, который обычно используется для тестирования алгоритмов машинного обучения. Он содержит 60 000 цветных картинок размером 32х32 пикселя, размеченных в один из десяти классов: самолеты, автомобили, коты, олени, собаки, лягушки, лошади, корабли и грузовики. В наборе данных по 6000 картинок каждого класса, примеры некоторых из них приведены на рисунке 3. CIFAR-10 является размеченным подмножеством заметно большего набора данных, состоящего примерно из восьмидесяти миллионов изображений.

===Результаты===

С момента публикации CIFAR-10 вышло много статей, авторы которых пытаются добиться максимальной точности на этом наборе данных. В среднем более хорошие результаты показывают различные сверточные нейронные сети с различными вариантами настройки и дополнительной предобработки данных.

На википедии<ref>https://en.wikipedia.org/wiki/CIFAR-10#Research_Papers_Claiming_State-of-the-Art_Results_on_CIFAR-10[https://en.wikipedia.org/wiki/CIFAR-10#Research_Papers_Claiming_State-of-the-Art_Results_on_CIFAR-10]</ref> можно найти таблицу лучших публикаций с процентами ошибки на этом наборе данных. Так, лучший на сегодняшний момент алгоритм, опубликованный в мае 2018 года, допускает ошибку всего порядка 1.48%.

===Код===
Простой код, скачивающий CIFAR-10 из интернета и запускающий на нем стандартный классификатор.

from keras.datasets import cifar10
from sklearn.utils import shuffle

(x_train, y_train), (x_test, y_test) = cifar10.load_data()
X, Y = shuffle(x_train, y_train)
n = 1000
X, Y = X[:n], Y[:n]
X, Y = X.reshape((n, -1)), Y.reshape((n,))
train = n // 2
clf = DecisionTreeClassifier(criterion="entropy", max_depth=5)
clf.fit(X[:train], Y[:train])
expected = Y[train:]
predicted = clf.predict(X[train:])
print("Classification report for classifier %s:\n%s\n"
% (clf, metrics.classification_report(expected, predicted)))

==ImageNet==

===Описание===
[[Файл:Imagenet.png|мини| Рис. 4. Пример разметки объектов в датасете ImageNet [http://www.image-net.org/challenges/LSVRC/2014/ Источник]]]

База данных Imagenet {{---}} проект по созданию и сопровождению массивной базы данных аннотированных изображений. Аннотация изображений происходит путем краудсорсинга сообществом. Из-за этого достигается большое количество размеченных данных.

Особенность данного набора данных {{---}} про каждую картинку известно несколько фактов вида "в этом прямоугольнике есть автомобиль" (см. рис. 4), что в совокупности с индексом по типам объектов, которые есть на изображениях, позволяет обучить алгоритм для распознавания объектов какой-то конкретной категории. На август 2017 года в ImageNet 14 197 122 изображения, разбитых на 21 841 категорию.

===Imagenet Challenge===

[[Файл:Imagenet-contest.png|мини| Рис. 5. Лучшие результаты на Imagenet Challenge за различные годы [https://en.wikipedia.org/wiki/File:ImageNet_error_rate_history_(just_systems).svg Оригинал]]]

Вместе с публикацией набора данных стартовал конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC<ref>http://www.image-net.org/challenges/LSVRC/[http://www.image-net.org/challenges/LSVRC/]</ref>). В его рамках участникам предлагается достигнуть наибольшей точности при классификации набора изображений. Организаторы использовали около тысячи различных категорий объектов, которые нужно классифицировать. На примере этого конкурса хорошо видно, как в 2010-е годы люди научились заметно лучше распознавать образы на изображениях, уже в 2017 году большинство участвующих команд преодолели порог в 95% правильных ответов. История улучшения результатов представлена на рисунке 5. Эта задача, проблема компьютерного зрения, имеет огромное практическое значение во многих прикладных областях.

==ADE20K==

===Описание===
[[Файл:ADE20K_merged.png|мини|400px|Рис. 6. Изображение из ADE20K и его разбиение на части.]]
ADE20K {{---}} набор изображений с размеченными сущностями, который хорошо подходит для задачи [[Сегментация изображений|семантической сегментации данных]] в компьютерном зрении, пример разметки приведен на рисунке 6. Особенность этого набора состоит в том, что кроме объектов приводится также информация об их составных частях: например, если на изображении находится человек, то в дополнение к местоположению его фигуры будет также приведено положение его глаз и носа.

Подобные наборы данных часто страдают от несогласованности меток при их разметке сообществом. Для ADE20K эта проблема была решена {{---}} все изображения размечал только один человек, что обусловило высокую согласованность меток.

===Структура данных <ref>https://groups.csail.mit.edu/vision/datasets/ADE20K/#Description</ref>===
Всего в наборе данных находится 22 210 изображений, из них 20 210 составляют набор для обучения, а 2 000 {{---}} набор для проверки. Максимальный размер изображения {{---}} 4500x6000p. Минимальный {{---}} 130x96p. Средний размер изображений равен 1.5Мп. К каждому изображению прилагается его RGB-оригинал (*.jpg), сегментация на сущности (*_seg.png), несколько изображений с сегментацией на части (*_seg_N.png, где N {{---}} это число) и описание признаков на изображении (*.txt).

ADE20K также содержит дополнительный файл на языке MATLAB, который позволяет загрузить изображения и информацию об их признаках.

===Результаты===

Основными метриками для этого набора данных являются пиксельная точность (англ. Pixel accuracy), которая состоит из доли корректно классифицированных пикселей, и [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]]. На момент создания ADE20K, лучшие алгоритмы машинного обучения давали пиксельную точность равную ~76% и индекс Жаккара равный ~0.34 на проверочном множестве<ref>https://arxiv.org/pdf/1608.05442.pdf</ref>. Сейчас лучшей нейронной сетью для этого набора данных является [https://arxiv.org/pdf/2004.08955v1.pdf ResNeSt], который позволяет достичь 82.07% пиксельной точности и индекс Жаккара 46.91%.

==COCO==

===Описание===

[[Файл:Coco-examples.jpg|мини| Рис. 7. Пример изображений из MS Coco [http://cocodataset.org/images/coco-examples.jpg Оригинал]]]

MS COCO (англ. ''Common Objects in Context'') {{---}} большой набор изображений. Состоит из более чем 330000 изображений (220000 {{---}} размеченных), с более чем 1.5 милионов объектов на них. Примеры изображений приведены на рисунке 7. Все объекты находятся в их естественном окружении (контексте). Изображения, как правило, содержат объекты разных классов (только 10% имеют единственный класс). Все изображения сопровождаются аннотациями, хранящихся в json формате. Подробнее о структуре аннотаций можно прочитать [http://cocodataset.org/#format-data здесь].

COCO имеет пять типов аннотаций для разных задач:
* [[Задача нахождения объектов на изображении]]<tex>^\star</tex>
* Обнаружение ключевых точек. Обнаружение объектов и локализация их ключевых точек.
* Сегментация окружения (англ. ''Stuff Segmentation''). В отличии от задачи обнаружения объектов (человек, кот, машина), здесь внимание фокусируется на том, что его окружает (трава, стена, небо). Метки классов организованы в иерархическом порядке (напр., ''stuff → outdoor-stuff → sky → clouds''). Чтобы добиться совместимости с задачей обнаружения объектов, используются следующие идентификаторы категорий:

{| class="wikitable"
|-
! Идентификатор
! Соответствие
|-
|1-91 || категории объектов (не используются в сегментации окружения)
|-
|92-182 || категории окружения
|-
|183 || категория "другое" (выбирается для "объектов")
|}
* Паноптическая сегментация (англ. ''Panoptic Segmentation'') {{---}} обединение задач семантической сегментации ([[Сегментация изображений]]) и обнаружения объектов. Задача состоит в том, чтобы классифицировать все пиксели изображения на принадлежность к некоторому классу, а также определить, к какому из экземпляров данного класса они относятся.
* Аннотирование изображения (англ. ''Caption Evaluation''). Генерация сопроводительной подписи к изображению.

===Результаты===
Результат задачи зависит от многих факторов. Например, для задачи обнаружения объекта, наилучшие результаты алгоритмы показывают на крупных объектах.
Более подробно с метриками можно ознакомиться [http://cocodataset.org/#detection-leaderboard здесь].
Приведем лишь результаты детектора [https://arxiv.org/abs/1512.03385 ResNet] (bbox) - победителя 2015 Detection Challenge.
Графики, изображенные на рисунках 8 и 9, представляют из себя семейство кривых Pressision Recall для различных метрик.

{|align="center"
|-valign="top"
|[[Файл:Detection-analysis-person.jpg|мини| Рис. 8. PR кривые для класса "Person" [http://cocodataset.org/images/detection-analysis-person.jpg Оригинал]]]
|[[Файл:Detection-analysis-all.jpg|мини|Рис. 9. Усредненные значения для всех классов [http://cocodataset.org/images/detection-analysis-all.jpg Оригинал]]]
|}

 

===Код===

Пример использования [https://github.com/cocodataset COCO API] на python:

%matplotlib inline
from pycocotools.coco import COCO
import numpy as np
import skimage.io as io
import matplotlib.pyplot as plt
import pylab
pylab.rcParams['figure.figsize'] = (8.0, 10.0)

dataDir='..'
dataType='val2017'
annFile='{}/annotations/instances_{}.json'.format(dataDir,dataType)

coco=COCO(annFile)

cats = coco.loadCats(coco.getCatIds())
nms=[cat['name'] for cat in cats]
print('COCO categories: \n{}\n'.format(' '.join(nms)))

nms = set([cat['supercategory'] for cat in cats])
print('COCO supercategories: \n{}'.format(' '.join(nms)))

# get all images containing given categories, select one at random
catIds = coco.getCatIds(catNms=['person','dog','skateboard']);
imgIds = coco.getImgIds(catIds=catIds );
imgIds = coco.getImgIds(imgIds = [324158])
img = coco.loadImgs(imgIds[np.random.randint(0,len(imgIds))])[0]

# load and display image
# I = io.imread('%s/images/%s/%s'%(dataDir,dataType,img['file_name']))
# use url to load image
I = io.imread(img['coco_url'])
plt.axis('off')
plt.imshow(I)
plt.show()

[[Файл:Coco-1.png |мини| center|Рис. 10. Пример изображения из датасета COCO [https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoDemo.ipynb Оригинал]]]

# load and display instance annotations
plt.imshow(I); plt.axis('off')
annIds = coco.getAnnIds(imgIds=img['id'], catIds=catIds, iscrowd=None)
anns = coco.loadAnns(annIds)
coco.showAnns(anns)

[[Файл:Coco-2.png|мини|center|Рис. 11. Пример обнаруженного объекта [https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoDemo.ipynb Оригинал]]]

==Fashion-MNIST==

===Описание===
[[Файл:FMNIST.png|мини|Рис. 12. Пример изображений из Fashion-MNIST]]
Fashion-MNIST {{---}} это набор изображений, взятых из статей [https://jobs.zalando.com/en/tech/?gh_src=nevh2y1 Zalando], состоящий из обучающего набора из 60000 примеров и тестового набора из 10000 примеров. Каждый пример представляет собой черно-белое изображение 28x28 (см. рис. 12), связанное с меткой из 10 классов. Создатели Fashion-MNIST предложили его в качестве прямой замены исходного набора данных MNIST, состоящего из рукописных цифр, для сравнительного анализа алгоритмов машинного обучения. Он имеет одинаковый размер изображения и структуру разделений для обучения и тестирования. Аргументировали необходимость такой замены тем, что исходный набор данных MNIST действительно хорошо отражает возможность алгоритма хоть что-то классифицировать, но если алгоритм работает на стандартном MNIST, он все равно может не сработать на других примерах данных. Также на наборе данных MNIST научились достигать слишком высоких результатов точности (97% для классических алгоритмов машинного обучения и 99.7% для сверточных нейронных сетей), в то время как MNIST не отражает современных сложных проблем компьютерного зрения. Это позволило сделать предположение о том, что набор данных MNIST слишком простой по современным меркам и его требуется заменить.

===Результаты===

На сайте<ref>https://github.com/zalandoresearch/fashion-mnist</ref> набора данных можно найти список лучших результатов, достигнутых алгоритмами на этом наборе данных. Так как задача классификации набора данных Fashion-MNIST сложнее, чем в случае стандартного набора MNIST, в таблице представлены только алгоритмы глубокого обучения, т.к. только для них эта задача имеет смысл. Так, худший из записанных результатов достигнут сверточной нейронной сетью с 3 сверточными слоями и одним слоем пулинга (12.4% ошибок), а подавляющее большинство лучших результатов получены боле сложными архитектурами. Лучший результат был достигнут WRN сетью и составляет всего 3.3% ошибки.

===Код===

Простой код, скачивающий Fashion-MNIST с использованием NumPy и запускающий на нем стандартный классификатор.

import mnist_reader
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.utils import shuffle
x_train, y_train = mnist_reader.load_mnist('data/fashion', kind='train')
x_test, y_test = mnist_reader.load_mnist('data/fashion', kind='t10k')
X, Y = shuffle(x_train, y_train)
n = 1000
X, Y = X[:n], Y[:n]
X, Y = X.reshape((n, -1)), Y.reshape((n,))
train = n // 2
clf = DecisionTreeClassifier(criterion="entropy", max_depth=5)
clf.fit(X[:train], Y[:train])
expected = Y[train:]
predicted = clf.predict(X[train:])
print("Classification report for classifier %s:\n%s\n"
% (clf, metrics.classification_report(expected, predicted)))

==Boston Housing==

===Описание===

Boston Housing содержит данные, собранные Службой переписи населения США (англ. ''U.S Census Service''), касающиеся недвижимости в районах Бостона. Набор данных состоит из 13 признаков и 506 строк и также предоставляет такую информацию, как уровень преступности (CRIM), ставка налога на недвижимость (TAX), возраст людей, которым принадлежит дом (AGE), соотношение числа учащихся и преподавателей в районе (PTRATIO) и другие. Данный набор данных используется для предсказания следующих целевых переменных: средняя стоимость дома (MEDV) и уровень закиси азота (NOX).

===Результаты===

Для решения задачи предсказания средней стоимости дома используется множественная линейная регрессия. Метрикой качества модели выступает корень из среднеквадратичной ошибки ([[Оценка качества в задачах классификации и регрессии|англ. ''root-mean-square error, RMSE'' ]]). В среднем, значение RMSE на данном наборе данных находится в районе 3,5-5 в зависимости от выбранной модели. Однако на соревновании на сайте [https://www.kaggle.com/sagarnildass/predicting-boston-house-prices Kaggle] пользователь [https://www.kaggle.com/c/boston-housing/leaderboard MayankSatnalika] получил результат 1.33055.

===Код===

Простой код, загружающий набор данных из библиотеки sklearn с использованием NumPy и Pandas и запускающий на нем алгоритм линейной регрессии.
import pandas as pd
import numpy as np
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
boston_dataset = load_boston()
boston = pd.DataFrame(boston_dataset.data, columns=boston_dataset.feature_names)
boston['MEDV'] = boston_dataset.target
X = pd.DataFrame(np.c_[boston['LSTAT'], boston['RM']], columns=['LSTAT', 'RM'])
Y = boston['MEDV']
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=5)
lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)
y_train_predict = lin_model.predict(X_train)
rmse = (np.sqrt(mean_squared_error(Y_train, y_train_predict)))# 5.6371293350711955
y_test_predict = lin_model.predict(X_test)
rmse = (np.sqrt(mean_squared_error(Y_test, y_test_predict)))# 5.13740078470291

==Caltech-UCSD Birds 200 (CUB)==
[[Файл:cub_dataset_logo.jpg |мини|Рис. 13. Пример изображений из CUB [http://www.vision.caltech.edu/visipedia/collage.jpg Оригинал]]]
===Описание===
Caltech-UCSD Birds 200 {{---}} это набор данных, содержащий изображения птиц. Данный набор включает в себя фотографии 200 видов птиц. Большинство видов птиц, представленных в наборе данных, являются североамериканскими. Общее количество категорий птиц составляет 200, в набор данных 2010 года включены 6033 изображения, а в набор данных 2011 года {{---}} 11 788 изображений, некоторые из них приведены на рисунке 13.

===Поиск и аннотация изображений===
Изображения для набора данных были получены с сайта Flickr и отфильтрованы с помощью Amazon Mechanical Turk. Каждое изображение аннотировано границей области, содержащей птицу, грубой сегментацией птиц, набором меток атрибутов и текстовым описанием. Примеры аннотированных изображений представлены на рисунке 14.

{|align="center"
|-valign="top"
|[[Файл:birds_annotations.png|800px|мини|Рис. 14. Изображения и аннотации из CUB-200]]
|}

==102 Category Flower==
===Описание===
[[Файл:flowers-examples.jpg|мини|Рис. 15. Примеры изображений из Oxford Flowers 102]]
Oxford Flowers 102 {{---}} набор данных, состоящий из цветов, встречающихся в Соединенном Королевстве. Набор стоит состоит из 102 видов цветов и содержит от 40 до 258 изображений каждого вида. Примеры изображений из данного датасета приведены на рисунке 15. Все изображения имеют крупный масштаб. Цветы представлены в различных ракурсах и вариациях освещения. Кроме того, в наборе присутствуют виды цветов очень похожие друг на друга. Графы соседства цветков по различным признакам представлены на рисунках 16 и 17.

Набор данных делится на обучающий набор, проверочный набор и тестовый наборы. Каждый обучающий и проверочный наборы состоят из 10 изображений на класс (всего 1020 изображений). Тестовый набор состоит из оставшихся 6149 изображений (минимум 20 изображений на класс).

{|align="center"
|-valign="top"
|[[Файл:cad_Shapeiso.jpg|мини|Рис. 16. Граф соседства по форме [https://www.robots.ox.ac.uk/~vgg/data/flowers/102/shapeiso.jpg Оригинал]]]
|[[Файл:cad_Colouriso.jpg|мини|Рис. 17. Граф соседства по цвету [https://www.robots.ox.ac.uk/~vgg/data/flowers/102/colouriso.jpg Оригинал]]]
|}

==Visual Genome==
[[Файл:Visual_Genome_учфьзду.png|мини| 600px|Рис. 18. Результат визуализации]]
===Описание===
Visual Genome {{---}} это набор данных, связывающий изображения со словесным описанием их содержимого. Является исчерпывающим набором данных для обучения и тестирования моделей компьютерного зрения, обеспечивает обширный анализ содержимого в изображениях с учетом зависимостей между объектами. Это позволяет использовать набор данных для решения большого количества различных задач: от поиска объектов до поиска отношений, требующих дальнейшего вывода, и даже задачи, связанные с ответами на вопросы.

Изображение часто представляет сложную картину, которую невозможно полностью раскрыть одним предложением. Существующие наборы данных, такие как Flickr 30K, ориентированы на высокоточное описание всего изображения в целом. Вместо этого для каждого изображения в Visual Genome собираются более 50 описаний для разных регионов изображения, обеспечивая тем самым намного более полный набор описаний.

Набор данных содержит более 108К изображений, каждое из которых имеет в среднем 35 объектов, 26 атрибутов и 21 парное отношение между объектами. В данном наборе данных происходит канонизация объектов, атрибутов, отношений и словосочетаний в описаниях регионов и пар вопрос-ответ в синсеты из [https://ru.wikipedia.org/wiki/WordNet WordNet]. Cинсет {{---}} это набор данных, элементы в котором считаются семантически эквивалентными для поиска или восстановления информации. Visual Genome является самым большим набором данных с описаниями изображений, объектов, атрибутов, отношений и пар вопрос-ответ.

===Код===
Пример использования [https://visualgenome.org/api/v0/api_home.html Visual Genome API] на python:

import matplotlib.pyplot as plt
from matplotlib.patches import Rectangle
from src import api as vg
from PIL import Image as PIL_Image
import requests
%matplotlib inline
from StringIO import StringIO
ids = vg.GetImageIdsInRange(startIndex=0, endIndex=1)
image_id = ids[0]
image = vg.GetImageData(id=image_id)
regions = vg.GetRegionDescriptionsOfImage(id=image_id)
fig = plt.gcf()
fig.set_size_inches(18.5, 10.5)
def visualize_regions(image, regions):
response = requests.get(image.url)
img = PIL_Image.open(StringIO(response.content))
plt.imshow(img)
ax = plt.gca()
for region in regions:
ax.add_patch(Rectangle((region.x, region.y),
region.width,
region.height,
fill=False,
edgecolor='red',
linewidth=3))
ax.text(region.x, region.y, region.phrase, style='italic', bbox={'facecolor':'white', 'alpha':0.7, 'pad':10})
fig = plt.gcf()
plt.tick_params(labelbottom='off', labelleft='off')
plt.show()
visualize_regions(image, regions[:8])
Результат работы кода представлен на рисунке 18.

==CelebA==
[[Файл:CelebA.jpg|мини|Рис. 19. Пример изображений из CelebA [http://mmlab.ie.cuhk.edu.hk/projects/CelebA/overview.png Оригинал]]]
===Описание===
CelebA (CelebFaces Attributes Dataset) {{---}} это крупномасштабный набор данных атрибутов лиц, содержащий более 200 тысяч изображений знаменитостей (см. рис. 19). Изображения в этом наборе данных охватывают большие вариации поз и беспорядок на фоне. CelebA имеет большое разнообразие, большое количество и богатые аннотации: 10 177 уникальных личностей, 202 599 изображений лиц и 5 ориентиров, 40 бинарных аннотаций атрибутов на изображение. Эти данные были первоначально собраны исследователями из MMLAB<ref>http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html[http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html]</ref>, Китайского университета Гонконга.

Набор данных можно использовать в качестве обучающих и тестовых наборов для следующих задач компьютерного зрения: распознавание атрибутов лица, обнаружение лиц и локализация ориентиров (или части лица).

===Пример атрибутов===
Ниже приведен пример некоторых бинарных атрибутов в CelebA, где отдельный атрибут {{---}} одна из характеристик лица. Оригинал примера доступен [https://towardsdatascience.com/celeba-attribute-prediction-and-clustering-with-keras-3d148063098d здесь].
Более подробно со всеми атрибутами можно ознакомиться [https://www.tensorflow.org/datasets/catalog/celeb_a здесь]
{| class="wikitable"
|-
! Идентификатор изображения
! Короткая щетина
! Круги под глазами
! Лысый
! Челка
! Большие губы
! Большой нос
! Темные волосы
|-
| 146596.jpg
| 0
| 0
| 0
| 0
| 0
| 0
| 0
|-
| 027415.jpg
| 0
| 0
| 0
| 0
| 1
| 0
| 1
|-
| 031426.jpg
| 0
| 0
| 0
| 1
| 1
| 1
| 1
|}

==CityScapes==
[[Файл:CityscapesZuerich.jpg|мини|Рис. 20. Пример изображения из CityScapes [https://www.cityscapes-dataset.com/examples/ Источник]]]
===Описание===
CityScapes<ref>https://www.cityscapes-dataset.com/</ref> {{---}} это набор данных, состоящий из разнообразных городских уличных сцен в 50 разных городах в разное время года. Данный набор хорошо подходит для задач компьютерного зрения, таких как: [[Сегментация изображений|семантическая сегментация данных]], сегментация на уровне экземпляра и вывод несоответствия стереопар. Пример изображения из данного датасета представлен на рисунке 20.

===Структура данных <ref>https://www.cityscapes-dataset.com/dataset-overview/#features</ref>===
Всего в наборе данных находится 25 000 изображений, из них 5000 составляют набор с более детальными аннотациями изображений с разрешением 1024 * 2048, предварительно разделенных на наборы для обучения {{---}} 2975, проверки {{---}} 500 и тестирования {{---}} 1525. Оставшиеся 20 000 изображений имеют грубые аннотации, позволяющие применять методы, использующие большие объемы данных со слабой маркировкой.

===Результаты===

Основной метрикой для этого набора данных является [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]]. Также, хорошо известно, что глобальная мера [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]] смещена в сторону экземпляров объектов, которые покрывают большую область изображения. В уличных сценах с их сильным изменением масштаба это может быть проблематично.
Чтобы решить эту проблему, создатели датасета дополнительно оценивают семантическую маркировку, используя метрику пересечения по объединению на уровне экземпляра {{---}}<math>
iIoU = \dfrac{iTP}{iTP + FP + iFN}
</math>, где <math>iTP</math>, <math>FP</math> и <math>iFN</math> обозначают количество истинно положительных, ложноположительных и ложно отрицательных пикселей соответственно. Сейчас лучшей нейронной сетью для этого набора данных в задаче семантической сегментации данных является [https://www.cityscapes-dataset.com/benchmarks/#scene-labeling-task DAHUA-ARI], которая позволяет достичь индекс Жаккара 85.8% и iIoU 70.6% для классов, индекс Жаккара 93.2% и iIoU 85.4% для категорий, соответственно.

==ICDAR==
[[Файл:ICDAR2017.png|мини|Рис. 21. Пример изображения из датасета ICDAR2017 Competition on Multi-lingual Scene Text Detection and Script Identification (MLT) [https://arxiv.org/pdf/1812.05219.pdf Источник]]]
===Описание===
ICDAR<ref>https://rrc.cvc.uab.es/</ref> (англ. International Conference on Document Analysis and Recognition) {{---}} это международная конференция по анализу и распознаванию текста и одноименное семейство набора данных, состоящее из фотографий (см. рис. 21, 22 и 23), на которых изображен текст на разных языках. Данные наборы создаются для соревнований RRC (англ.Robust Reading Competition), где требуется решить следующие задачи: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание, распознавание скриптов, ответы на вопросы, связанные с изображениями.
Ниже приведен анализ наборов данных ICDAR2013, ICDAR2015, ICDAR2017, ICDAR2019.

===ICDAR 2013===

{| class="wikitable"
|-
! Наименование датасета
! Тип текста
! Количество объектов
! Количество обучающих объектов
! Количество тестовых объектов
! Количество слов
! Количество обучающих слов
! Количество тестовых слов
! Язык текста на изображениях
! Задачи
|-
| ICDAR 2013 "Born Digital Images"
| изображения, извлеченные с веб-страниц и сообщений электронной почты
| 561
| 420
| 141
| 5003
| 3564
| 1439
| Английский
| обнаружение текста, сегментация текста, распознавание символов
|-
| ICDAR 2013 "Focused Scene Text"
| изображения с текстом на вывесках, логотипах и т.д.
| 462
| 229
| 233
| 1943
| 848
| 1095
| Английский
| обнаружение текста, сегментация текста, распознавание символов
|}

===ICDAR 2015===

{| class="wikitable"
|-
! Наименование датасета
! Тип текста
! Количество объектов
! Количество обучающих объектов
! Количество тестовых объектов
! Количество слов
! Количество обучающих слов
! Количество тестовых слов
! Язык текста на изображениях
! Задачи
|-
| ICDAR 2015 "Born Digital Images"
| изображения, извлеченные с веб-страниц и сообщений электронной почты
| 561
| 420
| 141
| 5003
| 3564
| 1439
| Английский
| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание
|-
| ICDAR 2015 "Focused Scene Text"
| изображения с текстом на вывесках, логотипах и т.д.
| 462
| 229
| 233
| 1943
| 848
| 1095
| Английский
| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание
|-
| ICDAR 2015 "Incidental Scene Text"
| изображения, на которых текст попал в поле зрения камеры Google Glass случайно<ref>https://rrc.cvc.uab.es/?ch=4</ref>
| 1670 (1500 публичных)
| 1000
| 500
| 17548
| -
| -
| Английский
| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание
|}

===ICDAR 2017===

{| class="wikitable"
|-
! Наименование датасета
! Тип текста
! Количество объектов
! Количество обучающих объектов
! Количество тестовых объектов
! Количество слов
! Количество обучающих слов
! Количество тестовых слов
! Язык текста на изображениях
! Задачи
|-
| ICDAR 2017 "COCO-Text"
| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст
| 63686
| 43686
| 10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая
| 173589
| -
| -
| Французский
| сквозное распознавание
|-
| ICDAR 2017 "Multi-lingual Scene Text"
| изображения с текстом на 9 различных языках
| 18 000
| -
| -
| 107 547(тренировочные + валидирующие слова)
| -
| -
| Английский, Арабский, Бенгальский, Китайский, Французский, Немецкий, Японский, Корейский
| обнаружение текста, сегментация текста
|-
| ICDAR 2017 "French Street Name Signs"
| изображения, на которых есть названия француззских улиц
| 1 081 422, где каждое изображение содержит до 4 объектов с названией улицы
| -
| -
| -
| -
| -
| Английский
| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание
|}

===ICDAR 2019===

{| class="wikitable"
|-
! Наименование датасета
! Тип текста
! Количество объектов
! Количество обучающих объектов
! Количество тестовых объектов
! Количество слов
! Количество обучающих слов
! Количество тестовых слов
! Язык текста на изображениях
! Задачи
|-
| ICDAR 2019 "COCO-Text"
| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст
| 63686
| 43686
| 10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая
| 173589
| -
| -
| Французский
| сквозное распознавание
|-
| ICDAR 2019 "Multi-lingual Scene Text"<ref>https://arxiv.org/pdf/1907.00945.pdf</ref>
| изображения с текстом на 10 различных языках
| 20 000 (2 000 для каждого языка) + 277 000 сгенерированных изображения
| 10 000
| 10 000
| -
| -
| -
| Английский, Арабский, Бенгальский, Деванагари, Китайский, Французский, Немецкий, Японский, Корейский
| обнаружение текста, идентификация скрипта, сквозное распознавание
|-
| ICDAR 2019 "Scene Text Visual Question Answering"
| набор данных, включающий
23 038 изображений с 31 791 парой вопросов и ответов,
где ответ всегда основан на присутствующих текстовых экземплярах
на изображении.
| -
| -
| -
| -
| -
| -
| Английский
| ответ на вопрос, связанный с изображением
|}

{|align="center"
|-valign="top"
|[[Файл:ICDARSamples.png |600px|thumb|Рис. 22. Сэмплы из датасетов ICDAR 2011, ICDAR 2015, ICDAR 2017]]
|}

{|align="center"
|-valign="top"
|[[Файл:ICDAR2019Sample.png |600px|thumb|Рис. 23. Сэмпл из датасета ICDAR 2019 "Scene Text Visual Question Answering"]]
|}

==Pointing'04==

===Описание===

Pointing'04 <ref>http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf</ref> {{---}} база данных изображений лиц в разных положениях для 15-ти человек. Для каждого человека представлено 93 положения головы, при этом каждая фотография предложена в двух вариантах освещения и масштаба (две разные сессии). Снимки, сделанные во время первого сеанса, используются в качестве обучающих данных, а изображения из второго сеанса используются в качестве данных тестирования. 93 положения включают комбинации 13-и вариантов поворота и 7-и вариантов наклона вместе с двумя крайними случаями наклона при отсутствии поворота.

===Пример сета изображений===

{|align="center"
|-valign="top"
|[[Файл:Pointing.png|600px|thumb|Рис. 24. Пример сета изображений Pointing'04 [https://www.researchgate.net/publication/221545772_Evaluation_of_Head_Pose_Estimation_for_Studio_Data Источник]]]
|}

==FASSEG==

===Описание===

Репозиторий FASSEG <ref>http://massimomauro.github.io/FASSEG-repository/</ref> (англ. FAce Semantic SEGmentation ) состоит из двух наборов данных (Frontal01 и Frontal02) для сегментации лиц в фронтальном положении и одного набора данных (Multipose01) с лицами в нескольких определенных положениях.

Frontal01 содержит 70 сегментированных изображений лиц и исходные изображения RGB. Исходные лица в основном взяты из наборов данных [http://cbcl.mit.edu/software-datasets/FaceData2.html MIT-CBCL] и [http://www.fei.edu.br/~cet/facedatabase.html FEI].

Frontal02 {{---}} это «высокоточный» Frontal01. Он содержит те же изображения, что и Frontal01, но с гораздо более точной сегментацией.

Multipose01 содержит более 200 размеченных лиц в 13-ти положениях с углом поворота от -90 градусов до 90 градусов включительно. Исходные лица взяты из базы данных [http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf Pointing'04].

===Сегментация===

{|align="right"
|-valign="top"
|[[Файл:FASSEG3.png|300px|thumb|Рис. 25. Сегментация изображения [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf Источник]]]
|}

Изображение размечается на 6 сегментов (см. рис. 25):
*глаза;
*нос;
*рот;
*волосы (вместе с бровями);
*фон изображения;
*кожа.

===Примеры изображений===

{|align="center"
|-valign="top"
|[[Файл:FASSEG1.png|300px|thumb|Рис. 26. Пример изображений из датасетов Frontal01 и Frontal02 [https://raw.githubusercontent.com/massimomauro/FASSEG-dataset/master/other/V1V2_diff.png Оригинал]]]
|[[Файл:FASSEG2.png|400px|thumb|Рис. 27. Пример изображений из датасета Multipose01 [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf Источник]]]
|}

==MPI==

===Описание===

MPI Human Pose <ref>http://human-pose.mpi-inf.mpg.de/</ref> (англ. Max Planck Institute) {{---}} это набор данных, позволяющий определять различные виды активности человека по позам на изображениях и аннотациям к ним. Набор данных включает около 25 тысяч изображений, содержащих более 40 тысяч людей с указанным положением отдельных частей тела. Изображения систематически собирались с использованием установленной таксономии повседневной деятельности человека. В целом набор данных охватывает 410 видов деятельности человека, каждое изображение снабжено меткой активности. Каждое изображение было извлечено из видео с YouTube и снабжено предшествующими и последующими кадрами без аннотации. Кроме того, для тестового набора приложены более детальные аннотации, включая сгибы частей тела и ориентации туловища и головы.

===Структура датасета и примеры изображений===

{|align="right"
|-valign="top"
|[[Файл: MPI1.jpg|500px|thumb|Рис. 28. Пример изображений из подкласса датасета MPI [http://human-pose.mpi-inf.mpg.de/#dataset Источник]]]
|}

Датасет представлен двадцатью различными классами активности: езда на велосипеде, упражнения, танцы, рыбалка и охота, домашняя активность, ремонт, отдых, активность на природе, игра на музыкальных инструментах, религиозная деятельность, бег, самоуход, спорт, передвижение на транспорте, волонтерство, прогулки, активность на воде, зимние виды активности, разное.

Каждый класс также разделен на уникальные подклассы. Пример такого разделения приведен на рисунке 28.

Датасет снабжен документацией с описанием структуры объектов и методами взаимодействия с ними, всю необходимую информацию по датасету, как и сами исходники, можно получить по [http://human-pose.mpi-inf.mpg.de/ ссылке].

==См.также==
* [[Общие понятия]]
* [[Сегментация изображений]]
* [[Задача нахождения объектов на изображении]]
* [[Оценка качества в задачах классификации и регрессии]]

==Примечания==
[[Категория: Машинное обучение]]
[[Категория: Компьютерное зрение]]
[[Категория: Классификация и регрессия]]

Известные наборы данных

2021-01-18T11:49:42Z

Truff4ut:

==Обзор==

Для многих алгоритмов машинного обучения требуется большое количество данных. Кроме того, что моделям нужны данные для обучения, нужно сравнивать эффективность разных моделей. Поскольку поиск хороших наборов данных и их разметка {{---}} трудная задача, на помощь приходят уже собранные и размеченные наборы данных, для которых зачастую уже опубликованы результаты каких-то алгоритмов, и можно оценить, насколько хорошо работает исследуемая модель.

В этой статье рассмотрены с примерами несколько популярных наборов данных. Другие классические наборы можно посмотреть, например, на википедии<ref>https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research[https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research]</ref>.

{| class="wikitable"
|-
! Набор данных
! Какие объекты
! Число объектов
! Число классов
! Доля ошибок лучшего опубликованного алгоритма
|-
| Iris
| Данные измерений четырех параметров цветков ириса
| 150
| 3
| N/A, малый размер набора данных
|-
| MNIST
| Рукописные цифры, черно-белые изображения 32х32 пикселя
| 70 000
| 10
| 0.18% <ref>https://arxiv.org/pdf/1805.01890.pdf[https://arxiv.org/pdf/1805.01890.pdf]</ref>
|-
| CIFAR-10
| Фотографии объектов разных классов, цветные изображения 32х32 пикселя
| 60 000
| 10
| 1.23% <ref>https://arxiv.org/pdf/1805.09501.pdf[https://arxiv.org/pdf/1805.09501.pdf]</ref>
|-
| ImageNet
| Фотографии с указанием классов объектов на изображении и их позиций
| Больше 14 миллионов
| Больше 21 тысячи
| Большое количество различных метрик, см. ImageNet Competition. 1-5% на классификацию
|-
| ADE20K
| Фотографии с указанием семантической сегментации сущностей на них. Для каждого объекта также приведена его сегментация на части
| 22 210 (434 826 вхождений объектов)
| 3 169
| 17.93% <ref>https://arxiv.org/pdf/2004.08955v1.pdf</ref>
|-
| Coco
| Фотографии сложных повседневных сцен, содержащих объекты в их естественном окружении.
| 328 000 изображений (более 2.5 миллионов вхождений объектов)
| 91
| Много метрик. Зависит, в частности, от площади, занимаемой объектом на изображении. <ref>http://cocodataset.org/#detection-leaderboard[http://cocodataset.org/#detection-leaderboard]</ref>
|-
| Fashion-MNIST
| Черно-белые фотографии различных видов одежды, 28x28 пикселей.
| 60000 изображений + 10000 тестовых изображений
| 10
| 3.3% (WRN40-4 8.9M params) <ref>https://github.com/zalandoresearch/fashion-mnist[https://github.com/zalandoresearch/fashion-mnist]</ref>
|-
|-
| Boston housing
| Данные о недвижимости в районах Бостона.
| 506
| 13
| RMSE-1.33055
|-
| Caltech-UCSD Birds 200
| Данные о видах птиц
| 11788
| 200
| не описано
|-
| 102 Category Flower
| Данные о видах цветов
| 8189
| 102
| не описано
|-
| Visual Genome
| Данные о связи объектов на картинке с текстом
| 108077
| 76340 объектов, 15626 атрибутов, 47 зависимостей
| Слишком много метрик <ref>https://arxiv.org/pdf/1602.07332.pdf [https://arxiv.org/pdf/1602.07332.pdf]</ref>
|-
| CelebA
| Изображения знаменитостей, охватывающие большие вариации поз
| Больше 200 тысяч
| 202 599 изображений лиц, 10 177 уникальных личностей, 5 ориентиров, 40 бинарных атрибутов
| не описано
|-
| Cityscapes
| Изображения городских улиц 50 городов с указанием семантической сегментации сущностей на них. Для каждого объекта также приведена его сегментация на части
| 5000 изображений с разрешением 1024 * 2048, предварительно разделенных на наборы для обучения (2975), проверки (500) и тестирования (1525) + 20000 изображений с грубыми аннотациями
| 30
| не описано
|-
| ICDAR 2017 "COCO Text"
| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, присутствует текст
| 63686 изображений, 43686 {{---}} обучающая выборка,10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая
| 173589 слов
| не описано
|-
| Pointing'04
| Изображения лиц людей с разными углами поворота и наклона
| 15 сетов по 186 изображений в каждом
| 93
| 7.9% <ref>https://www.researchgate.net/publication/221125207_Generalized_subspace_based_high_dimensional_density_estimation</ref>
|-
| FASSEG
| Изображения лиц людей с разными углами поворота, как в оригинале, так и в сегментированном виде
| Часть frontal01: 70, часть frontal02: 70, часть multipose01: 200
| frontal01 и frontal02 {{---}} разделяют изображение на 6 различных сегментов, multipose01 {{---}} 13 углов поворота
| 7.73% <ref>https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf</ref> для сегментации, 22.6% <ref>https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf</ref> для определения поз
|-
| MPI
| Изображения повседневной деятельности людей в различных позах
| 25 тысяч
| 410
| ~10% <ref>http://human-pose.mpi-inf.mpg.de/#results</ref>
|}

==Iris==

===Описание===

Iris {{---}} небольшой набор данных для задачи классификации, опубликованный еще в 1936 году Робертом Фишером, используя данные биолога Эдгара Андерсона. В этом наборе данных представлены по 50 описаний цветков одного из трех типов {{---}} Ирис щетинистый (Iris setosa), Ирис виргинский (Iris virginica) и Ирис разноцветный (Iris versicolor).

Для каждого цветка измерены четыре величины {{---}} длина чашелистника (англ. sepal length), ширина чашелистника (sepal width), длина лепестка (англ. petal length), ширина лепестка (англ. petal width). Все цветки промаркированы одним из трех типов, что позволяет тестировать на нем алгоритмы классификации. Интересное наблюдение {{---}} один из классов цветков линейно отделим от двух других.

===Пример===

{| class="wikitable"
|-
! Длина чашелистника
! Ширина чашелистника
! Длина лепестка
! Ширина лепестка
! Класс
|-
| 5.1
| 3.5
| 1.4
| 0.2
| setosa
|-
| 7.0
| 3.2
| 4.7
| 1.4
| versicolor
|-
| 6.3
| 3.3
| 6.0
| 2.5
| virginica
|-
|}

===Код===
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier

iris=load_iris()
X = iris.data
Y = iris.target
X, Y = shuffle(X, Y)
n = len(iris.data)
train = n // 2
clf = RandomForestClassifier(n_estimators=100, max_depth=2, random_state=0)
clf.fit(X[:train], Y[:train])
expected = Y[train:]
predicted = clf.predict(X[train:])
print("Classification report for classifier %s:\n%s\n"
% (clf, metrics.classification_report(expected, predicted)))

type precision recall f1-score support
0 1.00 1.00 1.00 28
1 0.95 0.88 0.91 24
2 0.88 0.96 0.92 23
avg / total 0.95 0.95 0.95 75

==MNIST==
===Описание===

[[Файл:MnistExamples.png|мини| Рис.1. Примеры изображений из датасета MNIST [https://en.wikipedia.org/wiki/MNIST_database#/media/File:MnistExamples.png Оригинал]]]

Набор данных MNIST {{---}} большой (порядка 60 000 тренировочных и 10 000 проверочных объектов, помеченных на принадлежность одному из десяти классов {{---}} какая цифра изображена на картинке) набор картинок с рукописными цифрами, часто используемый для тестирования различных алгоритмов распознавания образов. Он содержит черно-белые картинки размера 28x28 пикселей, исходно взятые из набора образцов из бюро переписи населения США, к которым были добавлены тестовые образцы, написанные студентами американских университетов. На рисунке 1 представлены примеры рукописных цифр из данного датасета.

===Результаты===

На сайте<ref>http://yann.lecun.com/exdb/mnist/[http://yann.lecun.com/exdb/mnist/]</ref> MNIST можно найти список лучших результатов, достигнутых алгоритмами на это наборе данных. Так, худший из записанных результатов достигнут простым линейным классификатором (12% ошибок), а подавляющее большинство лучших результатов получены алгоритмами на основе нейронных сетей. Так, ансамбль из 35 сверточных нейронных сетей в 2012 году сумел получить всего 0.23% ошибок на наборе данных, что является очень хорошим результатом, вполне сравнимым с человеком.

===Код===
Простой пример, скачивающий набор данных и запускающий на нем один из классификаторов. Даже с уменьшением набора данных в сто раз и не самым подходящим классификатором точность выше половины угаданных цифр {{---}} заметно лучше, чем случайная разметка. С результатом работы данного кода можно ознакомиться на рисунке 2.

from sklearn.datasets import fetch_mldata
from numpy import arange
import random
from sklearn.tree import DecisionTreeClassifier
from sklearn import datasets, svm, metrics

[[Файл:Mnist-predict.png|мини|Рис.2. Результат работы классификатора]]

mnist = fetch_mldata('MNIST original')
indices = arange(len(mnist.data))
randidx = random.sample(list(indices), 500)
mnist.data = mnist.data[randidx]
mnist.target = mnist.target[randidx]
X = mnist.data
Y = mnist.target
train = len(X)//2
clf = DecisionTreeClassifier(criterion="entropy", max_depth=5)
clf.fit(X[:train], Y[:train])
expected = Y[train:]
predicted = clf.predict(X[train:])
print("Classification report for classifier %s:\n%s\n"
% (clf, metrics.classification_report(expected, predicted)))

digit precision recall f1-score support
0 0.68 0.58 0.62 26
1 0.71 0.87 0.78 23
2 0.29 0.24 0.26 25
3 0.64 0.28 0.39 25
4 0.50 0.54 0.52 28
5 0.46 0.46 0.46 24
6 0.47 0.62 0.54 24
7 0.66 0.78 0.71 27
8 0.32 0.60 0.42 15
9 0.59 0.39 0.47 33
avg/total 0.54 0.53 0.52 250

==CIFAR-10==

===Описание===
[[Файл:Cifar-10.png|мини|Рис.3. Примеры изображений из датасета CIFAR-10 [https://medium.com/@jannik.zuern/training-a-cifar-10-classifier-in-the-cloud-using-tensorflow-and-google-colab-f3a5fbdfe24d Источник]]]
CIFAR-10 (Canadian Institute For Advanced Research) {{---}} еще один большой набор изображений, который обычно используется для тестирования алгоритмов машинного обучения. Он содержит 60 000 цветных картинок размером 32х32 пикселя, размеченных в один из десяти классов: самолеты, автомобили, коты, олени, собаки, лягушки, лошади, корабли и грузовики. В наборе данных по 6000 картинок каждого класса, примеры некоторых из них приведены на рисунке 3. CIFAR-10 является размеченным подмножеством заметно большего набора данных, состоящего примерно из восьмидесяти миллионов изображений.

===Результаты===

С момента публикации CIFAR-10 вышло много статей, авторы которых пытаются добиться максимальной точности на этом наборе данных. В среднем более хорошие результаты показывают различные сверточные нейронные сети с различными вариантами настройки и дополнительной предобработки данных.

На википедии<ref>https://en.wikipedia.org/wiki/CIFAR-10#Research_Papers_Claiming_State-of-the-Art_Results_on_CIFAR-10[https://en.wikipedia.org/wiki/CIFAR-10#Research_Papers_Claiming_State-of-the-Art_Results_on_CIFAR-10]</ref> можно найти таблицу лучших публикаций с процентами ошибки на этом наборе данных. Так, лучший на сегодняшний момент алгоритм, опубликованный в мае 2018 года, допускает ошибку всего порядка 1.48%.

===Код===
Простой код, скачивающий CIFAR-10 из интернета и запускающий на нем стандартный классификатор.

from keras.datasets import cifar10
from sklearn.utils import shuffle

(x_train, y_train), (x_test, y_test) = cifar10.load_data()
X, Y = shuffle(x_train, y_train)
n = 1000
X, Y = X[:n], Y[:n]
X, Y = X.reshape((n, -1)), Y.reshape((n,))
train = n // 2
clf = DecisionTreeClassifier(criterion="entropy", max_depth=5)
clf.fit(X[:train], Y[:train])
expected = Y[train:]
predicted = clf.predict(X[train:])
print("Classification report for classifier %s:\n%s\n"
% (clf, metrics.classification_report(expected, predicted)))

==ImageNet==

===Описание===
[[Файл:Imagenet.png|мини| Рис.4. Пример разметки объектов в датасете ImageNet [http://www.image-net.org/challenges/LSVRC/2014/ Источник]]]

База данных Imagenet {{---}} проект по созданию и сопровождению массивной базы данных аннотированных изображений. Аннотация изображений происходит путем краудсорсинга сообществом. Из-за этого достигается большое количество размеченных данных.

Особенность данного набора данных {{---}} про каждую картинку известно несколько фактов вида "в этом прямоугольнике есть автомобиль" (см. рис. 4), что в совокупности с индексом по типам объектов, которые есть на изображениях, позволяет обучить алгоритм для распознавания объектов какой-то конкретной категории. На август 2017 года в ImageNet 14 197 122 изображения, разбитых на 21 841 категорию.

===Imagenet Challenge===

[[Файл:Imagenet-contest.png|мини| Рис.5. Лучшие результаты на Imagenet Challenge за различные годы [https://en.wikipedia.org/wiki/File:ImageNet_error_rate_history_(just_systems).svg Оригинал]]]

Вместе с публикацией набора данных стартовал конкурс ImageNet Large Scale Visual Recognition Challenge (ILSVRC<ref>http://www.image-net.org/challenges/LSVRC/[http://www.image-net.org/challenges/LSVRC/]</ref>). В его рамках участникам предлагается достигнуть наибольшей точности при классификации набора изображений. Организаторы использовали около тысячи различных категорий объектов, которые нужно классифицировать. На примере этого конкурса хорошо видно, как в 2010-е годы люди научились заметно лучше распознавать образы на изображениях, уже в 2017 году большинство участвующих команд преодолели порог в 95% правильных ответов. История улучшения результатов представлена на рисунке 5. Эта задача, проблема компьютерного зрения, имеет огромное практическое значение во многих прикладных областях.

==ADE20K==

===Описание===
[[Файл:ADE20K_merged.png|мини|Рис.6. Изображение из ADE20K и его разбиение на части.]]
ADE20K {{---}} набор изображений с размеченными сущностями, который хорошо подходит для задачи [[Сегментация изображений|семантической сегментации данных]] в компьютерном зрении, пример разметки приведен на рисунке 6. Особенность этого набора состоит в том, что кроме объектов приводится также информация об их составных частях: например, если на изображении находится человек, то в дополнение к местоположению его фигуры будет также приведено положение его глаз и носа.

Подобные наборы данных часто страдают от несогласованности меток при их разметке сообществом. Для ADE20K эта проблема была решена {{---}} все изображения размечал только один человек, что обусловило высокую согласованность меток.

===Структура данных <ref>https://groups.csail.mit.edu/vision/datasets/ADE20K/#Description</ref>===
Всего в наборе данных находится 22 210 изображений, из них 20 210 составляют набор для обучения, а 2 000 {{---}} набор для проверки. Максимальный размер изображения {{---}} 4500x6000p. Минимальный {{---}} 130x96p. Средний размер изображений равен 1.5Мп. К каждому изображению прилагается его RGB-оригинал (*.jpg), сегментация на сущности (*_seg.png), несколько изображений с сегментацией на части (*_seg_N.png, где N {{---}} это число) и описание признаков на изображении (*.txt).

ADE20K также содержит дополнительный файл на языке MATLAB, который позволяет загрузить изображения и информацию об их признаках.

===Результаты===

Основными метриками для этого набора данных являются пиксельная точность (англ. Pixel accuracy), которая состоит из доли корректно классифицированных пикселей, и [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]]. На момент создания ADE20K, лучшие алгоритмы машинного обучения давали пиксельную точность равную ~76% и индекс Жаккара равный ~0.34 на проверочном множестве<ref>https://arxiv.org/pdf/1608.05442.pdf</ref>. Сейчас лучшей нейронной сетью для этого набора данных является [https://arxiv.org/pdf/2004.08955v1.pdf ResNeSt], который позволяет достичь 82.07% пиксельной точности и индекс Жаккара 46.91%.

==COCO==

===Описание===

[[Файл:Coco-examples.jpg|мини| Рис.7. Пример изображений из MS Coco [http://cocodataset.org/images/coco-examples.jpg Оригинал]]]

MS COCO (англ. ''Common Objects in Context'') {{---}} большой набор изображений. Состоит из более чем 330000 изображений (220000 {{---}} размеченных), с более чем 1.5 милионов объектов на них. Примеры изображений приведены на рисунке 7. Все объекты находятся в их естественном окружении (контексте). Изображения, как правило, содержат объекты разных классов (только 10% имеют единственный класс). Все изображения сопровождаются аннотациями, хранящихся в json формате. Подробнее о структуре аннотаций можно прочитать [http://cocodataset.org/#format-data здесь].

COCO имеет пять типов аннотаций для разных задач:
* [[Задача нахождения объектов на изображении]]<tex>^\star</tex>
* Обнаружение ключевых точек. Обнаружение объектов и локализация их ключевых точек.
* Сегментация окружения (англ. ''Stuff Segmentation''). В отличии от задачи обнаружения объектов (человек, кот, машина), здесь внимание фокусируется на том, что его окружает (трава, стена, небо). Метки классов организованы в иерархическом порядке (напр., ''stuff → outdoor-stuff → sky → clouds''). Чтобы добиться совместимости с задачей обнаружения объектов, используются следующие идентификаторы категорий:

{| class="wikitable"
|-
! Идентификатор
! Соответствие
|-
|1-91 || категории объектов (не используются в сегментации окружения)
|-
|92-182 || категории окружения
|-
|183 || категория "другое" (выбирается для "объектов")
|}
* Паноптическая сегментация (англ. ''Panoptic Segmentation'') {{---}} обединение задач семантической сегментации ([[Сегментация изображений]]) и обнаружения объектов. Задача состоит в том, чтобы классифицировать все пиксели изображения на принадлежность к некоторому классу, а также определить, к какому из экземпляров данного класса они относятся.
* Аннотирование изображения (англ. ''Caption Evaluation''). Генерация сопроводительной подписи к изображению.

===Результаты===
Результат задачи зависит от многих факторов. Например, для задачи обнаружения объекта, наилучшие результаты алгоритмы показывают на крупных объектах.
Более подробно с метриками можно ознакомиться [http://cocodataset.org/#detection-leaderboard здесь].
Приведем лишь результаты детектора [https://arxiv.org/abs/1512.03385 ResNet] (bbox) - победителя 2015 Detection Challenge.
Графики, изображенные на рисунках 8 и 9, представляют из себя семейство кривых Pressision Recall для различных метрик.

{|align="center"
|-valign="top"
|[[Файл:Detection-analysis-person.jpg|мини| Рис.8. PR кривые для класса "Person" [http://cocodataset.org/images/detection-analysis-person.jpg Оригинал]]]
|[[Файл:Detection-analysis-all.jpg|мини|Рис.9. Усредненные значения для всех классов [http://cocodataset.org/images/detection-analysis-all.jpg Оригинал]]]
|}

 

===Код===

Пример использования [https://github.com/cocodataset COCO API] на python:

%matplotlib inline
from pycocotools.coco import COCO
import numpy as np
import skimage.io as io
import matplotlib.pyplot as plt
import pylab
pylab.rcParams['figure.figsize'] = (8.0, 10.0)

dataDir='..'
dataType='val2017'
annFile='{}/annotations/instances_{}.json'.format(dataDir,dataType)

coco=COCO(annFile)

cats = coco.loadCats(coco.getCatIds())
nms=[cat['name'] for cat in cats]
print('COCO categories: \n{}\n'.format(' '.join(nms)))

nms = set([cat['supercategory'] for cat in cats])
print('COCO supercategories: \n{}'.format(' '.join(nms)))

# get all images containing given categories, select one at random
catIds = coco.getCatIds(catNms=['person','dog','skateboard']);
imgIds = coco.getImgIds(catIds=catIds );
imgIds = coco.getImgIds(imgIds = [324158])
img = coco.loadImgs(imgIds[np.random.randint(0,len(imgIds))])[0]

# load and display image
# I = io.imread('%s/images/%s/%s'%(dataDir,dataType,img['file_name']))
# use url to load image
I = io.imread(img['coco_url'])
plt.axis('off')
plt.imshow(I)
plt.show()

[[Файл:Coco-1.png |мини| center|Рис.10. Пример изображения из датасета COCO [https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoDemo.ipynb Оригинал]]]

# load and display instance annotations
plt.imshow(I); plt.axis('off')
annIds = coco.getAnnIds(imgIds=img['id'], catIds=catIds, iscrowd=None)
anns = coco.loadAnns(annIds)
coco.showAnns(anns)

[[Файл:Coco-2.png|мини|center|Рис.11. Пример обнаруженного объекта [https://github.com/cocodataset/cocoapi/blob/master/PythonAPI/pycocoDemo.ipynb Оригинал]]]

==Fashion-MNIST==

===Описание===
[[Файл:FMNIST.png|мини|Рис.12. Пример изображений из Fashion-MNIST]]
Fashion-MNIST {{---}} это набор изображений, взятых из статей [https://jobs.zalando.com/en/tech/?gh_src=nevh2y1 Zalando], состоящий из обучающего набора из 60000 примеров и тестового набора из 10000 примеров. Каждый пример представляет собой черно-белое изображение 28x28 (см. рис. 12), связанное с меткой из 10 классов. Создатели Fashion-MNIST предложили его в качестве прямой замены исходного набора данных MNIST, состоящего из рукописных цифр, для сравнительного анализа алгоритмов машинного обучения. Он имеет одинаковый размер изображения и структуру разделений для обучения и тестирования. Аргументировали необходимость такой замены тем, что исходный набор данных MNIST действительно хорошо отражает возможность алгоритма хоть что-то классифицировать, но если алгоритм работает на стандартном MNIST, он все равно может не сработать на других примерах данных. Также на наборе данных MNIST научились достигать слишком высоких результатов точности (97% для классических алгоритмов машинного обучения и 99.7% для сверточных нейронных сетей), в то время как MNIST не отражает современных сложных проблем компьютерного зрения. Это позволило сделать предположение о том, что набор данных MNIST слишком простой по современным меркам и его требуется заменить.

===Результаты===

На сайте<ref>https://github.com/zalandoresearch/fashion-mnist</ref> набора данных можно найти список лучших результатов, достигнутых алгоритмами на этом наборе данных. Так как задача классификации набора данных Fashion-MNIST сложнее, чем в случае стандартного набора MNIST, в таблице представлены только алгоритмы глубокого обучения, т.к. только для них эта задача имеет смысл. Так, худший из записанных результатов достигнут сверточной нейронной сетью с 3 сверточными слоями и одним слоем пулинга (12.4% ошибок), а подавляющее большинство лучших результатов получены боле сложными архитектурами. Лучший результат был достигнут WRN сетью и составляет всего 3.3% ошибки.

===Код===

Простой код, скачивающий Fashion-MNIST с использованием NumPy и запускающий на нем стандартный классификатор.

import mnist_reader
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
from sklearn.utils import shuffle
x_train, y_train = mnist_reader.load_mnist('data/fashion', kind='train')
x_test, y_test = mnist_reader.load_mnist('data/fashion', kind='t10k')
X, Y = shuffle(x_train, y_train)
n = 1000
X, Y = X[:n], Y[:n]
X, Y = X.reshape((n, -1)), Y.reshape((n,))
train = n // 2
clf = DecisionTreeClassifier(criterion="entropy", max_depth=5)
clf.fit(X[:train], Y[:train])
expected = Y[train:]
predicted = clf.predict(X[train:])
print("Classification report for classifier %s:\n%s\n"
% (clf, metrics.classification_report(expected, predicted)))

==Boston Housing==

===Описание===

Boston Housing содержит данные, собранные Службой переписи населения США (англ. ''U.S Census Service''), касающиеся недвижимости в районах Бостона. Набор данных состоит из 13 признаков и 506 строк и также предоставляет такую информацию, как уровень преступности (CRIM), ставка налога на недвижимость (TAX), возраст людей, которым принадлежит дом (AGE), соотношение числа учащихся и преподавателей в районе (PTRATIO) и другие. Данный набор данных используется для предсказания следующих целевых переменных: средняя стоимость дома (MEDV) и уровень закиси азота (NOX).

===Результаты===

Для решения задачи предсказания средней стоимости дома используется множественная линейная регрессия. Метрикой качества модели выступает корень из среднеквадратичной ошибки ([[Оценка качества в задачах классификации и регрессии|англ. ''root-mean-square error, RMSE'' ]]). В среднем, значение RMSE на данном наборе данных находится в районе 3,5-5 в зависимости от выбранной модели. Однако на соревновании на сайте [https://www.kaggle.com/sagarnildass/predicting-boston-house-prices Kaggle] пользователь [https://www.kaggle.com/c/boston-housing/leaderboard MayankSatnalika] получил результат 1.33055.

===Код===

Простой код, загружающий набор данных из библиотеки sklearn с использованием NumPy и Pandas и запускающий на нем алгоритм линейной регрессии.
import pandas as pd
import numpy as np
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
boston_dataset = load_boston()
boston = pd.DataFrame(boston_dataset.data, columns=boston_dataset.feature_names)
boston['MEDV'] = boston_dataset.target
X = pd.DataFrame(np.c_[boston['LSTAT'], boston['RM']], columns=['LSTAT', 'RM'])
Y = boston['MEDV']
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=5)
lin_model = LinearRegression()
lin_model.fit(X_train, Y_train)
y_train_predict = lin_model.predict(X_train)
rmse = (np.sqrt(mean_squared_error(Y_train, y_train_predict)))# 5.6371293350711955
y_test_predict = lin_model.predict(X_test)
rmse = (np.sqrt(mean_squared_error(Y_test, y_test_predict)))# 5.13740078470291

==Caltech-UCSD Birds 200 (CUB)==
[[Файл:cub_dataset_logo.jpg |мини|Рис.13. Пример изображений из CUB [http://www.vision.caltech.edu/visipedia/collage.jpg Оригинал]]]
===Описание===
Caltech-UCSD Birds 200 {{---}} это набор данных, содержащий изображения птиц. Данный набор включает в себя фотографии 200 видов птиц. Большинство видов птиц, представленных в наборе данных, являются североамериканскими. Общее количество категорий птиц составляет 200, в набор данных 2010 года включены 6033 изображения, а в набор данных 2011 года {{---}} 11 788 изображений, некоторые из них приведены на рисунке 13.

===Поиск и аннотация изображений===
Изображения для набора данных были получены с сайта Flickr и отфильтрованы с помощью Amazon Mechanical Turk. Каждое изображение аннотировано границей области, содержащей птицу, грубой сегментацией птиц, набором меток атрибутов и текстовым описанием. Примеры аннотированных изображений представлены на рисунке 14.

{|align="center"
|-valign="top"
|[[Файл:birds_annotations.png|800px|мини|Рис.14. Изображения и аннотации из CUB-200]]
|}

==102 Category Flower==
===Описание===
[[Файл:flowers-examples.jpg|мини|Рис.15. Примеры изображений из Oxford Flowers 102]]
Oxford Flowers 102 {{---}} набор данных, состоящий из цветов, встречающихся в Соединенном Королевстве. Набор стоит состоит из 102 видов цветов и содержит от 40 до 258 изображений каждого вида. Примеры изображений из данного датасета приведены на рисунке 15. Все изображения имеют крупный масштаб. Цветы представлены в различных ракурсах и вариациях освещения. Кроме того, в наборе присутствуют виды цветов очень похожие друг на друга. Графы соседства цветков по различным признакам представлены на рисунках 16 и 17.

Набор данных делится на обучающий набор, проверочный набор и тестовый наборы. Каждый обучающий и проверочный наборы состоят из 10 изображений на класс (всего 1020 изображений). Тестовый набор состоит из оставшихся 6149 изображений (минимум 20 изображений на класс).

{|align="center"
|-valign="top"
|[[Файл:cad_Shapeiso.jpg|мини|Рис.16. Граф соседства по форме [https://www.robots.ox.ac.uk/~vgg/data/flowers/102/shapeiso.jpg Оригинал]]]
|[[Файл:cad_Colouriso.jpg|мини|Рис.17. Граф соседства по цвету [https://www.robots.ox.ac.uk/~vgg/data/flowers/102/colouriso.jpg Оригинал]]]
|}

==Visual Genome==
[[Файл:Visual_Genome_учфьзду.png|мини| 600px|Рис.18. Результат визуализации]]
===Описание===
Visual Genome {{---}} это набор данных, связывающий изображения со словесным описанием их содержимого. Является исчерпывающим набором данных для обучения и тестирования моделей компьютерного зрения, обеспечивает обширный анализ содержимого в изображениях с учетом зависимостей между объектами. Это позволяет использовать набор данных для решения большого количества различных задач: от поиска объектов до поиска отношений, требующих дальнейшего вывода, и даже задачи, связанные с ответами на вопросы.

Изображение часто представляет сложную картину, которую невозможно полностью раскрыть одним предложением. Существующие наборы данных, такие как Flickr 30K, ориентированы на высокоточное описание всего изображения в целом. Вместо этого для каждого изображения в Visual Genome собираются более 50 описаний для разных регионов изображения, обеспечивая тем самым намного более полный набор описаний.

Набор данных содержит более 108К изображений, каждое из которых имеет в среднем 35 объектов, 26 атрибутов и 21 парное отношение между объектами. В данном наборе данных происходит канонизация объектов, атрибутов, отношений и словосочетаний в описаниях регионов и пар вопрос-ответ в синсеты из [https://ru.wikipedia.org/wiki/WordNet WordNet]. Cинсет {{---}} это набор данных, элементы в котором считаются семантически эквивалентными для поиска или восстановления информации. Visual Genome является самым большим набором данных с описаниями изображений, объектов, атрибутов, отношений и пар вопрос-ответ.

===Код===
Пример использования [https://visualgenome.org/api/v0/api_home.html Visual Genome API] на python:

import matplotlib.pyplot as plt
from matplotlib.patches import Rectangle
from src import api as vg
from PIL import Image as PIL_Image
import requests
%matplotlib inline
from StringIO import StringIO
ids = vg.GetImageIdsInRange(startIndex=0, endIndex=1)
image_id = ids[0]
image = vg.GetImageData(id=image_id)
regions = vg.GetRegionDescriptionsOfImage(id=image_id)
fig = plt.gcf()
fig.set_size_inches(18.5, 10.5)
def visualize_regions(image, regions):
response = requests.get(image.url)
img = PIL_Image.open(StringIO(response.content))
plt.imshow(img)
ax = plt.gca()
for region in regions:
ax.add_patch(Rectangle((region.x, region.y),
region.width,
region.height,
fill=False,
edgecolor='red',
linewidth=3))
ax.text(region.x, region.y, region.phrase, style='italic', bbox={'facecolor':'white', 'alpha':0.7, 'pad':10})
fig = plt.gcf()
plt.tick_params(labelbottom='off', labelleft='off')
plt.show()
visualize_regions(image, regions[:8])
Результат работы кода представлен на рисунке 18.

==CelebA==
[[Файл:CelebA.jpg|мини|Рис.19. Пример изображений из CelebA [http://mmlab.ie.cuhk.edu.hk/projects/CelebA/overview.png Оригинал]]]
===Описание===
CelebA (CelebFaces Attributes Dataset) {{---}} это крупномасштабный набор данных атрибутов лиц, содержащий более 200 тысяч изображений знаменитостей (см. рис. 19). Изображения в этом наборе данных охватывают большие вариации поз и беспорядок на фоне. CelebA имеет большое разнообразие, большое количество и богатые аннотации: 10 177 уникальных личностей, 202 599 изображений лиц и 5 ориентиров, 40 бинарных аннотаций атрибутов на изображение. Эти данные были первоначально собраны исследователями из MMLAB<ref>http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html[http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html]</ref>, Китайского университета Гонконга.

Набор данных можно использовать в качестве обучающих и тестовых наборов для следующих задач компьютерного зрения: распознавание атрибутов лица, обнаружение лиц и локализация ориентиров (или части лица).

===Пример атрибутов===
Ниже приведен пример некоторых бинарных атрибутов в CelebA, где отдельный атрибут {{---}} одна из характеристик лица. Оригинал примера доступен [https://towardsdatascience.com/celeba-attribute-prediction-and-clustering-with-keras-3d148063098d здесь].
Более подробно со всеми атрибутами можно ознакомиться [https://www.tensorflow.org/datasets/catalog/celeb_a здесь]
{| class="wikitable"
|-
! Идентификатор изображения
! Короткая щетина
! Круги под глазами
! Лысый
! Челка
! Большие губы
! Большой нос
! Темные волосы
|-
| 146596.jpg
| 0
| 0
| 0
| 0
| 0
| 0
| 0
|-
| 027415.jpg
| 0
| 0
| 0
| 0
| 1
| 0
| 1
|-
| 031426.jpg
| 0
| 0
| 0
| 1
| 1
| 1
| 1
|}

==CityScapes==
[[Файл:CityscapesZuerich.jpg|мини|Рис.20. Пример изображения из CityScapes [https://www.cityscapes-dataset.com/examples/ Источник]]]
===Описание===
CityScapes<ref>https://www.cityscapes-dataset.com/</ref> {{---}} это набор данных, состоящий из разнообразных городских уличных сцен в 50 разных городах в разное время года. Данный набор хорошо подходит для задач компьютерного зрения, таких как: [[Сегментация изображений|семантическая сегментация данных]], сегментация на уровне экземпляра и вывод несоответствия стереопар. Пример изображения из данного датасета представлен на рисунке 20.

===Структура данных <ref>https://www.cityscapes-dataset.com/dataset-overview/#features</ref>===
Всего в наборе данных находится 25 000 изображений, из них 5000 составляют набор с более детальными аннотациями изображений с разрешением 1024 * 2048, предварительно разделенных на наборы для обучения {{---}} 2975, проверки {{---}} 500 и тестирования {{---}} 1525. Оставшиеся 20 000 изображений имеют грубые аннотации, позволяющие применять методы, использующие большие объемы данных со слабой маркировкой.

===Результаты===

Основной метрикой для этого набора данных является [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]]. Также, хорошо известно, что глобальная мера [[Оценка качества в задаче кластеризации#Индекс Жаккара (англ. Jaccard Index)|индекс Жаккара]] смещена в сторону экземпляров объектов, которые покрывают большую область изображения. В уличных сценах с их сильным изменением масштаба это может быть проблематично.
Чтобы решить эту проблему, создатели датасета дополнительно оценивают семантическую маркировку, используя метрику пересечения по объединению на уровне экземпляра {{---}}<math>
iIoU = \dfrac{iTP}{iTP + FP + iFN}
</math>, где <math>iTP</math>, <math>FP</math> и <math>iFN</math> обозначают количество истинно положительных, ложноположительных и ложно отрицательных пикселей соответственно. Сейчас лучшей нейронной сетью для этого набора данных в задаче семантической сегментации данных является [https://www.cityscapes-dataset.com/benchmarks/#scene-labeling-task DAHUA-ARI], которая позволяет достичь индекс Жаккара 85.8% и iIoU 70.6% для классов, индекс Жаккара 93.2% и iIoU 85.4% для категорий, соответственно.

==ICDAR==
[[Файл:ICDAR2017.png|мини|Рис.21. Пример изображения из датасета ICDAR2017 Competition on Multi-lingual Scene Text Detection and Script Identification (MLT) [https://arxiv.org/pdf/1812.05219.pdf Источник]]]
===Описание===
ICDAR<ref>https://rrc.cvc.uab.es/</ref> (англ. International Conference on Document Analysis and Recognition) {{---}} это международная конференция по анализу и распознаванию текста и одноименное семейство набора данных, состоящее из фотографий (см. рис. 21, 22 и 23), на которых изображен текст на разных языках. Данные наборы создаются для соревнований RRC (англ.Robust Reading Competition), где требуется решить следующие задачи: обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание, распознавание скриптов, ответы на вопросы, связанные с изображениями.
Ниже приведен анализ наборов данных ICDAR2013, ICDAR2015, ICDAR2017, ICDAR2019.

===ICDAR 2013===

{| class="wikitable"
|-
! Наименование датасета
! Тип текста
! Количество объектов
! Количество обучающих объектов
! Количество тестовых объектов
! Количество слов
! Количество обучающих слов
! Количество тестовых слов
! Язык текста на изображениях
! Задачи
|-
| ICDAR 2013 "Born Digital Images"
| изображения, извлеченные с веб-страниц и сообщений электронной почты
| 561
| 420
| 141
| 5003
| 3564
| 1439
| Английский
| обнаружение текста, сегментация текста, распознавание символов
|-
| ICDAR 2013 "Focused Scene Text"
| изображения с текстом на вывесках, логотипах и т.д.
| 462
| 229
| 233
| 1943
| 848
| 1095
| Английский
| обнаружение текста, сегментация текста, распознавание символов
|}

===ICDAR 2015===

{| class="wikitable"
|-
! Наименование датасета
! Тип текста
! Количество объектов
! Количество обучающих объектов
! Количество тестовых объектов
! Количество слов
! Количество обучающих слов
! Количество тестовых слов
! Язык текста на изображениях
! Задачи
|-
| ICDAR 2015 "Born Digital Images"
| изображения, извлеченные с веб-страниц и сообщений электронной почты
| 561
| 420
| 141
| 5003
| 3564
| 1439
| Английский
| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание
|-
| ICDAR 2015 "Focused Scene Text"
| изображения с текстом на вывесках, логотипах и т.д.
| 462
| 229
| 233
| 1943
| 848
| 1095
| Английский
| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание
|-
| ICDAR 2015 "Incidental Scene Text"
| изображения, на которых текст попал в поле зрения камеры Google Glass случайно<ref>https://rrc.cvc.uab.es/?ch=4</ref>
| 1670 (1500 публичных)
| 1000
| 500
| 17548
| -
| -
| Английский
| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание
|}

===ICDAR 2017===

{| class="wikitable"
|-
! Наименование датасета
! Тип текста
! Количество объектов
! Количество обучающих объектов
! Количество тестовых объектов
! Количество слов
! Количество обучающих слов
! Количество тестовых слов
! Язык текста на изображениях
! Задачи
|-
| ICDAR 2017 "COCO-Text"
| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст
| 63686
| 43686
| 10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая
| 173589
| -
| -
| Французский
| сквозное распознавание
|-
| ICDAR 2017 "Multi-lingual Scene Text"
| изображения с текстом на 9 различных языках
| 18 000
| -
| -
| 107 547(тренировочные + валидирующие слова)
| -
| -
| Английский, Арабский, Бенгальский, Китайский, Французский, Немецкий, Японский, Корейский
| обнаружение текста, сегментация текста
|-
| ICDAR 2017 "French Street Name Signs"
| изображения, на которых есть названия француззских улиц
| 1 081 422, где каждое изображение содержит до 4 объектов с названией улицы
| -
| -
| -
| -
| -
| Английский
| обнаружение текста, сегментация текста, распознавание символов, сквозное распознавание
|}

===ICDAR 2019===

{| class="wikitable"
|-
! Наименование датасета
! Тип текста
! Количество объектов
! Количество обучающих объектов
! Количество тестовых объектов
! Количество слов
! Количество обучающих слов
! Количество тестовых слов
! Язык текста на изображениях
! Задачи
|-
| ICDAR 2019 "COCO-Text"
| набор данных, основанный на датасете "MS COCO"<ref>https://vision.cornell.edu/se3/wp-content/uploads/2019/01/ICDAR2017b.pdf</ref>, где собраны обычные изображения ежедневных сцен, на которых, возможно, есть текст
| 63686
| 43686
| 10000 {{---}} валидирующая выборка, 10000 {{---}} тестовая
| 173589
| -
| -
| Французский
| сквозное распознавание
|-
| ICDAR 2019 "Multi-lingual Scene Text"<ref>https://arxiv.org/pdf/1907.00945.pdf</ref>
| изображения с текстом на 10 различных языках
| 20 000 (2 000 для каждого языка) + 277 000 сгенерированных изображения
| 10 000
| 10 000
| -
| -
| -
| Английский, Арабский, Бенгальский, Деванагари, Китайский, Французский, Немецкий, Японский, Корейский
| обнаружение текста, идентификация скрипта, сквозное распознавание
|-
| ICDAR 2019 "Scene Text Visual Question Answering"
| набор данных, включающий
23 038 изображений с 31 791 парой вопросов и ответов,
где ответ всегда основан на присутствующих текстовых экземплярах
на изображении.
| -
| -
| -
| -
| -
| -
| Английский
| ответ на вопрос, связанный с изображением
|}

{|align="center"
|-valign="top"
|[[Файл:ICDARSamples.png |600px|thumb|Рис.22. Сэмплы из датасетов ICDAR 2011, ICDAR 2015, ICDAR 2017]]
|}

{|align="center"
|-valign="top"
|[[Файл:ICDAR2019Sample.png |600px|thumb|Рис.23. Сэмпл из датасета ICDAR 2019 "Scene Text Visual Question Answering"]]
|}

==Pointing'04==

===Описание===

Pointing'04 <ref>http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf</ref> {{---}} база данных изображений лиц в разных положениях для 15-ти человек. Для каждого человека представлено 93 положения головы, при этом каждая фотография предложена в двух вариантах освещения и масштаба (две разные сессии). Снимки, сделанные во время первого сеанса, используются в качестве обучающих данных, а изображения из второго сеанса используются в качестве данных тестирования. 93 положения включают комбинации 13-и вариантов поворота и 7-и вариантов наклона вместе с двумя крайними случаями наклона при отсутствии поворота.

===Пример сета изображений===

{|align="center"
|-valign="top"
|[[Файл:Pointing.png|600px|thumb|Рис.24. Пример сета изображений Pointing'04 [https://www.researchgate.net/publication/221545772_Evaluation_of_Head_Pose_Estimation_for_Studio_Data Источник]]]
|}

==FASSEG==

===Описание===

Репозиторий FASSEG <ref>http://massimomauro.github.io/FASSEG-repository/</ref> (англ. FAce Semantic SEGmentation ) состоит из двух наборов данных (Frontal01 и Frontal02) для сегментации лиц в фронтальном положении и одного набора данных (Multipose01) с лицами в нескольких определенных положениях.

Frontal01 содержит 70 сегментированных изображений лиц и исходные изображения RGB. Исходные лица в основном взяты из наборов данных [http://cbcl.mit.edu/software-datasets/FaceData2.html MIT-CBCL] и [http://www.fei.edu.br/~cet/facedatabase.html FEI].

Frontal02 {{---}} это «высокоточный» Frontal01. Он содержит те же изображения, что и Frontal01, но с гораздо более точной сегментацией.

Multipose01 содержит более 200 размеченных лиц в 13-ти положениях с углом поворота от -90 градусов до 90 градусов включительно. Исходные лица взяты из базы данных [http://crowley-coutaz.fr/FGnet/reports/Pointing04-Proceedings.pdf Pointing'04].

===Сегментация===

{|align="right"
|-valign="top"
|[[Файл:FASSEG3.png|300px|thumb|Рис.25. Сегментация изображения [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/multiclass_face_segmentation_ICIP2015.pdf Источник]]]
|}

Изображение размечается на 6 сегментов (см. рис. 25):
*глаза;
*нос;
*рот;
*волосы (вместе с бровями);
*фон изображения;
*кожа.

===Примеры изображений===

{|align="center"
|-valign="top"
|[[Файл:FASSEG1.png|300px|thumb|Рис.26. Пример изображений из датасетов Frontal01 и Frontal02 [https://raw.githubusercontent.com/massimomauro/FASSEG-dataset/master/other/V1V2_diff.png Оригинал]]]
|[[Файл:FASSEG2.png|400px|thumb|Рис.27. Пример изображений из датасета Multipose01 [https://github.com/massimomauro/FASSEG-repository/blob/master/papers/pose_estimation_by_segmentation_ICME2017.pdf Источник]]]
|}

==MPI==

===Описание===

MPI Human Pose <ref>http://human-pose.mpi-inf.mpg.de/</ref> (англ. Max Planck Institute) {{---}} это набор данных, позволяющий определять различные виды активности человека по позам на изображениях и аннотациям к ним. Набор данных включает около 25 тысяч изображений, содержащих более 40 тысяч людей с указанным положением отдельных частей тела. Изображения систематически собирались с использованием установленной таксономии повседневной деятельности человека. В целом набор данных охватывает 410 видов деятельности человека, каждое изображение снабжено меткой активности. Каждое изображение было извлечено из видео с YouTube и снабжено предшествующими и последующими кадрами без аннотации. Кроме того, для тестового набора приложены более детальные аннотации, включая сгибы частей тела и ориентации туловища и головы.

===Структура датасета и примеры изображений===

{|align="right"
|-valign="top"
|[[Файл: MPI1.jpg|500px|thumb|Рис.28. Пример изображений из подкласса датасета MPI [http://human-pose.mpi-inf.mpg.de/#dataset Источник]]]
|}

Датасет представлен двадцатью различными классами активности: езда на велосипеде, упражнения, танцы, рыбалка и охота, домашняя активность, ремонт, отдых, активность на природе, игра на музыкальных инструментах, религиозная деятельность, бег, самоуход, спорт, передвижение на транспорте, волонтерство, прогулки, активность на воде, зимние виды активности, разное.

Каждый класс также разделен на уникальные подклассы. Пример такого разделения приведен на рисунке 28.

Датасет снабжен документацией с описанием структуры объектов и методами взаимодействия с ними, всю необходимую информацию по датасету, как и сами исходники, можно получить по [http://human-pose.mpi-inf.mpg.de/ ссылке].

==См.также==
* [[Общие понятия]]
* [[Сегментация изображений]]
* [[Задача нахождения объектов на изображении]]
* [[Оценка качества в задачах классификации и регрессии]]

==Примечания==
[[Категория: Машинное обучение]]
[[Категория: Компьютерное зрение]]
[[Категория: Классификация и регрессия]]

Автоматическое машинное обучение

2021-01-13T13:36:27Z

Truff4ut: Добавлены более современные подходы.

Автоматическое машинное обучение (англ. Automated Machine Learning, AutoML) {{---}} процесс создания динамической комбинации различных методов для формирования простой в использовании сквозной конвейерной системы машинного обучения. AutoML использует хорошо зарекомендовавшие себя методы, которые мы классифицируем в следующие категории на основе конвеера машинного обучения (показано на Рис.1): подготовка данных, конструирование признаков, генерация моделей и их оценка.
[[Файл:automl_1_1.png|1000px|thumb|center|Рисунок 1: Конвеер автоматического машинного обучения]]
 
Подготовка данных состоит из двух этапов: сбор данных и их предварительная обработка. 
Конструирование признаков состоит из 3 процессов: извлечение признаков, выбор признаков и построение признаков. 
Этап генерации модели включает в себя выбор модели и оптимизацию гиперпараметров выбранной модели. 
Методы [[Настройка гиперпараметров | оптимизации гиперпараметров]]: случайный поиск, поиск по сетке, градиентный спуск (gradient descent, GD), [[Обучение с подкреплением | обучение с подкреплением]], [[Эволюционные алгоритмы | эволюционный алгоритм]]
(evolutionary algorithm, EA), байесовская оптимизация (Bayesian optimization, BO), байесовская оптимизация на основе гиперболы (Bayesian optimization based hyperband, BOBH).

== Подготовка данных ==
Первым шагом в конвейере машинного обучения идет этап подготовки данных. Во многих задачах, например, в задаче распознавания образов в медицине, бывает трудно получить достаточно данных, или качественно размеченных данных. Мощная система AutoML должна уметь справляться с этой проблемой. Для исследования этой задачи процесс подготовки данных разделяется на два подэтапа: сбор данных и их предобработка.
=== Сбор данных ===
Углубленное изучение ML привело к консенсусу, что качественные данные общедоступны. В результате появилось множество открытых наборов данных. Однако, с помощью вышеуказанных подходов, как правило, очень трудно найти надлежащий набор данных для специализированных задач, таких как задачи, связанные с медициной. Для решения этой задачи предлагается два типа методов: синтез данных и поиск данных.
==== Синтез данных ====
Одним из наиболее часто используемых методов является аугментация существующего набора данных. Для данных изображений существует множество [[Практики реализации нейронных сетей | операций аугментации]], таких как обрезка, поворот, изменение размера и т.д. 
Также, существуют два подхода к созданию дополнительных обучающих примеров: искажение данных и синтетическая избыточная выборка. Первый генерирует дополнительные семплы, применяя преобразования к пространству данных, а второй создает дополнительные семплы в пространстве признаков. Текстовые данные могут быть дополнены синонимами или сначала переводом текста на иностранный язык, а затем переводом его обратно на оригинальный. 
Плюс ко всему, одним из распространенных методов является [[Generative Adversarial Nets (GAN)| порождающие состязательные сети]], которые, в основном, применяются для генерации картинок и текстов.
==== Поиск данных ====
Так как интернет является неисчерпаемым источником данных, поиск веб-данных {{---}} это интуитивно понятный способ сбора наборов данных. Тем не менее, есть некоторые проблемы с использованием данных, полученных таким образом. 
Во-первых, результаты поиска могут не совсем совпадать с ключевыми словами. Чтобы решить эту проблему, несвязанные данные могут быть отфильтрованы. 
Во-вторых, веб-данные могут быть неправильно размечены или не размечены вовсе. Для решения этой проблемы часто используются self-labeling методы. К примеру, один из таких методов [[Активное обучение | активного обучения]] выбирает наиболее "неопределенные" неразмеченные отдельные примеры для разметки вручную, а затем итеративно размечаются оставшиеся данные. Чтобы полностью устранить потребность в разметке данных вручную и еще больше ускорить этот процесс, предлагается множество методов саморазметки [[Обучение с частичным привлечением учителя | с частичным привлечением учителя]]. 
Однако, также существует проблема, что наш набор данных не сбалансирован. Решением этой проблемы является, к примеру, [[Алгоритмы сэмплирования | алгоритм SMOTE]], который помогает синтезировать новые данные, которые будут относиться к миноритарным классам, а также уменьшать количество данных, относящихся к мажоритарным классам.
=== Предварительная обработка данных ===
После того, как необработанные данные были собраны, они должны быть предварительно обработаны, чтобы удалить избыточные, неполные или неправильные данные. Например, распространенными типами ошибок в полученных наборах данных являются пропущенные значения и неправильные типы данных. Типичными операциями, используемыми для обработки данных, являются стандартизация, масштабирование, бинаризация количественных характеристик и замена недостающих значений средними значениями. 
При работе с картинками может возникнуть проблема, что картинка имеет неверную метку. В таких случаях применимы методы саморазметки. Тем не менее, процесс обработки данных обычно должен быть определен заранее вручную, потому что разные методы могут иметь различные требования, даже для одного и того же набора данных. Например, нейронная сеть может работать только с числовыми данными, в то время как методы, основанные на деревьях принятия решений, могут работать как с числовыми, так и с категориальными данными.

== Конструирование признаков ==
Конструирование признаков состоит из трёх подэтапов: выбор признаков (англ. feature selection), извлечение признаков (англ. feature extraction) и построение признаков (англ. feature construction). Извлечение и построение признаков {{---}} это варианты преобразования, с помощью которых создается новый набор признаков. Во многих случаях, целью извлечения признаков является [[Уменьшение размерности | уменьшение исходной размерности]] путём применения некоторых функций отображения, в то время как построение признаков используется для расширения исходного пространства признаков. Цель выбора признаков состоит в том, чтобы уменьшить избыточность признаков путем выбора наиболее важных из них. В итоге, суть автоматического конструирования признаков в некоторой степени заключается в динамическом сочетании этих трех принципов.

=== Выбор признаков ===
[[Файл:automl_2.png|300px|right|thumb|Рис. 2: Итерационный процесс выбора признаков. Подмножество признаков выбирается на основе стратегии поиска, а затем оценивается. После этого выполняется процедура валидации, чтобы определить, является ли полученное подмножество валидным. Описанные выше шаги повторяются до того момента, пока не будет достигнут критерий остановки.]]
При [[Уменьшение_размерности#Выбор признаков|выборе признаков]] строится подмножество объектов на основе исходного набора объектов путем сокращения нерелевантных или избыточных признаков. Это, как правило, упрощает модель, таким образом, избегая переобучения и улучшая производительность модели. Выбранные объекты обычно расходятся и сильно коррелируют со значениями объектов. 
Стратегия поиска для выбора признаков включает в себя три типа алгоритмов: полный поиск, эвристический поиск и случайный поиск.

=== Построение признаков ===
Это процесс создания новых признаков из исходного пространства или необработанных данных с целью улучшения качества и обобщаемой способности модели. Этот процесс сильно зависит от человеческого опыта, и одним из наиболее часто используемых методов являются препроцессинговые преобразования, такие как стандартизация, нормализация или дискретизация признаков. Кроме того, операции преобразования для различных типов признаков могут отличаться. Например, такие операции, как конъюнкция, дизъюнкция и отрицание, обычно используются для бинарных признаков; такие операции, как минимум, максимум, сложение, вычитание, среднее значение, обычно используются для числовых признаков. 
Невозможно вручную исследовать все возможности. Таким образом, для дальнейшего повышения эффективности были предложены некоторые автоматические методы построения признаков, которые позволяют достичь результатов, которые не уступают или даже превосходят результаты, достигнутые человеческим опытом. Эти алгоритмы направлены на автоматизацию процесса поиска и оценки комбинации операций.

=== Извлечение признаков ===
Это процесс уменьшения размерности пространства признаков путем применения некоторых функций отображения. Он извлекает наиболее информативные признаки с учетом выбранных метрик. В отличие от выбора признаков, извлечение признаков изменяет исходные признаки. Главной частью извлечения признаков является функция отображения, которая может быть реализована многими способами. Наиболее распространенными подходами являются [[Метод главных компонент (PCA) | метод главных компонент (PCA)]], метод независимых компонент (ICA), [[Стохастическое вложение соседей с t-распределением | t-SNE]], isomap, нелинейное уменьшение размерности.

== Генерация модели ==
После конструирования признаков нам нужно сгенерировать модель и задать ее гиперпараметры. Как показано на Рис. 1, генерация модели состоит из двух этапов: [[Модель алгоритма и её выбор | выбора модели]] и [[Настройка гиперпараметров | оптимизации гиперпараметров]].
Существует множество способов выбора модели. Ниже приведены некоторые из них:
=== TPOT (Tree-base Pipeline Optimization Tool) ===
В основе [[Модель алгоритма и её выбор#Автоматизированный выбор модели в библиотеке Tree-base Pipeline Optimization Tool (TPOT) для Python. | TPOT]] лежит эволюционный алгоритм поиска для нахождения лучшей модели и одновременной оптимизации её гиперпараметров. Представляет собой надстройку над scikit-learn<ref>[https://scikit-learn.org/stable/ Библиотека scikit-learn]</ref>, при этом в данную библиотеку также включены собственные алгоритмы регрессии и классификации. В мае 2020 года вышла версия, в которую был добавлен модуль для работы с нейронными сетями на основе PyTorch<ref>[https://pytorch.org/ Библиотека PyTorch]</ref>.
Время работы TPOT сильно зависит от размера входных данных. Не поддерживает обработку естественного языка и категориальных данных.

=== Auto-WEKA ===
[[Модель алгоритма и её выбор#Автоматизированный выбор модели в библиотеке auto-WEKA для Java | Auto-WEKA]] позволяет одновременно выбирать лучшую модель и настраивать ее гиперпараметры. Для этого процесса используется алгоритм [[Настройка гиперпараметров#Последовательная конфигурация алгоритма на основе модели | SMAC]]. Из-за перебора всех возможных моделей и их гиперпараметров алгоритм работает довольно долго.

=== Auto-sklearn ===
В [[Модель алгоритма и её выбор#Автоматизированный выбор модели в библиотеке auto-sklearn для Python | Auto-sklearn]] реализован автоматический выбор лучшего алгоритма из представленных в scikit-learn, а также настройка его гиперпараметров. Для улучшения обобщающей способности используются [[Уменьшение размерности#Другие методы|ансамбли]] из моделей, которые были получены в ходе оптимизации. В Auto-sklearn применяются идеи [[Мета-обучение|мета-обучения]], которые позволяют выделять похожие датасеты и использовать знания о них.

=== Auto-sklearn 2.0 ===
Auto-sklearn 2.0 является улучшенной версией библиотеки auto-sklearn. В обновленном варианте пакета каждый pipeline способен совершать раннюю остановку и сохранять результаты промежуточных вычислений. Это изменение кардинально улучшило производительность и качество работы.
Следующим нововведением стало ограничение множества алгоритмов, в котором производится перебор, до моделей, которые можно обучать итеративно, в частности, методы, основанные на деревьях решений. Изменился подход к мета-обучению, предыдущая версия библиотеки использовала мета-признаки для определения схожих между собой датасетов. В Auto-sklearn 2.0 реализован другой подход, было создано единое портфолио лучших решений для различных датасетов. Был добавлен автоматический выбор стратегии подбора наилучшей модели.

=== Auto-Keras ===
Открытая библиотека для автоматизированного подбора архитектуры модели, которая использует в своей основе scikit-learn, PyTorch и Keras<ref>[https://keras.io/ Библиотека Keras]</ref>. Библиотека параллельно использует CPU и GPU, а также адаптируется под лимиты памяти, за счёт чего обладает высокой производительностью. Auto-Keras показывает высокие результаты близкие к [[Автоматическое машинное обучение#Google Cloud AutoML | Google AutoML]], однако в отличии от продукта Google является бесплатной.
Идея библиотеки в том, чтобы исследовать пространство поиска архитектур с помощью алгоритма байесовской оптимизации. Алгоритм поиска нейросетевой архитектуры состоит из трех повторяющихся шагов: обновление, генерация и наблюдение. Обновлением называется обучение гауссовского процесса на имеющихся данных. На этапе генерации создаётся новая архитектура через оптимизацию функции исследования. В качестве наблюдения записываются результаты новой архитектуры.

=== MLBox ===
Мощная библиотека для автоматического машинного обучения, разработанная для Python. Реализует быстрое чтение, распределенную предобработку данных, выбор признаков, оптимизацию гиперпараметров в многомерном пространстве, современные предсказательные модели классификации и регрессии.

=== TransmogrifAI ===
AutoML библиотека написанная на SCALA работающая поверх Apache Spark. Она разработана с упором на повышение производительности разработки за счёт проверки типов во время компиляции, их переиспользования и модульности. Обеспечивает быстрое обучение моделей с минимальной ручной настройкой.

== Оценка модели ==
После того, как новая модель была сгенерирована, ее производительность должна быть оценена. Интуитивный метод состоит в том, чтобы обучить сеть сходиться, а затем оценить ее производительность. Однако этот метод требует значительных временных и вычислительных ресурсов. Для ускорения процесса оценки модели было предложено несколько алгоритмов, которые приведены ниже.
=== Низкая точность (англ. Low fidelity) ===
Поскольку время обучения модели тесно связано с набором данных и размером модели, оценка модели может быть ускорена различными способами. 
В случае обработки изображений может быть уменьшено их количество или разрешение (в терминах задач классификации изображений). 
Также, оценка модели может быть реализована путем уменьшения размера модели, например, путем обучения с меньшим количеством фильтров на слой.
=== Суррогатный метод (англ. Surrogate method) ===
Суррогатный метод {{---}} это еще один мощный инструмент, который аппроксимирует black-box функцию. В общем случае, как только получено хорошее приближение, задача найти конфигурации, которые непосредственно оптимизируют исходную дорогостоящую цель, становится тривиальной. К примеру, [https://arxiv.org/abs/1712.00559 прогрессивный поиск оптимизации нейронной сети (PNAS)] вводит суррогатную модель для управления методом поиска. Хотя было доказано, что [https://towardsdatascience.com/illustrated-efficient-neural-architecture-search-5f7387f9fb6 эффективный поиск нейронной сети (ENAS)] показывает высокую производительность, PNAS еще более эффективен, поскольку число моделей, оцениваемых PNAS, более чем в пять раз превышает число моделей, оцениваемых ENAS, и PNAS в восемь раз быстрее с точки зрения общей вычислительной скорости. Однако, когда пространство оптимизации слишком велико и трудно поддается количественной оценке, а оценка каждой конфигурации чрезвычайно дорогостоящая, суррогатный метод неприменим.
=== Ранняя остановка (англ. Early stopping) ===
Метод ранней остановки впервые был применен для избежания [[Переобучение | переобучения]] в классических задачах машинного обучения. Он используется для ускорения оценки модели путем остановки оценивания, которое, как предполагается, плохо работает на валидационном наборе.
=== Оптимизация ресурсов (англ. Resource-aware) ===
В большинстве исследований в прошлом больше внимания уделялось поиску нейронных архитектур, достигающих более высокой производительности (например, точности классификации), независимо от связанного с этим потребления ресурсов (т.е. количества графических процессоров и требуемого времени). Поэтому во многих последующих исследованиях исследуются алгоритмы, учитывающие ресурсы (resource-aware), чтобы найти компромисс между эффективностью и количеством вычислительных ресурсов. Для этого эти алгоритмы добавляют вычислительную стоимость к функции потерь в качестве ограничения ресурсов. 
Эти алгоритмы отличаются друг от друга типом вычислительной стоимости, которым могут являться:
* число параметров,
* число операций умножения-накопления (MAC),
* число операций с плавающей точкой (FLOP),
* действительная задержка

== AutoML сервисы ==

=== Google Cloud AutoML ===
Сервис от компании Google, который позволяет создавать модели машинного обучения, использующий запатентованную технологию Google Research, чтобы помочь пользовательским моделям достичь наиболее высокой производительности и точных предсказаний. Используется простой графический пользовательский интерфейс Cloud AutoML для обучения, оценки и оптимизации моделей на основе пользовательских данных. Также есть возможность генерировать высококачественные данные для интересующих задач.

==== Инструменты Cloud AutoML ====
* компьютерное зрение {{---}} [https://cloud.google.com/vision/overview/docs#automl-vision AutoML Vision], [https://cloud.google.com/video-intelligence/automl/docs AutoML Video Intelligence]
* машинный перевод {{---}} [https://cloud.google.com/natural-language/automl/docs AutoML Natural Language], [https://cloud.google.com/translate/automl/docs AutoML Translation]
* структурирование данных {{---}} [https://cloud.google.com/automl-tables/docs AutoML Tables]

=== IBM Watson Machine Learning ===
Сервис IBM Cloud с широким спектром услуг. Предоставляет обширные возможности для работы с естественным языком (например преобразование текста в речь и наоборот, динамический перевод документов, классификацию текста, анализ эмоциональной составляющей текста), а также инструменты для распознавания изображений. Поддерживает ограниченный набор типов библиотек, таких как scikit-learn и Keras.

=== MLJAR ===
Сервис для автоматизации машинного обучения предоставляющий возможности по предобработке данных, обучению алгоритма, и выбору гиперпараметров без использования кода. Предобработка реализована в виде заполнения недостающих данных, преобразовании типов признаков, а также [https://ru.wikipedia.org/wiki/%D0%A3%D0%BD%D0%B8%D1%82%D0%B0%D1%80%D0%BD%D1%8B%D0%B9_%D0%BA%D0%BE%D0%B4 one-hot encoding]. В качестве алгоритмов предлагаются Xgboost, LightGBM, Regularized Greedy Forest, cлучайный лес, алгоритм k-ближайших соседей, логистическая регрессия, нейронные сети и другие. Обученную модель можно использовать как удаленно на сервере, так и локально на своей машине.

=== AzureML ===
Облачный сервис компании Microsoft, который предоставляет многочисленные возможности для упрощения разработки и развертывания проектов. В AzureML реализованы пользовательские интерфейсы конструктора машинного обучения и автоматического машинного обучения. В облаке вы можете хранить свои датасеты, модели, конвейеры, базы данных и т.д. Сервис поддерживает следующие среды разработки: VSCode, Pycharm, Visual Studio, Jupyter Notebook, а также два языка программирования: R и Python вместе с основными библиотеками и фреймворками.

== См. также ==
* [[Модель алгоритма и её выбор]]
* [[Мета-обучение]]
* [[Настройка гиперпараметров]]
* [[Оценка качества в задаче кластеризации]]
* [[Оценка качества в задачах классификации]]

== Источники информации ==
* [https://arxiv.org/pdf/1908.00709.pdf AutoML: A Survey of the State-of-the-Art]
* [https://www.ml4aad.org/wp-content/uploads/2018/07/automl_book_draft_auto-weka.pdf Auto-WEKA: Automatic model selection in WEKA]
* [https://towardsdatascience.com/tpot-automated-machine-learning-in-python-4c063b3e5de9 TPOT Automated Machine Learning in Python]
* [https://www.automl.org/wp-content/uploads/2018/12/auto-sklearn-1.pdf Auto-sklearn: Efficient and Robust Automated Machine Learning]
* [https://www.automl.org/auto-sklearn-2-0-the-next-generation/ Auto-sklearn 2.0: The next generation]

== Примечания ==

[[Категория: Машинное обучение]]
[[Категория: Автоматическое машинное обучение]]