Изменения

Перейти к: навигация, поиск

Известные наборы данных

1 байт добавлено, 11:40, 9 апреля 2019
Нет описания правки
! Число классов
! Доля ошибок лучшего публикованного алгоритма
|-
| Iris
| Данные измерений четырех параметров цветков ириса
| 150
| 3
| N/A, малый размер датасета
|-
| MNIST
| 10
| 1.23% <ref>https://arxiv.org/pdf/1805.09501.pdf[https://arxiv.org/pdf/1805.09501.pdf]</ref>
|-
| Iris
| Данные измерений четырех параметров цветков ириса
| 150
| 3
| N/A, малый размер датасета
|-
| ImageNet
|-
|}
 
==Iris==
 
===Описание===
 
Iris {{---}} небольшой набор данных для задачи классификации, опубликованный еще в 1936 году Робертом Фишером, используя данные биолога Эдгара Андерсона. В этом наборе данных представлены по 50 описаний цветков одного из трех типов {{---}} Ирис щетинистый (Iris setosa), Ирис виргинский (Iris virginica) и Ирис разноцветный (Iris versicolor).
 
Для каждого цветка измерены четыре величины {{---}} длина чашелистника (англ. sepal length), ширина чашелистника (sepal width), длина лепестка (англ. petal length), ширина лепестка (англ. petal width). Все цветки промаркированы одним из трех типов, что позволяет тестировать на нем алгоритмы классификации. Интересное наблюдение {{---}} один из классов цветков линейно отделим от двух других.
 
===Пример===
 
{| class="wikitable"
|-
! Длина чашелистника
! Ширина чашелистника
! Длина лепестка
! Ширина лепестка
! Класс
|-
| 5.1
| 3.5
| 1.4
| 0.2
| setosa
|-
| 7.0
| 3.2
| 4.7
| 1.4
| versicolor
|-
| 6.3
| 3.3
| 6.0
| 2.5
| virginica
|-
|}
 
===Код===
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
 
iris=load_iris()
X = iris.data
Y = iris.target
X, Y = shuffle(X, Y)
n = len(iris.data)
train = n // 2
clf = RandomForestClassifier(n_estimators=100, max_depth=2, random_state=0)
clf.fit(X[:train], Y[:train])
expected = Y[train:]
predicted = clf.predict(X[train:])
print("Classification report for classifier %s:\n%s\n"
% (clf, metrics.classification_report(expected, predicted)))
 
type precision recall f1-score support
0 1.00 1.00 1.00 28
1 0.95 0.88 0.91 24
2 0.88 0.96 0.92 23
avg / total 0.95 0.95 0.95 75
 
==MNIST==
print("Classification report for classifier %s:\n%s\n"
% (clf, metrics.classification_report(expected, predicted)))
 
==Iris==
 
===Описание===
 
Iris {{---}} небольшой набор данных для задачи классификации, опубликованный еще в 1936 году Робертом Фишером, используя данные биолога Эдгара Андерсона. В этом наборе данных представлены по 50 описаний цветков одного из трех типов {{---}} Ирис щетинистый (Iris setosa), Ирис виргинский (Iris virginica) и Ирис разноцветный (Iris versicolor).
 
Для каждого цветка измерены четыре величины {{---}} длина чашелистника (англ. sepal length), ширина чашелистника (sepal width), длина лепестка (англ. petal length), ширина лепестка (англ. petal width). Все цветки промаркированы одним из трех типов, что позволяет тестировать на нем алгоритмы классификации. Интересное наблюдение {{---}} один из классов цветков линейно отделим от двух других.
 
===Пример===
 
{| class="wikitable"
|-
! Длина чашелистника
! Ширина чашелистника
! Длина лепестка
! Ширина лепестка
! Класс
|-
| 5.1
| 3.5
| 1.4
| 0.2
| setosa
|-
| 7.0
| 3.2
| 4.7
| 1.4
| versicolor
|-
| 6.3
| 3.3
| 6.0
| 2.5
| virginica
|-
|}
 
===Код===
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier
 
iris=load_iris()
X = iris.data
Y = iris.target
X, Y = shuffle(X, Y)
n = len(iris.data)
train = n // 2
clf = RandomForestClassifier(n_estimators=100, max_depth=2, random_state=0)
clf.fit(X[:train], Y[:train])
expected = Y[train:]
predicted = clf.predict(X[train:])
print("Classification report for classifier %s:\n%s\n"
% (clf, metrics.classification_report(expected, predicted)))
 
type precision recall f1-score support
0 1.00 1.00 1.00 28
1 0.95 0.88 0.91 24
2 0.88 0.96 0.92 23
avg / total 0.95 0.95 0.95 75
47
правок

Навигация