Кросс-валидация

Кросс-валидация или скользящий контроль — процедура эмпирического оценивания обобщающей способности алгоритмов. С помощью кросс-валидации эмулируется наличие тестовой выборки, которая не участвует в обучении, но для которой известны правильные ответы.

Определения и обозначения

Пусть [math] X [/math] — множество признаков, описывающих объекты, а [math] Y [/math] — конечное множество меток.

— обучающая выборка,

[math]Q[/math] — мера качества,

[math]A[/math] — модель,

— алгоритм обучения.

Разновидности кросс-валидации

Валидация на отложенных данных (Hold-Out Validation)

Обучающая выборка один раз случайным образом разбивается на две части [math] T^l = T^t \cup T^{l-t} [/math]

После чего решается задача оптимизации:

,

Метод Hold-out применяется в случаях больших датасетов, т.к. требует меньше вычислительных мощностей по сравнению с другими методами кросс-валидации. Недостатком метода является то, что оценка существенно зависит от разбиения, тогда как желательно, чтобы она характеризовала только алгоритм обучения.

Полная кросс-валидация (Complete cross-validation)

Выбирается значение [math]t[/math];
Выборка разбивается всеми возможными способами на две части [math] T^l = T^t \cup T^{l-t} [/math].

,

Здесь число разбиений [math]C_l^{l-t}[/math] становится слишком большим даже при сравнительно малых значениях t, что затрудняет практическое применение данного метода.

k-fold кросс-валидация

Обучающая выборка разбивается на [math] k [/math] непересекающихся одинаковых по объему частей;
Производится [math] k [/math] итераций. На каждой итерации происходит следующее:
1. Модель обучается на [math] k - 1 [/math] части обучающей выборки;
2. Модель тестируется на части обучающей выборки, которая не участвовала в обучении.

Каждая из [math]k[/math] частей единожды используется для тестирования. Как правило, [math]k = 10[/math] (5 в случае малого размера выборки).

.

 # Пример кода для k-fold кросс-валидации:
 # Пример классификатора, cпособного проводить различие между всего лишь двумя
 # классами, "пятерка" и "не пятерка" из набор данных MNIST
 import numpy as np
 from sklearn.model_selection import StratifiedKFold
 from sklearn.datasets import fetch_openml
 from sklearn.base import clone
 from sklearn.linear_model import SGDClassifier
 
 mnist = fetch_openml('mnist_784', version=1)
 X, y = mnist["data"], mnist["target"]
 y = y.astype(np.uint8)
 X_train, X_test, y_train, y_test = X[:60000], X[60000:], y[:60000], y[60000:]
 y_train_5 = (y_train == 5)  # True для всех пятерок, False для всех остальных цифр. Задача опознать пятерки
 y_test_5 = (y_test == 5)
 sgd_clf = SGDClassifier(random_state=42) # классификатор на основе метода стохастического градиентного спуска (Stochastic Gradient Descent SGD)
 # Разбиваем обучающий набора на 3 блока
 # выработку прогнозов и их оценку осуществляем на каждом блоке с использованием модели, обученной на остальных блоках</font>
 skfolds = StratifiedKFold(n_splits=3, random_state=42)
 for train_index, test_index in skfolds.split(X_train, y_train_5):
     clone_clf = clone(sgd_clf)
     X_train_folds = X_train[train_index]
     y_train_folds = y_train_5[train_index]
     X_test_fold = X_train[test_index]
     y_test_fold = y_train_5[test_index]
     clone_clf.fit(X_train_folds, y_train_folds)
     y_pred = clone_clf.predict(X_test_fold)
     n_correct = sum(y_pred == y_test_fold)
     print(n_correct / len(y_pred))
 # print 0.95035 
 #       0.96035 
 #       0.9604

t×k-fold кросс-валидация

Процедура выполняется [math]t[/math] раз:
1. Обучающая выборка случайным образом разбивается на [math]k[/math] непересекающихся одинаковых по объему частей;
2. Производится [math] k [/math] итераций. На каждой итерации происходит следующее:
  1. Модель обучается на [math] k - 1 [/math] части обучающей выборки;
  2. Модель тестируется на части обучающей выборки, которая не участвовала в обучении.

,

.

Кросс-валидация по отдельным объектам (Leave-One-Out)

Выборка разбивается на [math]l-1[/math] и 1 объект [math]l[/math] раз.

, где [math]p_i = (x_i, y_i)[/math].

Преимущества LOO в том, что каждый объект ровно один раз участвует в контроле, а длина обучающих подвыборок лишь на единицу меньше длины полной выборки.

Недостатком LOO является большая ресурсоёмкость, так как обучаться приходится [math]L[/math] раз. Некоторые методы обучения позволяют достаточно быстро перенастраивать внутренние параметры алгоритма при замене одного обучающего объекта другим. В этих случаях вычисление LOO удаётся заметно ускорить.

Случайные разбиения (Random subsampling)

Выборка разбивается в случайной пропорции. Процедура повторяется несколько раз.

Критерий целостности модели (Model consistency criterion)

Не переобученый алгоритм должен показывать одинаковую эффективность на каждой части.

,

Метод может быть обобщен как аналог [math] CV_{t \times 2} [/math].

См. также

Примечания

Кросс-валидация

Источники информации

Скользящий контроль - статья на MachineLearning.ru
Model assessment and selection

Кросс-валидация

Определения и обозначения

Разновидности кросс-валидации

Валидация на отложенных данных (Hold-Out Validation)

Полная кросс-валидация (Complete cross-validation)

k-fold кросс-валидация

t×k-fold кросс-валидация

Кросс-валидация по отдельным объектам (Leave-One-Out)

Случайные разбиения (Random subsampling)

Критерий целостности модели (Model consistency criterion)

См. также

Примечания

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты