Кросс-валидация — различия между версиями

Версия 21:21, 17 января 2019

Кросс-валидация или скользящий контроль это процедура оценивания обобщающей способности алгоритмов. С помощью кросс-валидации эмулируется наличие тестовой выборки, которая не участвует в обучении, но для которой известны правильные ответы.

Разновидности Кросс-валидации

Контроль на отложенных данных (Hold-Out Validation)

Обучающая выборка один раз случайным образом разбивается на две части [math] T^l = T^t \cup T^{l-t} [/math]

После чего решается задача оптимизации:

Метод Hold-out применяется в случаях больших датасетов, т.к. требует меньше вычислительных мощностей по сравнению с другими методами кросс-валидации. Недостатком метода является то, что оценка существенно зависит от разбиения, тогда как желательно, чтобы она характеризовала только алгоритм обучения.

Полная кросс-валидация (CVV)

Выбирается значение [math]t[/math]
Выборка разбивается всеми возможными способами на две части [math] T^l = T^t \cup T^{l-t} [/math]

После чего решается задача оптимизации:

k-fold кросс-валидация

Обучающая выборка разбивается на [math] k [/math] непересекающихся одинаковых по объему частей
Производится [math] k [/math] итераций. На каждой итерации происходит следующее:
1. Модель обучается на [math] k - 1 [/math] части обучающей выборки;
2. Модель тестируется на части обучающей выборки, которая не участвовала в обучении;

Каждая из [math]k[/math] частей единожды используется для тестирования. Как правило [math]k = 10[/math] (5 в случае малого размера выборки)

В результате можно посчитать различные метрики, показывающие, насколько модель удачная, например, среднюю ошибку на частях, которые не участвовали в обучающей выборке.

t×k-fold кросс-валидация

Процедура выполняется [math]t[/math] раз:
1. Обучающая выборка случайным образом разбивается на [math]k[/math] непересекающихся одинаковых по объему частей
2. Производится [math] k [/math] итераций. На каждой итерации происходит следующее:
  1. Модель обучается на [math] k - 1 [/math] части обучающей выборки;
  2. Модель тестируется на части обучающей выборки, которая не участвовала в обучении;

См. также

Общие понятия^{[на 17.01.19 не создан]</sup}
Модель алгоритма и ее выбор
Мета-обучение^{[на 17.01.19 не создан]}

Примечания

Источники информации

@@ Строка 41: / Строка 41: @@
 === t×k-fold кросс-валидация ===
-Процедура выполняется <tex>t</tex> раз:
+# Процедура выполняется <tex>t</tex> раз:
+## Обучающая выборка случайным образом разбивается на <tex>k</tex> непересекающихся одинаковых по объему частей
+## Производится <tex> k </tex> итераций. На каждой итерации происходит следующее:
+### Модель обучается на <tex> k - 1 </tex> части обучающей выборки;
+### Модель тестируется на части обучающей выборки, которая не участвовала в обучении;
 <tex>T^l = F_{(1,1)} \cup \dots \cup F_{(k,1)} = \dots = F_{(1,t)} \cup \dots \cup F_{(k,t)}, |F_{(i,j)}| \approx \frac{l}{k}  </tex>

Кросс-валидация — различия между версиями

Версия 21:21, 17 января 2019

Содержание

Разновидности Кросс-валидации

Контроль на отложенных данных (Hold-Out Validation)

Полная кросс-валидация (CVV)

k-fold кросс-валидация

t×k-fold кросс-валидация

См. также

Примечания

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты