Кросс-валидация — различия между версиями
(→См. также) |
(→Источники информации) |
||
Строка 78: | Строка 78: | ||
== Источники информации == | == Источники информации == | ||
# [http://www.machinelearning.ru/wiki/index.php?title=%D0%A1%D0%BA%D0%BE%D0%BB%D1%8C%D0%B7%D1%8F%D1%89%D0%B8%D0%B9_%D0%BA%D0%BE%D0%BD%D1%82%D1%80%D0%BE%D0%BB%D1%8C Скользящий контроль] - статья на MachineLearning.ru | # [http://www.machinelearning.ru/wiki/index.php?title=%D0%A1%D0%BA%D0%BE%D0%BB%D1%8C%D0%B7%D1%8F%D1%89%D0%B8%D0%B9_%D0%BA%D0%BE%D0%BD%D1%82%D1%80%D0%BE%D0%BB%D1%8C Скользящий контроль] - статья на MachineLearning.ru | ||
− | # [ | + | # [https://drive.google.com/open?id=1p9CTAa1_gJpj94RXBEcQ09aVOa-KTlrd Model assessment and selection] |
[[Категория: Машинное обучение]] | [[Категория: Машинное обучение]] | ||
[[Категория: Автоматическое машинное обучение]] | [[Категория: Автоматическое машинное обучение]] |
Версия 13:44, 22 января 2019
Кросс-валидация или скользящий контроль это процедура оценивания обобщающей способности алгоритмов. С помощью кросс-валидации эмулируется наличие тестовой выборки, которая не участвует в обучении, но для которой известны правильные ответы.
Содержание
- 1 Разновидности Кросс-валидации
- 1.1 Валидация на отложенных данных (Hold-Out Validation)
- 1.2 Полная кросс-валидация (Complete cross-validation)
- 1.3 k-fold кросс-валидация
- 1.4 t×k-fold кросс-валидация
- 1.5 Кросс-валидация по отдельным объектам (leave-one-out)
- 1.6 Случайные разбиения (Random subsampling)
- 1.7 Критерий целостности модели (Model consistency criterion)
- 2 См. также
- 3 Примечания
- 4 Источники информации
Разновидности Кросс-валидации
Валидация на отложенных данных (Hold-Out Validation)
Обучающая выборка один раз случайным образом разбивается на две части
После чего решается задача оптимизации:
Метод Hold-out применяется в случаях больших датасетов, т.к. требует меньше вычислительных мощностей по сравнению с другими методами кросс-валидации. Недостатком метода является то, что оценка существенно зависит от разбиения, тогда как желательно, чтобы она характеризовала только алгоритм обучения.
Полная кросс-валидация (Complete cross-validation)
- Выбирается значение
- Выборка разбивается всеми возможными способами на две части
После чего решается задача оптимизации:
k-fold кросс-валидация
- Обучающая выборка разбивается на непересекающихся одинаковых по объему частей
- Производится
- Модель обучается на части обучающей выборки;
- Модель тестируется на части обучающей выборки, которая не участвовала в обучении;
итераций. На каждой итерации происходит следующее:
Каждая из
частей единожды используется для тестирования. Как правило (5 в случае малого размера выборки)В результате можно посчитать различные метрики, показывающие, насколько модель удачная, например, среднюю ошибку на частях, которые не участвовали в обучающей выборке.
t×k-fold кросс-валидация
- Процедура выполняется
- Обучающая выборка случайным образом разбивается на непересекающихся одинаковых по объему частей
- Производится
- Модель обучается на части обучающей выборки;
- Модель тестируется на части обучающей выборки, которая не участвовала в обучении;
итераций. На каждой итерации происходит следующее:
раз:
Кросс-валидация по отдельным объектам (leave-one-out)
Выборка разбивается на
и 1 объект раз., где
Случайные разбиения (Random subsampling)
Выборка разбивается в случайной пропорции. Процедура повторяется несколько раз.
Критерий целостности модели (Model consistency criterion)
Не переобученый алгоритм должен показывать одинаковую эффективность на каждой части
Метод может быть обобщен как аналог .
См. также
- Общие понятия[на 17.01.19 не создан]
- Модель алгоритма и ее выбор
- Мета-обучение[на 17.01.19 не создан]
Примечания
- Кросс-валидация
- Автоматизированный выбор модели в библиотеке WEKA для Java
- Автоматизированный выбор модели в библиотеке TPOT для Python
- Автоматизированный выбор модели в библиотеке sklearn для Python
Источники информации
- Скользящий контроль - статья на MachineLearning.ru
- Model assessment and selection