Виды ансамблей
Содержание
Ансамбль
Рассмотрим задачу классификации на K классов:
Пусть имеется M классификатор ("экспертов"):
Тогда давайте посмотрим новый классификатор на основе данных:
Простое голосование:
Взвешенное голосование:
Вероятность ошибки
Пусть
- количество присяжный, - вероятность правильного решения одного эксперта, - вероятность правильного решения всего жюри, - минимальное большинство членов жюриТогда
https://yadi.sk/i/4GVy9FPDJnL-cQ https://yadi.sk/i/Tjwyk4Bkc2Ck3g
Бутстрэп
Метод бутстрэпа (англ. bootstrap) — один из первых и самых простых видов ансамблей, который позволяет оценивать многие статистики сложных распределений и заключается в следующем. Пусть имеется выборка
Обозначим новую выборку через . Повторяя процедуру раз, сгенерируем подвыборок . Теперь мы имеем достаточно большое число выборок и можем оценивать различные статистики исходного распределения.
Бэггинг
Рассмотрим, следующий вид ансамбля — бэггинг (англ. bootstrap aggregation). Пусть имеется обучающая выборка
. С помощью бутстрэпа сгенерируем из неё выборки . Теперь на каждой выборке обучим свой классификатор . Итоговый классификатор будет усреднять ответы всех этих алгоритмов .Пусть имеется выборка
размера . Количество классификаторовАлгоритм классификации в технологии бэггинг на подпространствах:
- Равномерно берется из выборки объектов с возвращением. Это означает, что раз выбирается произвольный объект выборки (считается, что каждый объект «достается» с одинаковой вероятностью), причем каждый раз из всех исходных объектов. Повторяется данная процедура раз, получая для каждого классификатора свою выборку.
- Производится независимое обучения каждого элементарного классификатора (каждого алгоритма, определенного на своем подпространстве).
- Производится классификация основной выборки на каждом из подпространств (также независимо).
- Принимается окончательное решение о принадлежности объекта одному из классов. Это можно сделать несколькими разными способами, подробнее описано ниже.
Окончательное решение о принадлежности объекта классу может приниматься, например, одним из следующих методов:
- Консенсус: если все элементарные классификаторы присвоили объекту одну и ту же метку, то относим объект к выбранному классу.
- Простое большинство: консенсус достижим очень редко, поэтому чаще всего используют метод простого большинства. Здесь объекту присваивается метка того класса, который определило для него большинство элементарных классификаторов.
- Взвешивание классификаторов: если классификаторов четное количество, то голосов может получиться поровну, еще возможно, что для эксперты одна из групп параметров важна в большей степени, тогда прибегают к взвешиванию классификаторов. То есть при голосовании голос классификатора умножается на его вес.