Виды ансамблей

Ансамбль

Рассмотрим задачу классификации на K классов: [math]Y = \{1, 2, ..., K\}[/math]
Пусть имеется M классификатор ("экспертов"): [math] f_1, f_2, ..., f_M [/math]

Тогда давайте посмотрим новый классификатор на основе данных:

Простое голосование:
Взвешенное голосование:

Вероятность ошибки

Пусть [math]M[/math] - количество присяжный, [math]p[/math] - вероятность правильного решения одного эксперта, [math]R[/math] - вероятность правильного решения всего жюри, [math]m[/math] - минимальное большинство членов жюри [math] = floor(N / 2) + 1 [/math]

Тогда

https://yadi.sk/i/4GVy9FPDJnL-cQ https://yadi.sk/i/Tjwyk4Bkc2Ck3g

Бутстрэп

Метод бутстрэпа (англ. bootstrap) — один из первых и самых простых видов ансамблей, который позволяет оценивать многие статистики сложных распределений и заключается в следующем. Пусть имеется выборка [math]X[/math] размера [math]N[/math]. Равномерно возьмем из выборки [math]N[/math] объектов с возвращением. Это означает, что мы будем [math]N[/math] раз равновероятно выбирать произвольный объект выборки, причем каждый раз мы выбираем из всех исходных [math]N[/math] объектов. Отметим, что из-за возвращения среди них окажутся повторы.
Обозначим новую выборку через [math]X_1[/math]. Повторяя процедуру [math]M[/math] раз, сгенерируем [math]M[/math] подвыборок [math]X_1 ... X_M[/math]. Теперь мы имеем достаточно большое число выборок и можем оценивать различные статистики исходного распределения.

Бэггинг

Рассмотрим, следующий вид ансамбля — бэггинг (англ. bootstrap aggregation). Пусть имеется обучающая выборка [math]X[/math]. С помощью бутстрэпа сгенерируем из неё выборки [math]X_1 ... X_M[/math]. Теперь на каждой выборке обучим свой классификатор [math]a_i(x)[/math]. Итоговый классификатор будет усреднять ответы всех этих алгоритмов .

Пусть имеется выборка [math]X[/math] размера [math]N[/math]. Количество классификаторов [math]M[/math]

Алгоритм классификации в технологии бэггинг на подпространствах:

Равномерно берется из выборки [math]N[/math] объектов с возвращением. Это означает, что [math]N[/math] раз выбирается произвольный объект выборки (считается, что каждый объект «достается» с одинаковой вероятностью), причем каждый раз из всех исходных объектов. Повторяется данная процедура [math]M[/math] раз, получая для каждого классификатора свою выборку.
Производится независимое обучения каждого элементарного классификатора (каждого алгоритма, определенного на своем подпространстве).
Производится классификация основной выборки на каждом из подпространств (также независимо).
Принимается окончательное решение о принадлежности объекта одному из классов. Это можно сделать несколькими разными способами, подробнее описано ниже.

Окончательное решение о принадлежности объекта классу может приниматься, например, одним из следующих методов:

Консенсус: если все элементарные классификаторы присвоили объекту одну и ту же метку, то относим объект к выбранному классу.
Простое большинство: консенсус достижим очень редко, поэтому чаще всего используют метод простого большинства. Здесь объекту присваивается метка того класса, который определило для него большинство элементарных классификаторов.
Взвешивание классификаторов: если классификаторов четное количество, то голосов может получиться поровну, еще возможно, что для эксперты одна из групп параметров важна в большей степени, тогда прибегают к взвешиванию классификаторов. То есть при голосовании голос классификатора умножается на его вес.

Виды ансамблей

Ансамбль

Вероятность ошибки

Бутстрэп

Бэггинг

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты