Изменения

Бустинг, AdaBoost

Нет изменений в размере, 19:22, 22 января 2019

→‎AdaBoost

Таким образом, после выбора оптимального классификатора <tex>h_t</tex> для распределения <tex>D_t</tex>, объекты <tex>x_i</tex>, которые классификатор <tex>h_t</tex> идентифицирует корректно, имеют веса меньшие, чем те, которые идентифицируются некорректно. Следовательно, когда алгоритм тестирует классификаторы на распределении <tex>D_{t+1}</tex>, он будет выбирать классификатор, который лучше идентифицирует объекты неверно распознаваемые предыдущим классификатором.

===Пример работы===

Рассмотрим набор данных, которые пометим как $-$ и $+$.

[[Файл:Adaboost1.jpg|600px|thumb|center|Результат после первой итерации]]

Для всех ошибочно классифицированных объектов увеличим веса, а для верно классифицированных уменьшим

[[Файл:Adaboost2.jpg|1000px|thumb|center|Результат после пересчета весов и второй итерации]]

Рассмотрим результат после $2$-х итераций:

[[Файл:Adaboost_result12.jpg|1000px|thumb|center|Итоговый результат после $2$-х итераций]]

Как видно из последнего изображения, все, что находиться в "цветной" зоне, мы можем однозначно классифицировать, но тогда у нас появляются ошибки и "белые" зоны, которые мы не можем однозначно классифицировать. Рассмотрим алгоритм после $30$-ти итераций:

[[Файл:Adaboost_resultfinal.jpg|300px|thumb|center|Результат работы алгоритма после $30$-ти итераций]]

Теперь у нас все объекты классифицируются верно и число ошибок на выборке равно нулю.

===Достоинства и недостатки===

'''Достоинства:'''

# Простота реализации

# Хорошая обобщающая способность. В реальных задачах удаётся строить композиции, превосходящие по качеству базовые алгоритмы. Обобщающая способность может улучшаться по мере увеличения числа базовых алгоритмов.

# Время построения композиции практически полностью определяется временем обучения базовых алгоритмов.

# Возможность идентифицировать выбросы. Это наиболее «трудные» объекты $x_i$, для которых в процессе наращивания композиции веса $w_i$ принимают наибольшие значения.

'''Недостатки:'''

# Склонен к переобучению при наличии значительного уровня шума в данных.

# Требует достаточно длинных обучающих выборок. Другие методы линейной коррекции, в частности, бэггинг, способны строить алгоритмы сопоставимого качества по меньшим выборкам данных.

===Пример кода на python для scikit-learn===

'''val '''f1Score = '''new '''FMeasure().measure(predictions, y)

plot(x, y, ada)

~~===Пример работы===~~

~~Рассмотрим набор данных, которые пометим как $-$ и $+$.~~

~~[[Файл:Adaboost1.jpg|600px|thumb|center|Результат после первой итерации]]~~

~~Для всех ошибочно классифицированных объектов увеличим веса, а для верно классифицированных уменьшим~~

~~[[Файл:Adaboost2.jpg|1000px|thumb|center|Результат после пересчета весов и второй итерации]]~~

~~Рассмотрим результат после $2$-х итераций:~~

~~[[Файл:Adaboost_result12.jpg|1000px|thumb|center|Итоговый результат после $2$-х итераций]]~~

Как видно из последнего изображения, все, что находиться в "цветной" зоне, мы можем однозначно классифицировать, но тогда у нас появляются ошибки и "белые" зоны, которые мы не можем однозначно классифицировать. Рассмотрим алгоритм после $30$-ти итераций:

~~[[Файл:Adaboost_resultfinal.jpg|300px|thumb|center|Результат работы алгоритма после $30$-ти итераций]]~~

~~Теперь у нас все объекты классифицируются верно и число ошибок на выборке равно нулю.~~

~~===Достоинства и недостатки===~~

~~'''Достоинства:'''~~

~~# Простота реализации~~

# Хорошая обобщающая способность. В реальных задачах удаётся строить композиции, превосходящие по качеству базовые алгоритмы. Обобщающая способность может улучшаться по мере увеличения числа базовых алгоритмов.

~~# Время построения композиции практически полностью определяется временем обучения базовых алгоритмов.~~

# Возможность идентифицировать выбросы. Это наиболее «трудные» объекты $x_i$, для которых в процессе наращивания композиции веса $w_i$ принимают наибольшие значения.

~~'''Недостатки:'''~~

~~# Склонен к переобучению при наличии значительного уровня шума в данных.~~

# Требует достаточно длинных обучающих выборок. Другие методы линейной коррекции, в частности, бэггинг, способны строить алгоритмы сопоставимого качества по меньшим выборкам данных.

== См. также ==

Glotovmikhail

64

правки

Изменения

Бустинг, AdaBoost

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты