Изменения

Перейти к: навигация, поиск

Виды ансамблей

391 байт добавлено, 11:48, 6 июня 2020
Реализации и применения бустинга: Видимо, перепутали местами описание LightGBM и CatBoost
Алгоритм использует метод бутстрэпа (англ. ''bootstrap''):
Равномерно возьмем из выборки <tex>Из всего множества объектов равновероятно выберем N</tex> объектов с возвращением. Это означаетзначит, что после выбора каждого из объектов мы будем <tex>N</tex> раз равновероятно выбирать произвольный объект выборки, причем каждый раз мы выбираем из всех исходных <tex>N</tex> объектоввозращать его в множество для выбора. Отметим, что из-за возвращения среди них окажутся повторынекоторые объекты могут повторяться в выбранном множестве. <br> Обозначим новую выборку через <tex>X_1</tex>. Повторяя процедуру <tex>M</tex> раз, сгенерируем <tex>M</tex> подвыборок <tex>X_1 ... X_M</tex>. Теперь мы имеем достаточно большое число выборок и можем оценивать различные статистики исходного распределения.
Шаги алгоритма бэггинг:
<li> Взвешивание классификаторов: если классификаторов четное количество, то голосов может получиться поровну, еще возможно, что для экспертов одна из групп параметров важна в большей степени, тогда прибегают к взвешиванию классификаторов. То есть при голосовании голос классификатора умножается на его вес.
</ul>
 
[[Файл:Виды_ансамблей_Бэггинг_рус.png|none|800px]]
Реализации бустинга:
<ul><li> * [[XGBoost|XGBoost ]] изначально исследовательский проект Tianqi Chen, сейчас открытая программная библиотека, поддерживая сообществомодна из самых популярных и эффективных реализаций алгоритма градиентного бустинга на деревьях на 2019-й год. <li> * [[CatBoost |CatBoost]] — открытая программная библиотека , разработанная компанией Яндекс.<li> * LightGBM — открытая программная библиотека разработанная компанией Яндексдля метода машинного обучения, основанная на градиентном бустинге (англ. gradient boosting).</ul>
Применение бустинга:
<ul><li> * поисковые системы<li> * ранжирования ленты рекомендаций<li> * прогноз погоды<li> * оптимизации расхода сырья<li> * предсказания дефектов при производстве.<li> * исследованиях на Большом адронном коллайдере (БАК) для объединения информации с различных частей детектора LHCb в максимально точное, агрегированное знание о частице.</ul>
== Различия между алгоритмами ==
<ul>
<li> Оба алгоритма используют N базовых классификаторов
<ul>
<li> Бустинг использует последовательное обучение </li>
<li> Бэггинг использует параллельное обучение </li>
from pydataset import data
<font color="green">#Считаем данные The Boston Housing Dataset<ref>[http://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html The Boston Housing Dataset]</ref> </font>
df = data('Housing')
Mean: 0.663, std: (+/-) 0.101 [XG Boost]
Mean: 0.667, std: (+/-) 0.105 [Ensemble]
 
== См. также ==
* [[:Бустинг, AdaBoost|Бустинг, AdaBoost]]
* [[:XGBoost|XGBoost]]
* [[:CatBoost|CatBoost]]
 
== Примечания ==
<references/>
== Источники информации ==
* https://quantdare.com/what-is-the-difference-between-bagging-and-boosting/
* https://medium.com/@rrfd/boosting-bagging-and-stacking-ensemble-methods-with-sklearn-and-mlens-a455c0c982de
* https[[Категория://www.cs.toronto.edu/~delve/data/boston/bostonDetail.htmlМашинное обучение]][[Категория: Ансамбли]]
Анонимный участник

Навигация