Изменения

Виды ансамблей

391 байт добавлено, 11:48, 6 июня 2020

→‎Реализации и применения бустинга: Видимо, перепутали местами описание LightGBM и CatBoost

Алгоритм использует метод бутстрэпа (англ. ''bootstrap''):

~~Равномерно возьмем из выборки <tex>~~Из всего множества объектов равновероятно выберем N~~</tex>~~ объектов с возвращением. Это ~~означает~~значит, что после выбора каждого из объектов мы будем <tex>N</tex> раз равновероятно выбирать произвольный объект выборки, причем каждый раз мы выбираем из всех исходных <tex>N</tex> объектоввозращать его в множество для выбора. Отметим, что из-за возвращения ~~среди них окажутся повторы~~некоторые объекты могут повторяться в выбранном множестве. <br> Обозначим новую выборку через <tex>X_1</tex>. Повторяя процедуру <tex>M</tex> раз, сгенерируем <tex>M</tex> подвыборок <tex>X_1 ... X_M</tex>. Теперь мы имеем достаточно большое число выборок и можем оценивать различные статистики исходного распределения.

Шаги алгоритма бэггинг:

<li> Взвешивание классификаторов: если классификаторов четное количество, то голосов может получиться поровну, еще возможно, что для экспертов одна из групп параметров важна в большей степени, тогда прибегают к взвешиванию классификаторов. То есть при голосовании голос классификатора умножается на его вес.

</ul>

[[Файл:Виды_ансамблей_Бэггинг_рус.png|none|800px]]

Реализации бустинга:

~~<ul><li>~~ * [[XGBoost|XGBoost ]] — изначально исследовательский проект Tianqi Chen, сейчас открытая программная библиотека, поддерживая сообществомодна из самых популярных и эффективных реализаций алгоритма градиентного бустинга на деревьях на 2019-й год. ~~<li>~~ * [[CatBoost |CatBoost]] — открытая программная библиотека , разработанная компанией Яндекс.~~<li>~~ * LightGBM — ~~открытая программная~~ библиотека ~~разработанная компанией Яндекс~~для метода машинного обучения, основанная на градиентном бустинге (англ. gradient boosting).~~</ul>~~

Применение бустинга:

~~<ul><li>~~ * поисковые системы~~<li>~~ * ранжирования ленты рекомендаций~~<li>~~ * прогноз погоды~~<li>~~ * оптимизации расхода сырья~~<li>~~ * предсказания дефектов при производстве.~~<li>~~ * исследованиях на Большом адронном коллайдере (БАК) для объединения информации с различных частей детектора LHCb в максимально точное, агрегированное знание о частице.~~</ul>~~

== Различия между алгоритмами ==

<ul>

<li> Оба алгоритма используют N базовых классификаторов

<ul>

<li> Бустинг использует последовательное обучение </li>

<li> Бэггинг использует параллельное обучение </li>

from pydataset import data

<font color="green">#Считаем данные The Boston Housing Dataset<ref>[http://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html The Boston Housing Dataset]</ref> </font>

df = data('Housing')

Mean: 0.663, std: (+/-) 0.101 [XG Boost]

Mean: 0.667, std: (+/-) 0.105 [Ensemble]

== См. также ==

* [[:Бустинг, AdaBoost|Бустинг, AdaBoost]]

* [[:XGBoost|XGBoost]]

* [[:CatBoost|CatBoost]]

== Примечания ==

== Источники информации ==

* https://quantdare.com/what-is-the-difference-between-bagging-and-boosting/

* https://medium.com/@rrfd/boosting-bagging-and-stacking-ensemble-methods-with-sklearn-and-mlens-a455c0c982de

* https[[Категория:~~//www.cs.toronto.edu/~delve/data/boston/bostonDetail.html~~Машинное обучение]][[Категория: Ансамбли]]

Анонимный участник

46.166.104.71

Изменения

Виды ансамблей

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты