Изменения

Виды ансамблей

4615 байт добавлено, 15:26, 19 февраля 2019

Раздел Бустинг

== Ансамбль ==

Ансамбль алгоритмов (методов) - метод, который использует несколько обучающих алгоритмов с целью получения лучшей эффективности прогнозирования, чем можно было бы получить от каждого обучающего алгоритма по отдельности.

Рассмотрим задачу классификации на K классов: <tex>Y = \{1, 2, ..., K\}</tex> <br>

Взвешенное голосование: <tex> f(x) = \max \limits_{k = 1 .. K} \sum \limits_{i = 1}^M \alpha_i I(f_i(x) = k), \sum \limits_i \alpha_i = 1, \alpha_i > 0</tex>

== ~~Вероятность ошибки~~ Теорема Кондорсе о присяжных == {{Теорема|statement=Если каждый член жюри присяжных имеет независимое мнение, и если вероятность правильного решения члена жюри больше 0.5, то тогда вероятность правильного решения присяжных в целом возрастает с увеличением количества членов жюри, и стремиться к единице. <br>Если же вероятность быть правым у каждого из членов жюри меньше 0.5, то вероятность принятия правильного решения присяжными в целом монотонно уменьшается и стремится к нулю с увеличением количества присяжных.}}

Пусть <tex>M</tex> - количество присяжный, <tex>p</tex> - вероятность правильного решения одного эксперта, <tex>R</tex> - вероятность правильного решения всего жюри,

<tex>m</tex> - минимальное большинство членов жюри <tex> = ~~floor(~~\lfloor \frac N / 2) \rfloor + 1 </tex>

Тогда <tex> R = \sum \limits_{i = m}^M C_M^i p ^ i (1 - p) ^ {M - i} </tex>

~~https~~[[Файл:~~//yadi~~Виды_Ансамблей_1.~~sk/i/4GVy9FPDJnL-cQhttps~~png]][[Файл:~~//yadi~~Виды_Ансамблей_2.~~sk/i/Tjwyk4Bkc2Ck3g~~png]]

== ~~Бутстрэп~~ Бэггинг ==Метод бутстрэпа (англ. ''bootstrap'') — один из первых и самых простых видов ансамблей, который позволяет оценивать многие статистики сложных распределений и заключается в следующем. Пусть имеется выборка <tex>X</tex> размера <tex>N</tex>. Равномерно возьмем из выборки <tex>N</tex> объектов с возвращением. Это означает, что мы будем <tex>N</tex> раз равновероятно выбирать произвольный объект выборки, причем каждый раз мы выбираем из всех исходных <tex>N</tex> объектов. Отметим, что из-за возвращения среди них окажутся повторы. <br>Обозначим новую выборку через <tex>X_1</tex>. Повторяя процедуру <tex>M</tex> раз, сгенерируем <tex>M</tex> подвыборок <tex>X_1 ... X_M</tex>. Теперь мы имеем достаточно большое число выборок и можем оценивать различные статистики исходного распределения.

~~Бутсреп используется в статистике, в том числе для:~~Пусть имеется выборка <ultex>X<li/tex> ~~Аппроксимация стандартной ошибки выборочной оценки~~размера <litex> ~~Байесовская коррекция с помощью бутстреп метода~~N<li/tex> ~~Доверительные интервалы~~. Количество классификаторов <litex> ~~Метод процентилей~~M</ultex>

~~== Бэггинг ==~~Для алгоритма нам понадобится метод бутстрэпа (англ. ''bootstrap''):

~~Пусть имеется выборка~~ Равномерно возьмем из выборки <tex>XN</tex> ~~размера~~ объектов с возвращением. Это означает, что мы будем <tex>N</tex>раз равновероятно выбирать произвольный объект выборки, причем каждый раз мы выбираем из всех исходных <tex>N</tex> объектов. Отметим, что из-за возвращения среди них окажутся повторы. ~~Количество классификаторов~~ <br>Обозначим новую выборку через <tex>X_1</tex>. Повторяя процедуру <tex>M</tex>раз, сгенерируем <tex>M</tex> подвыборок <tex>X_1 ... X_M</tex>. Теперь мы имеем достаточно большое число выборок и можем оценивать различные статистики исходного распределения.

Алгоритм классификации в технологии бэггинг на подпространствах:

<ul>

<li> Генерируется с помощью бутстрэпа M выборок размера N для каждого классификатора.

<li> Производится независимое обучения каждого элементарного классификатора (каждого алгоритма, определенного на своем подпространстве).

<li> Производится классификация основной выборки на каждом из подпространств (также независимо).

</ul>

[[Файл:Виды_ансамблей_Бэггинг.png]]

~~== Эффективность ==~~

Рассмотрим задачу регрессии с базовыми алгоритмами <tex>b_1, b_2, ..., b_m</tex>. Предположим, что существует истинная функция ответа для всех объектов y(x), а также задано распределение p(x) на объектах. В этом случае мы можем записать ошибку каждой функции регрессии:

Таким образом, усреднение ответов позволило уменьшить средний квадрат ошибки в <tex>n</tex> раз

== Бустинг ==

== Примеры кода ==

'''Инициализация'''

from pydataset import data

#Считаем данные The Boston Housing Dataset

df = data('Housing')

#Проверим данные

df.head().values

array([[42000.0, 5850, 3, 1, 2, 'yes', 'no', 'yes', 'no', 'no', 1, 'no'],

[38500.0, 4000, 2, 1, 1, 'yes', 'no', 'no', 'no', 'no', 0, 'no'],

[49500.0, 3060, 3, 1, 1, 'yes', 'no', 'no', 'no', 'no', 0, 'no'], ...

# Создадим словарь для слов 'no', 'yes'

d = dict(zip(['no', 'yes'], range(0,2)))

for i in zip(df.dtypes.index, df.dtypes):

if str(i[1]) == 'object':

df[i[0]] = df[i[0]].map(d)

df[‘price’] = pd.qcut(df[‘price’], 3, labels=[‘0’, ‘1’, ‘2’]).cat.codes

# Разделим множество на два

y = df['price']

X = df.drop('price', 1)

'''Бэггинг'''

# Импорты классификаторов

from sklearn.model_selection import cross_val_score

from sklearn.ensemble import BaggingClassifier, ExtraTreesClassifier, RandomForestClassifier

from sklearn.neighbors import KNeighborsClassifier

from sklearn.linear_model import RidgeClassifier

from sklearn.svm import SVC

seed = 1075

np.random.seed(seed)

# Инициализуруем классификаторы

rf = RandomForestClassifier()

et = ExtraTreesClassifier()

knn = KNeighborsClassifier()

svc = SVC()

rg = RidgeClassifier()

clf_array = [rf, et, knn, svc, rg]

for clf in clf_array:

vanilla_scores = cross_val_score(clf, X, y, cv=10, n_jobs=-1)

bagging_clf = BaggingClassifier(clf, max_samples=0.4, max_features=10, random_state=seed)

bagging_scores = cross_val_score(bagging_clf, X, y, cv=10, n_jobs=-1)

print "Mean of: {1:.3f}, std: (+/-) {2:.3f [{0}]"

.format(clf.__class__.__name__,

vanilla_scores.mean(), vanilla_scores.std())

print "Mean of: {1:.3f}, std: (+/-) {2:.3f} [Bagging {0}]\n"

.format(clf.__class__.__name__,

bagging_scores.mean(), bagging_scores.std())

#Результат

Mean of: 0.632, std: (+/-) 0.081 [RandomForestClassifier]

Mean of: 0.639, std: (+/-) 0.069 [Bagging RandomForestClassifier]

Mean of: 0.636, std: (+/-) 0.080 [ExtraTreesClassifier]

Mean of: 0.654, std: (+/-) 0.073 [Bagging ExtraTreesClassifier]

Mean of: 0.500, std: (+/-) 0.086 [KNeighborsClassifier]

Mean of: 0.535, std: (+/-) 0.111 [Bagging KNeighborsClassifier]

Mean of: 0.465, std: (+/-) 0.085 [SVC]

Mean of: 0.535, std: (+/-) 0.083 [Bagging SVC]

Mean of: 0.639, std: (+/-) 0.050 [RidgeClassifier]

Mean of: 0.597, std: (+/-) 0.045 [Bagging RidgeClassifier]

'''Бустинг'''

ada_boost = AdaBoostClassifier()

grad_boost = GradientBoostingClassifier()

xgb_boost = XGBClassifier()

boost_array = [ada_boost, grad_boost, xgb_boost]

eclf = EnsembleVoteClassifier(clfs=[ada_boost, grad_boost, xgb_boost], voting='hard')

labels = ['Ada Boost', 'Grad Boost', 'XG Boost', 'Ensemble']

for clf, label in zip([ada_boost, grad_boost, xgb_boost, eclf], labels):

scores = cross_val_score(clf, X, y, cv=10, scoring='accuracy')

print("Mean: {0:.3f}, std: (+/-) {1:.3f} [{2}]".format(scores.mean(), scores.std(), label))

# Результат

Mean: 0.641, std: (+/-) 0.082 [Ada Boost]

Mean: 0.654, std: (+/-) 0.113 [Grad Boost]

Mean: 0.663, std: (+/-) 0.101 [XG Boost]

Mean: 0.667, std: (+/-) 0.105 [Ensemble]

== Источники информации ==

* https://medium.com/@rrfd/boosting-bagging-and-stacking-ensemble-methods-with-sklearn-and-mlens-a455c0c982de

* https://www.cs.toronto.edu/~delve/data/boston/bostonDetail.html

GarikCarrot

68

правок

Изменения

Виды ансамблей

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты