Изменения

Дерево решений и случайный лес

5525 байт добавлено, 01:57, 29 ноября 2020

Пример на языке R

Дерево решений {{---}} логический алгоритм классификации, решающий задачи классификации и регрессии. Представляет собой объединение логических условий в структуру дерева.

==Дерево решений==

|definition=

'''Дерево решений''' (англ. ''decision tree, DT'') {{---}} алгоритм классификации <tex>a(x) = (V_{внутр}, v_0, V_{лист}, S_v, \beta_v)</tex>, задающийся деревом (связным ациклическим графом), где:

* <tex> V = V_{внутр} \cup V_{лист} </tex> {{---}} множество вершин , <tex>v_0 \in V</tex> {{---}} корень дерева;* <tex> S_v : D_v \rightarrow V_v </tex> {{---}} функция перехода по значению предиката в множество детей вершины <tex>v</tex>;* <tex> \beta_v : X \rightarrow D_v </tex> {{---}} предикат ветвления, <tex>v \in V_{внутр}</tex> и <tex>|D_v| < \infty</tex>;* Для листьев <tex>v \in V_{лист}</tex> определена метка класса <tex>y_v \in Y</tex>.

}}

{{Определение

'''function''' classify(x):

'''if''' <tex>\beta_v(x) = 1 </tex> ~~'''then'''~~

'''else'''

'''return''' <tex>y_v</tex>

~~=== Рекурсивный алгоритм построения бинарного дерева решений ID3 ===~~

Покажем идею построения дерева решения на частном случае бинарного дерева. Алгоритм <tex>ID3</tex> (англ. ''Induction of Decision Tree'') заключается в последовательном дроблении выборки на две части до тех пор, пока в каждой части не окажутся объекты только одного класса. Разделение производится по предикату <tex>\beta</tex>, который выбирается из множества элементарных предикатов. На практике в качестве элементарных предикатов чаще всего берут простые пороговые условия вида <tex>\beta(x) = [f_j(x) >= d_j]</tex>.

Проще всего записать этот алгоритм в виде рекурсивной процедуры <tex>ID3</tex>, которая строит дерево по заданной подвыборке <tex>U</tex> и возвращает его корневую вершину.

~~1:'''function''' ID3(<tex>U</tex>):~~

~~2: '''if''' <tex>for all</tex> <tex>u \in U</tex>: <tex>y_u = y</tex>, <tex>y \in Y</tex>~~

~~// создать листовую вершину <tex>v</tex> c меткой класса <tex>y_v</tex> ~~

~~3: v = createLeafVertex(<tex>y_v</tex>)~~

~~4: '''return''' v~~

~~// найти предикат с максимальной информативностью ~~

~~<tex>\beta= \mathrm{arg}\max_{\beta\in B} </tex> Gain(<tex>\beta</tex>, <tex>U</tex>)~~

~~// разбить выборку на две части <tex>U = U_0 \cup U_1</tex> по предикату <tex>\beta</tex> ~~

~~5: <tex>U_0 := \{x \in U: \beta(x) = 0\}</tex>~~

~~6: <tex>U_1 := \{x \in U: \beta(x) = 1\}</tex>~~

~~7: '''if''' <tex>U_0 = \emptyset</tex> || <tex>U_1 = \emptyset</tex>~~

~~// найти класс, в котором находится большинство объектов из <tex>U</tex> ~~

~~8: <tex>y_v</tex> = majorClass(<tex>U</tex>)~~

~~9: v = createLeafVertex(y_v)~~

~~'''else'''~~

~~10: v = createVertex()~~

~~11: <tex>\beta_v = \beta</tex>~~

~~12: <tex>S_0</tex> = ID3(<tex>U_0</tex>)~~

~~13: <tex>S_1</tex> = ID3(<tex>U_1</tex>)~~

~~14: '''return''' <tex>v</tex>~~

===Информативность ветвления===

Для того, чтобы оценивать качество разбиения объектов по предикату <tex>\beta</tex>, введем понятие ''информационного выигрыша'' разбиения.

Сначала оценим распределение значений классов объектов внутри каждого множества из разбиения, введя понятие ''меры неопределенности распределения''.

{{Определение

|id=def1

|definition=

'''Мера неопределенности (англ. ''impurity'') распределения <tex>p_y</tex>''':

* минимальна, когда <tex>p_y \in \{0,1\}</tex>;* максимальна, когда <tex>p_y = \frac{1}{|Y|}</tex> для всех <tex>y \in Y</tex>;

* не зависит от перенумерации классов

<tex>Ф(U) = \sum\nolimits_{y \in Y} p_y L(p_y) = \frac{1}{|U|} \sum\nolimits_{x_i \in U}L(P(y_i | x_i \in U)) \rightarrow min</tex>, где <tex>L(p)</tex> убывает и <tex>L(1) = 0</tex>, например: <tex>-log_2(p)</tex>, <tex>1 - p</tex>, <tex>1 - p^2</tex>

}}

~~Примеры~~Примерами мер неопределенности распределения являются:* Энтропия: <tex>Ф(U) = -\sum\~~nolimits_~~limits_{i}^N p_i log_2p_i</tex>, определяется для каждого множества из разбиения, <tex>N</tex> {{---}} количество возможных классов, и <tex>p_i</tex> {{---}} вероятность объекта принадлежать <tex> i</tex>-ому классу.* Критерий Джини: <tex>Ф(U) = \sum\nolimits_{i != j}p_i p_j = \sum\nolimits_{i}p_i*(1-p_i)</tex>, максимизацию этого критерия можно интерпретировать как максимизацию числа пар объектов одного класса, оказавшихся после разбиения в одном множестве. Теперь определим суммарную ''неопределенность распределения'' в разбиении.

{{Определение

|id=def1

}}

''Информационный выигрыш'' от разбиения определяется как изменение неопределенности в системе.

{{Определение

|id=def1

|neat =

|definition=

'''Информационный выигрыш от ~~ветвления вершины~~ разбиения по предикату <tex>v\beta</tex>'''

<tex>Gain(\beta, U) = Ф(U) - Ф(U_1, ... ,U_{|D_v|}) = Ф(U) - \sum\nolimits_{k \in D_v} \frac{|U_k|}{|U|}Ф(U_k) \rightarrow max_{\beta \in B} </tex>

}}

=== Рекурсивный алгоритм построения бинарного дерева решений ID3 ===

Покажем идею построения дерева решения на частном случае бинарного дерева. Алгоритм <tex>ID3</tex> (англ. ''Induction of Decision Tree'') заключается в последовательном дроблении выборки на две части до тех пор, пока в каждой части не окажутся объекты только одного класса. Разделение производится по предикату <tex>\beta</tex>, который выбирается из множества элементарных предикатов. На практике в качестве элементарных предикатов чаще всего берут простые пороговые условия вида <tex>\beta(x) = [f_j(x) >= d_j]</tex>.

Проще всего записать этот алгоритм в виде рекурсивной процедуры <tex>ID3</tex>, которая строит дерево по заданной подвыборке <tex>U</tex> и возвращает его корневую вершину.

1:'''function''' ID3(<tex>U</tex>):

2: '''if''' <tex>for all</tex> <tex>u \in U</tex>: <tex>y_u = y</tex>, <tex>y \in Y</tex>

// создать листовую вершину <tex>v</tex> c меткой класса <tex>y_v</tex>

3: v = createLeafVertex(<tex>y_v</tex>)

4: '''return''' v

// найти предикат с максимальным информационным выигрышом

<tex>\beta= \mathrm{arg}\max_{\beta\in B} </tex> Gain(<tex>\beta</tex>, <tex>U</tex>)

// разбить выборку на две части <tex>U = U_0 \cup U_1</tex> по предикату <tex>\beta</tex>

5: <tex>U_0 := \{x \in U: \beta(x) = 0\}</tex>

6: <tex>U_1 := \{x \in U: \beta(x) = 1\}</tex>

7: '''if''' <tex>U_0 = \emptyset</tex> || <tex>U_1 = \emptyset</tex>

// найти класс, в котором находится большинство объектов из <tex>U</tex>

8: <tex>y_v</tex> = majorClass(<tex>U</tex>)

9: v = createLeafVertex(<tex>y_v</tex>)

'''else'''

// создать внутреннюю вершину <tex>v</tex>

10: v = createVertex()

11: <tex>\beta_v = \beta</tex>

12: <tex>S_0</tex> = ID3(<tex>U_0</tex>)

13: <tex>S_1</tex> = ID3(<tex>U_1</tex>)

14: '''return''' <tex>v</tex>

== Редукция решающих деревьев ==

Суть редукции (англ. ''pruning'') состоит в удалении поддеревьев, имеющих недостаточную статистическую надёжность. При этом дерево перестаёт безошибочно классифицировать обучающую выборку, зато качество классификации новых объектов, как правило, улучшается. Рассмотрим наиболее простые варианты редукции.

===Предредукция===

* <tex>r_R(v)</tex> — классификация поддеревом правой дочерней вершины <tex>R_v</tex>;

* <tex>r_c(v)</tex> — отнесение всех объектов выборки <tex>S_v</tex> к классу <tex>y \in Y</tex>.

Эти величины сравниваются, и, в зависимости от того, какая из них оказалась

минимальной, принимается, соответственно, одно из четырёх решений:

* сохранить поддерево вершины <tex>v</tex>;

== Алгоритмы построения деревьев решения ==

*[httpsНедостатки рассмотренного алгоритма ID3:~~//en.wikipedia.org/wiki/ID3_algorithm Алгоритм ID3]~~* ~~[https://en.wikipedia.org/wiki/C4.5_algorithm Алгоритм C4.5]~~Применим только для дискретных значений признаков;* ~~Алгоритм CART~~Переобучение;* ~~Алгоритм LISTBB~~На каждом шаге решение принимается по одному атрибуту.

== ~~Композиции решающих деревьев~~ ==~~Для повышения точности модели применяют объединения моделей (классификаторов) в ансамбль~~Алгоритм [https://en.wikipedia.org/wiki/Predictive_analytics#Classification_and_regression_trees_.28CART. ~~===Виды ансамблей=======Бутстрэп====Метод бутстрэпа~~ 29 CART] (англ. ''~~bootstrap aggregation~~Classification And Regression Trees'') ~~— один из первых~~ ===* В отличие от ID3 работает и самых простых видов ансамблей, который позволяет оценивать многие статистики сложных распределений и заключается в следующем. Пусть имеется выборка <tex>X</tex> размера <tex>N</tex>. Равномерно возьмем из выборки <tex>N</tex> объектов с возвращением. Это означает, что мы будем <tex>N</tex> раз равновероятно выбирать произвольный объект выборки, причем каждый раз мы выбираем из непрерывными значениями признаков: на каждом шаге построения дерева последовательно сравнивает все возможные разбиения для всех ~~исходных <tex>N</tex> объектов~~атрибутов и выбирает наилучший атрибут и наилучшее разбиение для него. Отметим, что из-за возвращения среди них окажутся повторы. Обозначим новую выборку через <tex>X_1</tex>. Повторяя процедуру <tex>M</tex> раз, сгенерируем <tex>M</tex> подвыборок <tex>X_1 ... X_M</tex>. Теперь мы имеем достаточно большое число выборок и можем оценивать различные статистики исходного распределенияРазбивает объекты на две части;* Использует редукцию для избежания переобучения;* Обрабатывает пропущенные или аномальные значения признаков.

===~~=Бэггинг====Рассмотрим, следующий вид ансамбля — бэггинг (англ~~Алгоритм [https://en. ~~''bagging'')~~wikipedia. ~~Пусть имеется обучающая выборка <tex>X<~~org/~~tex>. С помощью бутстрэпа сгенерируем из неё выборки <tex>X_1 ... X_M<~~wiki/~~tex>~~C4. ~~Теперь на каждой выборке обучим свой классификатор <tex>a_i(x)</tex>~~5_algorithm C4. ~~Итоговый классификатор будет усреднять ответы всех этих алгоритмов <tex>a(x)~~ 5] == ~~\frac{1}{M} \sum\limits_{i~~ = ~~1}^{M} a_i(x)</tex>~~* Также работает и с непрерывными значениями признаков: на каждом шаге построения дерева выбирает правило разбиения по одному из признаков. Разбивает объекты на несколько частей по этому правилу, рекурсивно запускается из полученных подмножеств;* Использует редукцию для избежания переобучения;* Обрабатывает пропущенные или аномальные значения признаков.

=== Случайный лес ===Случайный лес {{---}} один из примеров объединения классификаторов в [[Виды_ансамблей|ансамбль]]. Алгоритм построения случайного леса, состоящего из <tex>N</tex> деревьев на основе обучающей выборки <tex>X</tex>такой:

'''for''' (n: 1,...,N):

// сгенерировать выборку <tex>X_n</tex> c помощью [[Виды_ансамблей#Бутстрэп|бутстрэпа]] <tex>X_n</tex> = bootstrap(<tex>X</tex>) // построить решающее дерево <tex>t_n</tex> по выборке <tex>X_n</tex> <tex>t_n</tex> = ID3(<tex>X_n</tex>)

Итоговый классификатор — {{---}} <tex>a(x) = \frac{1}{N} \sum\limits_{i = 1}^{N} t_i(x)</tex>. Для задачи ~~кассификации~~ классификации мы выбираем решение по большинству результатов, выданных классификаторами, а в задаче регрессии — {{---}} по их среднему значению.

Таким образом, случайный лес ~~— это~~ {{---}} бэггинг над решающими деревьями, при обучении которых для каждого разбиения признаки выбираются из некоторого случайного подмножества признаков.

== Примеры ~~использования (в scikit-learn)~~ кода=====Примеры на языке Python===*Для решения задач классификации и регрессии используют [https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html#sklearn.tree.DecisionTreeClassifier DecisionTreeClassifier], [https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html#sklearn.tree.DecisionTreeRegressor DecisionTreeRegressor];

*В '''sklearn.ensemble''' также представлены методы классификации, основанные на ансамблях, в том числе: [https://scikit-learn.org/stable/modules/ensemble.html#bagging бэггинг] и [https://scikit-learn.org/stable/modules/ensemble.html#forest случайный лес], которые были описаны выше.

Так, в этом примере создается бэггинг ансамбль из классификаторов '''KNeighborsClassifier''', каждый из которых обучен на ~~рандомных~~ случайных подмножествах из 50% объектов из обучающей выборки, и 50% ~~рандомно~~ случайно выбранных признаков.

'''from''' sklearn.ensemble '''import''' BaggingClassifier

Пример использования классификатора на случайном лесе:

Полную версию кода можно найти [https://scikit-learn.org/stable/auto_examples/classification/plot_classifier_comparison.html#sphx-glr-download-auto-examples-classification-plot-classifier-comparison-py| здесь]

'''from''' sklearn '''import''' RandomForestClassifier

'''from''' sklearn.datasets '''import''' make_classification

// сгенерируем ~~рандомный обучающий набор~~ случайную обучающую выборку с классификацией по n_classes классам X, y = make_classification(~~n_samples~~n_features=2, n_redundant=0, n_informative=2, random_state=1, n_clusters_per_class=1, n_classes=2) // разбиваем выборку на обучающую и тестовую X = StandardScaler().fit_transform(X) X_train, X_test, y_train, y_test =~~1000~~train_test_split(X, ~~n_features~~y, test_size=.4, ~~n_classes~~ random_state= 542)

// создадим классификатор на случайном лесе, состоящим из n_estimators деревьев

~~clf =~~ RandomForestClassifier(max_depth=5, n_estimators=~~100~~10, ~~max_depth~~max_features=21) ~~// обучим классификатор на сгенерированном обучающем множестве~~ clf.fit(XX_train, yy_train) score = clf.~~predict~~score(X_test, y_test) Результат классификации показан на рисунке. [[0Файл:RFC.png |800px|thumb|center|Классификация RandomForestClassifier. Кружочками изображены объекты обучающей выборки, 0крестиками тестовой выборки. Справа цветом выделены границы принятия решений, ~~0, 0~~в правом нижнем углу {{---}} значение accuracy.]])

=== Пример ~~использования~~ на языке Scala ===

SBT зависимость:

libraryDependencies '''+=''' "com.github.haifengl" '''%%''' "smile-scala" '''%''' "1.5.2"

plot(x, y, dt)

== ~~Ссылки~~ =Пример на языке Java===Пример классификации с применением <code>weka.classifiers.trees.RandomForest</code><ref>[http://weka.sourceforge.net/doc.dev/weka/classifiers/trees/RandomForest.html Weka, Random Forest]</ref> <code>Maven</code> зависимость: <dependency> <groupId>nz.ac.waikato.cms.weka</groupId> <artifactId>weka-stable</artifactId> <version>3.8.0</version> </dependency> '''import''' weka.classifiers.evaluation.Evaluation; '''import''' weka.classifiers.trees.RandomForest; // read dataset '''var''' trainingDataSet = getDataSet(...); '''var''' testingDataSet = getDataSet(...); // create random forest classifier '''var''' forest = new RandomForest(); forest.setMaxDepth(15); forest.setNumFeatures(2); forest.buildClassifier(trainingDataSet); // evaluate the model on test dataset and print summary '''var''' eval = new Evaluation(trainingDataSet); eval.evaluateModel(forest, testingDataSet); System.out.println(eval.toSummaryString()); === Пример на языке R ==={{Main|Примеры кода на R}}==== Деревья решений ====Для создания деревьев решений используется функция <code>ctree()</code> из пакета <code>party</code>. # importing package install.packages("party") # reading data rdata <- read.csv("input.csv", sep = ',', header = FALSE) # evaluating model output.tree <- ctree(target ~ x + y + z, data = rdata) # plotting results plot(output.tree) ==== Случайный лес ====Для создания случайного леса необходимо импортировать пакет <code>randomForest</code> # importing packages install.packages("party") install.packages("randomForest") # reading data rdata <- read.csv("input.csv", sep = ',', header = FALSE) # creating the forest output.forest <- randomForest(target ~ x + y + z, data = rdata) # getting results print(output.forest) == См. также ==*[[Виды ансамблей]] == Источники информации ==# [http://www.machinelearning.ru/wiki/images/3/3e/Voron-ML-Logic.pdf ~~Лекции по логическим алгоритмам~~ Логические алгоритмы классификации] — {{---}} Лекция К. В. ~~Воронцов.~~Воронцова*# [https://medium.com/open-machine-learning-course/open-machine-learning-course-topic-5-ensembles-of-algorithms-and-random-forest-8e05246cbba7 Случайный лес] — {{---}} статья на Medium, Yury Kashnitskiy.*# [https://scikit-learn.org/stable/modules/tree.html Деревья решений] — {{---}} scikit-learn.org.*#[https://scikit-learn.org/stable/modules/ensemble.html Ансамбликлассификаторов] — scikit-learn.org. [[Категория: Машинное обучение]][[Категория: Классификация и регрессия]]

Mervap

286

правок

Изменения

Дерево решений и случайный лес

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты