Дерево решений и случайный лес — различия между версиями

Версия 20:02, 20 января 2019

Содержание

1 Дерево решений
2 Рекурсивный алгоритм построения бинарного дерева решений ID3
- 2.1 Информативность
- 2.2 Критерий ветвления
  - 2.2.1 Критейрий Джини
  - 2.2.2 Энтропийный критерий
3 Рецукция решающих деревьев
- 3.1 Предредукция
- 3.2 Постредукция (post-pruning)
4 Деревья регрессии
5 Алгоритмы построения решающих деревьев
6 Обобщающая способность решающих деревьев
7 Композиции решающих деревьев
8 История
9 Ссылки
10 Литература

Дерево решений

Определение:

Дерево решений (англ. decision tree, DT) — алгоритм классификации , задающийся деревом (связным ациклическим графом):

Множество вершин , [math]v_0 \in V[/math] — корень дерева
Для [math]v \in V_{внутр}[/math] определены предикат ветвления: , [math]|D_v| \lt \infty[/math] и функция перехода в следующую вершину по значению предиката [math] S_v : D_v \rightarrow V [/math],
Для [math]v \in V_{лист}[/math] определена метка класса [math]y_v \in Y[/math]

Определение:

Бинарное дерево решений — частный случай дерева решений, для которого .

Пример , где [math]f_j(x)[/math] - значение [math]j[/math]-ого признака объекта [math]x \in X[/math]

Классификация объекта бинарным решающим деревом

Y classify(x):
  [math]v = v_0[/math]
  while [math]v \in V_{внутр}[/math]:
    [math]v := S_v[/math]([math]f_v[/math](x)) ;
  return [math]y_v[/math]

Рекурсивный алгоритм построения бинарного дерева решений ID3

Идея алгоритма [math]ID3[/math] (англ. Induction of Decision Tree) заключается в последовательном дроблении выборки на две части до тех пор, пока в каждой части не окажутся объекты только одного класса. Проще всего записать этот алгоритм в виде рекурсивной процедуры [math]ID3[/math], которая строит дерево по заданной подвыборке [math]U[/math] и возвращает его корневую вершину.

1:function ID3([math]U[/math]):
2:  if все объекты множества [math]U[/math] принадлежат одному классу [math]y \in Y[/math] 
       then
3:        создать новый лист [math]v[/math] 
4:        [math]y_v = y[/math]
5:        return v
6:  найти предикат с максимальной информативностью:
     [math]\beta= \mathrm{arg}\max_{f\in F} [/math] I([math]f[/math], [math]U[/math])
7:  разбить выборку на две части [math]U = U_0 \cup U_1[/math] по предикату [math]\beta[/math]:
     [math]U_0 := \{x \in U: f_v(x) = 0\}[/math]
     [math]U_1 := \{x \in U: f_v(x) = 1\}[/math]
8:  if [math]U_0 = \emptyset[/math] или [math]U_1 = \emptyset[/math] 
     then
9:     создать новый лист [math]v[/math]
10:    [math]y_v[/math] = класс, в котором находится большинство объектов из [math]U[/math]
11:  else
12:    создать новую внутреннюю вершину [math]v[/math]
13:    [math]\beta_v = \beta[/math]
14:    [math]S_0[/math] = ID3([math]U_0[/math])
15:    [math]S_1[/math] = ID3([math]U_1[/math])
16:  return [math]v[/math]

Информативность

Критерий ветвления

Критейрий Джини

Энтропийный критерий

Рецукция решающих деревьев

Суть редукции состоит в удалении поддеревьев, имеющих недостаточную статистическую надёжность. При этом дерево перестаёт безошибочно классифицировать обучающую выборку, зато качество классификации новых объектов, как правило, улучшается. Рассмотрим наиболее простые варианты редукции.

Предредукция

Предредукция (англ. pre-pruning) или критерий раннего останова досрочно прекращает дальнейшее ветвление в вершине дерева, если информативность [math]I(\beta, U)[/math] для всех возможных предикатов [math]\beta[/math] не дотягивает до заданного порогового значения [math]I_0[/math].
Для этого на шаге 8 алгоритма [math]ID3[/math] условие [math]U_0 = \emptyset[/math] или [math]U_1 = \emptyset[/math] заменяется условием [math]I(\beta, U) \lt = I_0 [/math]. Порог [math]I_0 [/math] является управляющим параметром метода.
Предредукция считается не самым эффективным способом избежать переобучения, так как жадное ветвление по-прежнему остаётся глобально неоптимальным. Более эффективной считается cтратегия постредукции.

Постредукция (post-pruning)

Постредукция (англ. post-pruning) просматривает все внутренние вершины дерева и заменяет отдельные вершины либо одной из дочерних вершин (при этом вторая дочерняя удаляется), либо терминальной вершиной. Процесс замен продолжается до тех пор, пока в дереве остаются вершины, удовлетворяющие критерию замены.
Критерием замены является сокращение числа ошибок на контрольной выборке, отобранной заранее, и не участвовавшей в обучении дерева. Стандартная рекомендация — оставлять в контроле около 30% объектов.
Для реализации постредукции контрольная выборка [math]X^k[/math] пропускается через построенное дерево. При этом в каждой внутренней вершине [math]v[/math] запоминается подмножество [math]S_v \subseteq X_k[/math] попавших в неё контрольных объектов. Если [math]S_v = \emptyset [/math], то вершина [math]v[/math] считается ненадёжной и заменяется терминальной по мажоритарному правилу:
в качестве [math]c_v[/math] берётся тот класс, объектов которого больше всего в обучающей подвыборке [math]U[/math], пришедшей в вершину [math]v[/math]. Затем для каждой внутренней вершины [math]v[/math] вычисляется число ошибок, полученных при классификации выборки [math]S_v[/math] следующими способами:

[math]r(v)[/math] — классификация поддеревом, растущим из вершины [math]v[/math];
[math]r_L(v)[/math] — классификация поддеревом левой дочерней вершины [math]S_v(0)[/math];
[math]r_R(v)[/math] — классификация поддеревом правой дочерней вершины S_v(1);
[math]r_c(v)[/math] — отнесение всех объектов выборки [math]S_v[/math] к классу [math]y \in Y[/math].

Эти величины сравниваются, и, в зависимости от того, какая из них оказалась минимальной, принимается, соответственно, одно из четырёх решений:

сохранить поддерево вершины [math]v[/math];
заменить поддерево вершины [math]v[/math] поддеревом левой дочерней вершины Lv;
заменить поддерево вершины [math]v[/math] поддеревом правой дочерней вершины Rv;
заменить поддерево [math]v[/math] терминальной вершиной класса .

Деревья регрессии

Критерии ветвления

Оценивание вероятностей

Полужадный синтез

Алгоритмы построения решающих деревьев

Обобщающая способность решающих деревьев

Композиции решающих деревьев

Решающий лес
Бустинг над решающими деревьями

История

Ссылки

Classification and Regression Trees — лекции Cosma Shalizi, ноябрь 2009.

@@ Строка 29: / Строка 29: @@
 Идея алгоритма <tex>ID3</tex> (англ. ''Induction of Decision Tree'') заключается в последовательном дроблении выборки на две части до тех пор, пока в каждой части не окажутся объекты только одного класса. Проще всего записать этот алгоритм в виде рекурсивной процедуры <tex>ID3</tex>, которая строит дерево по заданной подвыборке <tex>U</tex> и возвращает его корневую вершину.
-  '''V''' ID3(<tex>U</tex>):
+:'''function''' ID3(<tex>U</tex>):
-   '''if''' все объекты множества <tex>U</tex> принадлежат одному классу <tex>y \in Y</tex> '''then'''
+:  '''if''' все объекты множества <tex>U</tex> принадлежат одному классу <tex>y \in Y</tex>
-      создать новый лист <tex>v</tex>
+        '''then'''
-      <tex>y_v = y</tex>
+:        создать новый лист <tex>v</tex>
-      '''return''' v
+:        <tex>y_v = y</tex>
-   найти предикат с максимальной информативностью:
+:        '''return''' v
-       <tex>\beta= \mathrm{arg}\max_{f\in F} </tex> Gain(<tex>f</tex>, <tex>U</tex>)
+:  найти предикат с максимальной информативностью:
-   разбить выборку на две части <tex>U = U_0 \cup U_1</tex> по предикату <tex>\beta</tex>:
+       <tex>\beta= \mathrm{arg}\max_{f\in F} </tex> I(<tex>f</tex>, <tex>U</tex>)
+:  разбить выборку на две части <tex>U = U_0 \cup U_1</tex> по предикату <tex>\beta</tex>:
        <tex>U_0 := \{x \in U: f_v(x) = 0\}</tex>
        <tex>U_1 := \{x \in U: f_v(x) = 1\}</tex>
-   '''if''' <tex>U_0 = \emptyset</tex> или <tex>U_1 = \emptyset</tex>
+:  '''if''' <tex>U_0 = \emptyset</tex> или <tex>U_1 = \emptyset</tex>
        '''then'''
-      создать новый лист <tex>v</tex>
+:     создать новый лист <tex>v</tex>
-      <tex>y_v</tex> = класс, в котором находится большинство объектов из <tex>U</tex>
+:    <tex>y_v</tex> = класс, в котором находится большинство объектов из <tex>U</tex>
-      '''else'''
+:  '''else'''
-      создать новую внутреннюю вершину <tex>v</tex>
+:    создать новую внутреннюю вершину <tex>v</tex>
-      <tex>\beta_v = \beta</tex>
+:    <tex>\beta_v = \beta</tex>
-      <tex>S_0</tex> = ID3(<tex>U_0</tex>)
+:    <tex>S_0</tex> = ID3(<tex>U_0</tex>)
-      <tex>S_1</tex> = ID3(<tex>U_1</tex>)
+:    <tex>S_1</tex> = ID3(<tex>U_1</tex>)
-   '''return''' <tex>v</tex>
+:  '''return''' <tex>v</tex>
-===Мера неопределенности распределения===
+===Информативность===
 ===Критерий ветвления===
@@ Строка 57: / Строка 58: @@
 ====Энтропийный критерий====
-=== Критерии останова ===
-Рекурсию останавливают в следующих случаях: <br>
+== Рецукция решающих деревьев ==
-* Все объекты множества <tex>U</tex> принадлежат одному классу <tex>y \in Y</tex>, тогда создается лист <tex>v</tex> с меткой класса <tex>y_v = y</tex>
+Суть редукции состоит в удалении поддеревьев, имеющих недостаточную статистическую надёжность. При этом дерево перестаёт безошибочно классифицировать обучающую выборку, зато качество классификации новых объектов, как правило, улучшается. Рассмотрим наиболее простые варианты редукции.
+===Предредукция===
+Предредукция (англ. ''pre-pruning'') или критерий раннего останова досрочно прекращает дальнейшее ветвление в вершине дерева, если информативность <tex>I(\beta, U)</tex> для всех возможных предикатов <tex>\beta</tex> не дотягивает до заданного порогового значения <tex>I_0</tex>. <br>
+Для этого на шаге 8 алгоритма <tex>ID3</tex> условие <tex>U_0 = \emptyset</tex> или <tex>U_1 = \emptyset</tex>  заменяется условием <tex>I(\beta, U) <= I_0 </tex>. Порог <tex>I_0 </tex> является управляющим параметром метода. <br>
+Предредукция считается не самым эффективным способом избежать переобучения, так как жадное ветвление по-прежнему остаётся глобально неоптимальным. Более эффективной считается cтратегия постредукции.
+===Постредукция (post-pruning)===
+Постредукция (англ. ''post-pruning'') просматривает все внутренние вершины дерева и заменяет отдельные вершины либо одной из дочерних вершин (при этом вторая дочерняя удаляется), либо терминальной вершиной. Процесс замен продолжается до тех
+пор, пока в дереве остаются вершины, удовлетворяющие критерию замены. <br>
+''Критерием замены'' является сокращение числа ошибок на контрольной выборке, отобранной заранее, и не участвовавшей в обучении дерева. Стандартная рекомендация — оставлять в контроле около 30% объектов. <br>
+Для реализации постредукции контрольная выборка <tex>X^k</tex> пропускается через
+построенное дерево. При этом в каждой внутренней вершине <tex>v</tex> запоминается подмножество <tex>S_v \subseteq X_k</tex> попавших в неё контрольных объектов. Если <tex>S_v = \emptyset </tex>, то вершина <tex>v</tex> считается ненадёжной и заменяется терминальной по ''мажоритарному правилу'': <br>
+в качестве <tex>c_v</tex> берётся тот класс, объектов которого больше всего в обучающей подвыборке <tex>U</tex>, пришедшей в вершину <tex>v</tex>.
+Затем для каждой внутренней вершины <tex>v</tex> вычисляется число ошибок, полученных при классификации выборки <tex>S_v</tex> следующими способами: <br>
+* <tex>r(v)</tex> — классификация поддеревом, растущим из вершины <tex>v</tex>;
+* <tex>r_L(v)</tex> — классификация поддеревом левой дочерней вершины <tex>S_v(0)</tex>;
+* <tex>r_R(v)</tex> — классификация поддеревом правой дочерней вершины S_v(1);
+* <tex>r_c(v)</tex> — отнесение всех объектов выборки <tex>S_v</tex> к классу <tex>y \in Y</tex>. <br>
+Эти величины сравниваются, и, в зависимости от того, какая из них оказалась
+минимальной, принимается, соответственно, одно из четырёх решений: <br>
+* сохранить поддерево вершины <tex>v</tex>;
+* заменить поддерево вершины <tex>v</tex> поддеревом левой дочерней вершины Lv;
+* заменить поддерево вершины <tex>v</tex> поддеревом правой дочерней вершины Rv;
+* заменить поддерево <tex>v</tex> терминальной вершиной класса <tex>y_v = \mathrm{arg}\min_{y\in Y}r_c(v) </tex>.
 == Деревья регрессии ==
@@ Строка 67: / Строка 93: @@
 * [[Критерий Джини]]
-=== Рецукция решающих деревьев ===
-* [[Предредукция]]
-* [[Постредукция]]
 === Оценивание вероятностей ===

Дерево решений и случайный лес — различия между версиями

Версия 20:02, 20 января 2019

Содержание