Изменения

Перейти к: навигация, поиск

Дерево решений и случайный лес

1953 байта убрано, 23:45, 23 января 2019
Случайный лес
На каждом шаге построения дерева алгоритм последовательно сравнивает все возможные разбиения для всех атрибутов и выбирает наилучший атрибут и наилучшее разбиение для него.
== Случайный лес === Композиции решающих деревьев ==Для повышения точности модели применяют Случайный лес {{---}} один из примеров объединения моделей (классификаторов) в [[Виды_ансамблей|ансамбль]]. ===Виды ансамблей=======Бутстрэп====Метод бутстрэпа (англ. ''bootstrap aggregation'') — один из первых и самых простых видов ансамблей, который позволяет оценивать многие статистики сложных распределений и заключается в следующем. Пусть имеется выборка <tex>X</tex> размера <tex>N</tex>. Равномерно возьмем из выборки <tex>N</tex> объектов с возвращением. Это означает, что мы будем <tex>N</tex> раз равновероятно выбирать произвольный объект выборки, причем каждый раз мы выбираем из всех исходных <tex>N</tex> объектов. Отметим, что из-за возвращения среди них окажутся повторы. <br>Обозначим новую выборку через <tex>X_1</tex>. Повторяя процедуру <tex>M</tex> раз, сгенерируем <tex>M</tex> подвыборок <tex>X_1 ... X_M</tex>. Теперь мы имеем достаточно большое число выборок и можем оценивать различные статистики исходного распределения. ====Бэггинг====Рассмотрим, следующий вид ансамбля — бэггинг (англ. ''bagging''). Пусть имеется обучающая выборка <tex>X</tex>. С помощью бутстрэпа сгенерируем из неё выборки <tex>X_1 ... X_M</tex>. Теперь на каждой выборке обучим свой классификатор <tex>a_i(x)</tex>. Итоговый классификатор будет усреднять ответы всех этих алгоритмов <tex>a(x) = \frac{1}{M} \sum\limits_{i = 1}^{M} a_i(x)</tex>.  Алгоритм построения случайного леса, состоящего из <tex>N</tex> деревьев на основе обучающей выборки <tex>X</tex>:
'''for''' (n: 1,...,N):
сгенерировать выборку <tex>X_n</tex> c помощью бутстрэпа[[Виды_ансамблей#Бутстрэп|бутстрэпа]] <tex>X_n</tex> = bootstrap(<tex>X</tex>) построить решающее дерево <tex>t_n</tex> по выборке <tex>X_n</tex> <tex>t_n</tex> = ID3(<tex>X_n</tex>) <br>
Итоговый классификатор — <tex>a(x) = \frac{1}{N} \sum\limits_{i = 1}^{N} t_i(x)</tex>. Для задачи кассификации мы выбираем решение по большинству результатов, выданных классификаторами, а в задаче регрессии — по их среднему значению. <br>
635
правок

Навигация