Изменения

Перейти к: навигация, поиск

Дерево решений и случайный лес

222 байта убрано, 22:30, 20 января 2019
Способы построения ансамблей
== Композиции решающих деревьев ==
Для повышения точности модели применяют объединения моделей (классификаторов) в ансамбль.
===Способы построения Виды ансамблей===* ====Бустинг (англ. ''boosting'') ====
При бустинге происходит последовательное обучение классификаторов. Таким образом, обучающий набор данных на каждом последующем шаге зависит от точности прогнозирования предыдущего базового классификатора. Первый алгоритм Boost1, например, применял три базовых классификатора. При этом первый классификатор обучался на всем наборе данных, второй на выборке примеров, а третий – на наборе тех данных, где результаты прогнозирования первых двух классификаторов разошлись. Современная модификация первого алгоритма подразумевает использование неограниченного количества классификаторов, каждый из которых обучается на одном наборе примеров, поочередно применяя их на различных шагах.
* Бэггинг====Бутстрэп====В отличие от предыдущего метода, бэггинг Метод бутстрэпа (англ. ''bagging or bootstrap aggregatingaggregation'') использует параллельное обучение базовых классификаторов (говоря языком математической логикизаключается в следующем. Пусть имеется выборка <tex>X</tex> размера <tex>N</tex>. Равномерно возьмем из выборки <tex>N</tex> объектов с возвращением. Это означает, бэггинг – улучшающее объединениечто мы будем <tex>N</tex> раз равновероятно выбирать произвольный объект выборки, а бустинг – улучшающее пересечение)причем каждый раз мы выбираем из всех исходных <tex>N</tex> объектов. В ходе бэггинга происходит следующее: Из множества исходных данных случайным образом отбирается несколько подмножествОтметим, содержащих количество примеровчто из-за возвращения среди них окажутся повторы. <br>Обозначим новую выборку через <tex>X_1</tex>. Повторяя процедуру <tex>M</tex> раз, соответствующее количеству примеров исходного множествасгенерируем <tex>M</tex> подвыборок <tex>X_1 ..Поскольку отбор осуществляется случайным образом, то набор примеров всегда будет разным: некоторые примеры попадут в несколько подмножеств, а некоторые не попадут ни в одно.На основе каждой выборки строится классификаторX_M</tex>.Выводы классификаторов агрегируются (путем голосования или усреднения)Теперь мы имеем достаточно большое число выборок и можем оценивать различные статистики исходного распределения.
== Пример использования (через scikit-learn) ==
635
правок

Навигация