Дополнения конспектов по машинному обучению
Выявление аномалий с помощью случайного леса
Интересной возможностью некоторых классификаторов является возможность находить объекты, которые трудно поддаются классификации, соответственно, могут принадлежать к новым, неизученным типам галактик. Рассмотрим в качестве примера случайный лес.
Случайные леса могут быть использованы для определения некоей меры схожести объектов без меток[1]. Чтобы перейти от задачи обучения без учителя к задаче обучения с учителем,которую можно решать с помощью случайного леса, применяется следующая идея:
- Пусть набор данных имеет вид таблицы , где каждая строка представляет объект с признаками. Построим другую матрицу размера , где значениями каждого столбца будет выборка из частного распределения соответствующего признака в исходном наборе данных. Такая матрица называется синтетическим набором данных (англ. synhtetic dataset). Альтернативным вариантом построения такой матрицы является случайная перестановка каждого столбца исходной матрицы.
- Пометим каждый объект исходного набора данных как принадлежащий классу , а каждый объект синтетического набора данных как принадлежащий классу . Обучим случайный лес на этой выборке.
На этом этапе случайный лес способен определять наличие ковариации, ведь она присутствует только в исходном наборе данных. Как следствие, самыми важными признаками объектов будут являться признаки, имеющие корреляцию с другими. Расстояние между объектами определяется следующим образом: Каждая пара объектов передается во все решающие деревья случайного леса, и их схожесть описывается как количество деревьев, которые классифицировали оба объекта как принадлежащие классу
, причем оба объекта должны достигнуть одного и того же листа в дереве.Источники информации
- ↑ Shi, T., & Horvath, S. 2006, Journal ofComputational and Graphical Statistics, 15, 118