Дополнения конспектов по машинному обучению — различия между версиями
(Новая страница: «Категория: Машинное обучение Категория: Дополнения конспектов по машинному обучению…») |
(→Выявление аномалий с помощью случайного леса) |
||
Строка 2: | Строка 2: | ||
[[Категория: Дополнения конспектов по машинному обучению]] | [[Категория: Дополнения конспектов по машинному обучению]] | ||
− | + | ==Выявление аномалий с помощью случайного леса== | |
Интересной возможностью некоторых классификаторов является возможность находить объекты, которые трудно поддаются классификации, соответственно, могут принадлежать к новым, неизученным типам галактик. Рассмотрим в качестве примера случайный лес. | Интересной возможностью некоторых классификаторов является возможность находить объекты, которые трудно поддаются классификации, соответственно, могут принадлежать к новым, неизученным типам галактик. Рассмотрим в качестве примера случайный лес. | ||
Версия 23:08, 21 января 2021
Выявление аномалий с помощью случайного леса
Интересной возможностью некоторых классификаторов является возможность находить объекты, которые трудно поддаются классификации, соответственно, могут принадлежать к новым, неизученным типам галактик. Рассмотрим в качестве примера случайный лес.
Случайные леса могут быть использованы для определения некоей меры схожести объектов без меток[1]. Чтобы перейти от задачи обучения без учителя к задаче обучения с учителем,которую можно решать с помощью случайного леса, применяется следующая идея:
- Пусть набор данных имеет вид таблицы , где каждая строка представляет объект с признаками. Построим другую матрицу размера , где значениями каждого столбца будет выборка из частного распределения соответствующего признака в исходном наборе данных. Такая матрица называется синтетическим набором данных (англ. synhtetic dataset). Альтернативным вариантом построения такой матрицы является случайная перестановка каждого столбца исходной матрицы.
- Пометим каждый объект исходного набора данных как принадлежащий классу , а каждый объект синтетического набора данных как принадлежащий классу . Обучим случайный лес на этой выборке.
На этом этапе случайный лес способен определять наличие ковариации, ведь она присутствует только в исходном наборе данных. Как следствие, самыми важными признаками объектов будут являться признаки, имеющие корреляцию с другими. Расстояние между объектами определяется следующим образом:
Каждая пара объектов передается во все решающие деревья случайного леса, и их схожесть описывается как количество деревьев, которые классифицировали оба объекта как принадлежащие классу , причем оба объекта должны достигнуть одного и того же листа в дереве.- ↑ Shi, T., & Horvath, S. 2006, Journal ofComputational and Graphical Statistics, 15, 118