Дополнения конспектов по машинному обучению — различия между версиями
(→Выявление аномалий с помощью случайного леса) |
|||
Строка 1: | Строка 1: | ||
[[Категория: Машинное обучение]] | [[Категория: Машинное обучение]] | ||
− | |||
− | |||
==Выявление аномалий с помощью случайного леса== | ==Выявление аномалий с помощью случайного леса== | ||
Интересной возможностью некоторых классификаторов является возможность находить объекты, которые трудно поддаются классификации, соответственно, могут принадлежать к новым, неизученным типам галактик. Рассмотрим в качестве примера случайный лес. | Интересной возможностью некоторых классификаторов является возможность находить объекты, которые трудно поддаются классификации, соответственно, могут принадлежать к новым, неизученным типам галактик. Рассмотрим в качестве примера случайный лес. | ||
Строка 13: | Строка 11: | ||
На этом этапе случайный лес способен определять наличие ковариации, ведь она присутствует только в исходном наборе данных. Как следствие, самыми важными признаками объектов будут являться признаки, имеющие корреляцию с другими. Расстояние между объектами определяется следующим образом: | На этом этапе случайный лес способен определять наличие ковариации, ведь она присутствует только в исходном наборе данных. Как следствие, самыми важными признаками объектов будут являться признаки, имеющие корреляцию с другими. Расстояние между объектами определяется следующим образом: | ||
Каждая пара объектов передается во все решающие деревья случайного леса, и их схожесть описывается как количество деревьев, которые классифицировали оба объекта как принадлежащие классу <tex>A</tex>, причем оба объекта должны достигнуть одного и того же листа в дереве. | Каждая пара объектов передается во все решающие деревья случайного леса, и их схожесть описывается как количество деревьев, которые классифицировали оба объекта как принадлежащие классу <tex>A</tex>, причем оба объекта должны достигнуть одного и того же листа в дереве. | ||
+ | |||
+ | ==Источники информации== | ||
+ | <references /> |
Версия 23:08, 21 января 2021
Выявление аномалий с помощью случайного леса
Интересной возможностью некоторых классификаторов является возможность находить объекты, которые трудно поддаются классификации, соответственно, могут принадлежать к новым, неизученным типам галактик. Рассмотрим в качестве примера случайный лес.
Случайные леса могут быть использованы для определения некоей меры схожести объектов без меток[1]. Чтобы перейти от задачи обучения без учителя к задаче обучения с учителем,которую можно решать с помощью случайного леса, применяется следующая идея:
- Пусть набор данных имеет вид таблицы , где каждая строка представляет объект с признаками. Построим другую матрицу размера , где значениями каждого столбца будет выборка из частного распределения соответствующего признака в исходном наборе данных. Такая матрица называется синтетическим набором данных (англ. synhtetic dataset). Альтернативным вариантом построения такой матрицы является случайная перестановка каждого столбца исходной матрицы.
- Пометим каждый объект исходного набора данных как принадлежащий классу , а каждый объект синтетического набора данных как принадлежащий классу . Обучим случайный лес на этой выборке.
На этом этапе случайный лес способен определять наличие ковариации, ведь она присутствует только в исходном наборе данных. Как следствие, самыми важными признаками объектов будут являться признаки, имеющие корреляцию с другими. Расстояние между объектами определяется следующим образом: Каждая пара объектов передается во все решающие деревья случайного леса, и их схожесть описывается как количество деревьев, которые классифицировали оба объекта как принадлежащие классу
, причем оба объекта должны достигнуть одного и того же листа в дереве.Источники информации
- ↑ Shi, T., & Horvath, S. 2006, Journal ofComputational and Graphical Statistics, 15, 118