Дополнения конспектов по машинному обучению — различия между версиями

Текущая версия на 19:03, 4 сентября 2022

Выявление аномалий с помощью случайного леса

Интересной возможностью некоторых классификаторов является возможность находить объекты, которые трудно поддаются классификации, соответственно, могут принадлежать к новым, неизученным типам галактик. Рассмотрим в качестве примера случайный лес.

Случайные леса могут быть использованы для определения некоей меры схожести объектов без меток^[1]. Чтобы перейти от задачи обучения без учителя к задаче обучения с учителем,которую можно решать с помощью случайного леса, применяется следующая идея:

Пусть набор данных имеет вид таблицы [math]N \cdot M[/math], где каждая строка представляет объект с [math]M[/math] признаками. Построим другую матрицу размера [math]N \cdot M[/math], где значениями каждого столбца будет выборка из частного распределения соответствующего признака в исходном наборе данных. Такая матрица называется синтетическим набором данных (англ. synhtetic dataset). Альтернативным вариантом построения такой матрицы является случайная перестановка каждого столбца исходной матрицы.
Пометим каждый объект исходного набора данных как принадлежащий классу [math]A[/math], а каждый объект синтетического набора данных как принадлежащий классу [math]B[/math]. Обучим случайный лес на этой выборке.

На этом этапе случайный лес способен определять наличие ковариации, ведь она присутствует только в исходном наборе данных. Как следствие, самыми важными признаками объектов будут являться признаки, имеющие корреляцию с другими. Расстояние между объектами определяется следующим образом: Каждая пара объектов передается во все решающие деревья случайного леса, и их схожесть описывается как количество деревьев, которые классифицировали оба объекта как принадлежащие классу [math]A[/math], причем оба объекта должны достигнуть одного и того же листа в дереве.

Источники информации

↑ Shi, T., & Horvath, S. 2006, Journal ofComputational and Graphical Statistics, 15, 118

[1] Shi, T., & Horvath, S. 2006, Journal ofComputational and Graphical Statistics, 15, 118

[1]

Версия 23:08, 21 января 2021 (просмотреть исходный код) 77.234.203.50 (обсуждение) ← Предыдущая правка	Текущая версия на 19:03, 4 сентября 2022 (просмотреть исходный код) Maintenance script (обсуждение \| вклад) м (rollbackEdits.php mass rollback)
(не показана 1 промежуточная версия 1 участника)
(нет различий)

Дополнения конспектов по машинному обучению — различия между версиями

Текущая версия на 19:03, 4 сентября 2022

Выявление аномалий с помощью случайного леса

Источники информации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты