Изменения

Перейти к: навигация, поиск

Дополнения конспектов по машинному обучению

3522 байта добавлено, 23:07, 21 января 2021
Новая страница: «Категория: Машинное обучение Категория: Дополнения конспектов по машинному обучению…»
[[Категория: Машинное обучение]]
[[Категория: Дополнения конспектов по машинному обучению]]

====Выявление аномалий с помощью случайного леса====
Интересной возможностью некоторых классификаторов является возможность находить объекты, которые трудно поддаются классификации, соответственно, могут принадлежать к новым, неизученным типам галактик. Рассмотрим в качестве примера случайный лес.

Случайные леса могут быть использованы для определения некоей меры схожести объектов без меток<ref>Shi, T., & Horvath, S. 2006, Journal ofComputational and Graphical Statistics, 15, 118</ref>.
Чтобы перейти от задачи обучения без учителя к задаче обучения с учителем,которую можно решать с помощью случайного леса, применяется следующая идея:

# Пусть набор данных имеет вид таблицы <tex>N \cdot M</tex>, где каждая строка представляет объект с <tex>M</tex> признаками. Построим другую матрицу размера <tex>N \cdot M</tex>, где значениями каждого столбца будет выборка из частного распределения соответствующего признака в исходном наборе данных. Такая матрица называется синтетическим набором данных (англ. ''synhtetic dataset''). Альтернативным вариантом построения такой матрицы является случайная перестановка каждого столбца исходной матрицы.
# Пометим каждый объект исходного набора данных как принадлежащий классу <tex>A</tex>, а каждый объект синтетического набора данных как принадлежащий классу <tex>B</tex>. Обучим случайный лес на этой выборке.

На этом этапе случайный лес способен определять наличие ковариации, ведь она присутствует только в исходном наборе данных. Как следствие, самыми важными признаками объектов будут являться признаки, имеющие корреляцию с другими. Расстояние между объектами определяется следующим образом:
Каждая пара объектов передается во все решающие деревья случайного леса, и их схожесть описывается как количество деревьев, которые классифицировали оба объекта как принадлежащие классу <tex>A</tex>, причем оба объекта должны достигнуть одного и того же листа в дереве.
Анонимный участник

Навигация