Дополнения конспектов по машинному обучению — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
(Новая страница: «Категория: Машинное обучение Категория: Дополнения конспектов по машинному обучению…»)
 
(Выявление аномалий с помощью случайного леса)
Строка 2: Строка 2:
 
[[Категория: Дополнения конспектов по машинному обучению]]
 
[[Категория: Дополнения конспектов по машинному обучению]]
  
====Выявление аномалий с помощью случайного леса====
+
==Выявление аномалий с помощью случайного леса==
 
Интересной возможностью некоторых классификаторов является возможность находить объекты, которые трудно поддаются классификации, соответственно, могут принадлежать к новым, неизученным типам галактик. Рассмотрим в качестве примера случайный лес.
 
Интересной возможностью некоторых классификаторов является возможность находить объекты, которые трудно поддаются классификации, соответственно, могут принадлежать к новым, неизученным типам галактик. Рассмотрим в качестве примера случайный лес.
  

Версия 23:08, 21 января 2021


Выявление аномалий с помощью случайного леса

Интересной возможностью некоторых классификаторов является возможность находить объекты, которые трудно поддаются классификации, соответственно, могут принадлежать к новым, неизученным типам галактик. Рассмотрим в качестве примера случайный лес.

Случайные леса могут быть использованы для определения некоей меры схожести объектов без меток[1]. Чтобы перейти от задачи обучения без учителя к задаче обучения с учителем,которую можно решать с помощью случайного леса, применяется следующая идея:

  1. Пусть набор данных имеет вид таблицы [math]N \cdot M[/math], где каждая строка представляет объект с [math]M[/math] признаками. Построим другую матрицу размера [math]N \cdot M[/math], где значениями каждого столбца будет выборка из частного распределения соответствующего признака в исходном наборе данных. Такая матрица называется синтетическим набором данных (англ. synhtetic dataset). Альтернативным вариантом построения такой матрицы является случайная перестановка каждого столбца исходной матрицы.
  2. Пометим каждый объект исходного набора данных как принадлежащий классу [math]A[/math], а каждый объект синтетического набора данных как принадлежащий классу [math]B[/math]. Обучим случайный лес на этой выборке.

На этом этапе случайный лес способен определять наличие ковариации, ведь она присутствует только в исходном наборе данных. Как следствие, самыми важными признаками объектов будут являться признаки, имеющие корреляцию с другими. Расстояние между объектами определяется следующим образом:

Каждая пара объектов передается во все решающие деревья случайного леса, и их схожесть описывается как количество деревьев, которые классифицировали оба объекта как принадлежащие классу [math]A[/math], причем оба объекта должны достигнуть одного и того же листа в дереве.
  1. Shi, T., & Horvath, S. 2006, Journal ofComputational and Graphical Statistics, 15, 118