104
правки
Изменения
→Случайные леса
Алгоритмы обучения без учителя применительно к астрономии имеют особое значение для научных исследований, поскольку они могут быть использованы для извлечения новых знаний из существующих наборов данных и могут способствовать новым открытиям.
==== Случайные леса ====
Случайные леса могут быть использованы для определения некоей меры схожести объектов без меток<ref>Shi, T., & Horvath, S. 2006, Journal ofComputational and Graphical Statistics, 15, 118</ref>.Чтобы перейти от задачи обучения без учителя к задаче обучения с учителем,которую можно решать с помощью случайного леса, применяется следующая идея: переданные # Пусть набор данных имеет вид таблицы <tex>N \cdot M</tex>, где каждая строка представляет объект с <tex>M</tex> признаками. Построим другую матрицу размера <tex>N \cdot M</tex>, где значениями каждого столбца будет выборка из частного распределения соответствующего признака в классификатор похожие объекты исходном наборе данных. Такая матрица называется синтетическим набором данных (англ. ''synhtetic dataset''). Альтернативным вариантом построения такой матрицы является случайная перестановка каждого столбца исходной матрицы.# Пометим каждый объект исходного набора данных как принадлежащий классу <tex>A</tex>, а каждый объект синтетического набора данных как принадлежащий классу <tex>B</tex>. Обучим случайный лес на этой выборке. На этом этапе случайный лес способен определять наличие ковариации, ведь она присутствует только в исходном наборе данных. Как следствие, самыми важными признаками объектов будут отнесены к одному являться признаки, имеющие корреляцию с другими. Расстояние между объектами определяется следующим образом:Каждая пара объектов передается во все решающие деревья случайного леса, и их схожесть описывается как количество деревьев, которые классифицировали оба объекта как принадлежащие классу<tex>A</tex>, а сильно отличающиеся {{---}} к разнымпричем оба объекта должны достигнуть одного и того же листа в дереве. Этим свойством метода Таким методом можно пользоваться, например, для нахождения в больших объемах данных объектов, не похожих на большинство других, для отдельного их изучения. НапримерВ частности, с помощью такого алгоритма можно найти необычные типы галактик.<ref>Baron, D., & Poznanski, D. 2017, MNRAS, 465,4530</ref>
==== Кластеризация ====