Изменения

Перейти к: навигация, поиск

Обсуждение участника:Qrort

2985 байт убрано, 23:10, 21 января 2021
Нет описания правки
====Выявление аномалий====
Интересной возможностью некоторых классификаторов является возможность находить объекты, которые трудно поддаются классификации, соответственно, В астрономии могут принадлежать к новым, неизученным типам галактик. Рассмотрим в качестве примера случайный лес. Случайные леса могут быть использованы для определения некоей меры схожести объектов без меток<ref>Shi, T., & Horvath, S. 2006, Journal ofComputational and Graphical Statistics, 15, 118</ref>.Чтобы перейти от задачи обучения без учителя к задаче обучения с учителем,которую можно решать использоваться [[ Дополнения конспектов по машинному обучению#Выявление аномалий с помощью случайного леса, применяется следующая идея: # Пусть набор данных имеет вид таблицы <tex>N \cdot M</tex>, где каждая строка представляет объект с <tex>M</tex> признаками. Построим другую матрицу размера <tex>N \cdot M</tex>, где значениями каждого столбца будет выборка из частного распределения соответствующего признака в исходном наборе данных. Такая матрица называется синтетическим набором данных (англ. ''synhtetic dataset''). Альтернативным вариантом построения такой матрицы является случайная перестановка каждого столбца исходной матрицы.# Пометим каждый объект исходного набора данных как принадлежащий классу <tex>A</tex>, а каждый объект синтетического набора данных как принадлежащий классу <tex>B</tex>. Обучим случайный лес на этой выборке. На этом этапе случайный лес способен определять наличие ковариации, ведь она присутствует только в исходном наборе данных. Как следствие, самыми важными признаками | методы поиска ]] трудно классифицируемых объектов будут являться признаки, имеющие корреляцию с другими. Расстояние между объектами определяется следующим образом:Каждая пара объектов передается во все решающие деревья случайного леса, и их схожесть описывается как количество деревьев, которые классифицировали оба объекта как принадлежащие классу <tex>A</tex>, причем оба объекта должны достигнуть одного и того же листа в дереве. Таким методом можно пользоватьсявыборки, например, для нахождения в больших объемах данных объектов, не похожих на большинство других, для отдельного их изучения. В частности, с помощью такого алгоритма можно найти необычные типы галактик<ref>Baron, D., & Poznanski, D. 2017, MNRAS, 465,4530</ref>.
====Классификация звезд и галактик====
Анонимный участник

Навигация