Изменения

Перейти к: навигация, поиск

Обсуждение участника:Qrort

3330 байт убрано, 16:03, 12 января 2021
Обучение без учителя
=== [[Общие понятия#Классификация задач машинного обучения | Обучение без учителя ]] ===
Алгоритмы обучения без учителя применительно к астрономии имеют особое значение для научных исследований, поскольку они могут быть использованы для извлечения новых знаний из существующих наборов данных и могут способствовать новым открытиям.
 
==== Случайные леса ====
Случайные леса могут быть использованы для определения некоей меры схожести объектов без меток<ref>Shi, T., & Horvath, S. 2006, Journal ofComputational and Graphical Statistics, 15, 118</ref>.
Чтобы перейти от задачи обучения без учителя к задаче обучения с учителем,которую можно решать с помощью случайного леса, применяется следующая идея:
 
# Пусть набор данных имеет вид таблицы <tex>N \cdot M</tex>, где каждая строка представляет объект с <tex>M</tex> признаками. Построим другую матрицу размера <tex>N \cdot M</tex>, где значениями каждого столбца будет выборка из частного распределения соответствующего признака в исходном наборе данных. Такая матрица называется синтетическим набором данных (англ. ''synhtetic dataset''). Альтернативным вариантом построения такой матрицы является случайная перестановка каждого столбца исходной матрицы.
# Пометим каждый объект исходного набора данных как принадлежащий классу <tex>A</tex>, а каждый объект синтетического набора данных как принадлежащий классу <tex>B</tex>. Обучим случайный лес на этой выборке.
 
На этом этапе случайный лес способен определять наличие ковариации, ведь она присутствует только в исходном наборе данных. Как следствие, самыми важными признаками объектов будут являться признаки, имеющие корреляцию с другими. Расстояние между объектами определяется следующим образом:
Каждая пара объектов передается во все решающие деревья случайного леса, и их схожесть описывается как количество деревьев, которые классифицировали оба объекта как принадлежащие классу <tex>A</tex>, причем оба объекта должны достигнуть одного и того же листа в дереве.
 
Таким методом можно пользоваться, например, для нахождения в больших объемах данных объектов, не похожих на большинство других, для отдельного их изучения. В частности, с помощью такого алгоритма можно найти необычные типы галактик.<ref>Baron, D., & Poznanski, D. 2017, MNRAS, 465,4530</ref>
==== K-means ====
104
правки

Навигация