Изменения

Перейти к: навигация, поиск

Обсуждение участника:Qrort

3423 байта добавлено, 16:01, 12 января 2021
Нет описания правки
Одной из самых популярных тем классификации является морфологическая классификация галактик, позволяющая разделить их на различные типы по визуальным признакам. Для обучения моделей, призванных решать эту задачу, часто используют набор данных [https://data.galaxyzoo.org/ Galaxy Zoo], который является результатом волонтерского сотрудничества (ручной классификации галактик). Существует множество работ на эту тематику, использующих различные алгоритмы машинного обучения, как то: [[ Дерево решений и случайный лес | случайные леса]]<ref>https://arxiv.org/pdf/1611.07526.pdf</ref>, [[ Метод_опорных_векторов_(SVM) | метод опорных векторов]]<ref> Huertas-Company, M., Rouan, D., Tasca, L.,Soucail, G., & Le F`evre, O. 2008, A&A, 478,971 </ref>, [[ Нейронные сети, перцептрон | нейронные сети]]<ref> Banerji, M., Lahav, O., Lintott, C. J., et al. 2010,MNRAS, 406, 342 </ref>. Применение подходов машинного обучения в этом случае довольно прямолинейно, а разница между работами состоит в основном в представлении данных, выборе гиперпараметров и признаков классификации. Дополнительной сложностью вышеприведённых и прочих работ на ту же тему являются визуальные ограничения имеющихся изображений, такие, как мерцание, смещение, размытие и [https://ru.wikipedia.org/wiki/Красное_смещение красное смещение].
Этой задачей следует заниматься, так как возможность находить тип галактик необходима для изучения их эволюции, а также является необходимым умением для множества задач наблюдательной космологии (англ. ''Observational cosmology''), например, для нахождения красного смещения и [https://ru.wikipedia.org/wiki/Кривая_блеска кривых блеска]. Ещё одной интересной возможностью применения таких работ является способ таким образом найти объекты, которые трудно поддаются классификации, соответственно, могут принадлежать к новым, неизученным типам галактик.[[Файл:galaxyClassificationComparison.png|300px|thumb|left|Точность классификации различных алгоритмов на данных Galaxy Zoo<ref>arXiv:1901.07047 [astro-ph.IM]</ref>]]<br><br><br><br>====Выявление аномалий====Интересной возможностью некоторых классификаторов является способ с помощью них найти объекты, которые трудно поддаются классификации, соответственно, могут принадлежать к новым, неизученным типам галактик. Рассмотрим в качестве примера случайные леса. Случайные леса могут быть использованы для определения некоей меры схожести объектов без меток<ref>Shi, T., & Horvath, S. 2006, Journal ofComputational and Graphical Statistics, 15, 118</ref>.Чтобы перейти от задачи обучения без учителя к задаче обучения с учителем,которую можно решать с помощью случайного леса, применяется следующая идея: # Пусть набор данных имеет вид таблицы <tex>N \cdot M</tex>, где каждая строка представляет объект с <tex>M</tex> признаками. Построим другую матрицу размера <tex>N \cdot M</tex>, где значениями каждого столбца будет выборка из частного распределения соответствующего признака в исходном наборе данных. Такая матрица называется синтетическим набором данных (англ. ''synhtetic dataset''). Альтернативным вариантом построения такой матрицы является случайная перестановка каждого столбца исходной матрицы.# Пометим каждый объект исходного набора данных как принадлежащий классу <tex>A</tex>, а каждый объект синтетического набора данных как принадлежащий классу <tex>B</tex>. Обучим случайный лес на этой выборке. На этом этапе случайный лес способен определять наличие ковариации, ведь она присутствует только в исходном наборе данных. Как следствие, самыми важными признаками объектов будут являться признаки, имеющие корреляцию с другими. Расстояние между объектами определяется следующим образом:Каждая пара объектов передается во все решающие деревья случайного леса, и их схожесть описывается как количество деревьев, которые классифицировали оба объекта как принадлежащие классу <tex>A</tex>, причем оба объекта должны достигнуть одного и того же листа в дереве. Таким методом можно пользоваться, например, для нахождения в больших объемах данных объектов, не похожих на большинство других, для отдельного их изучения. В частности, с помощью такого алгоритма можно найти необычные типы галактик.<ref>Baron, D., & Poznanski, D. 2017, MNRAS, 465,4530</ref> 
==== Классификация корональных выбросов массы====
104
правки

Навигация