Изменения

Обсуждение участника:Qrort

11 570 байт добавлено, 19:58, 12 января 2021

→‎Кривые блеска

[[Категория: Машинное обучение]]

[[Категория: Практическое применение машинного обучения]]

== Машинное обучение в астрономии ==

Астрономия переживает стремительный рост объема и сложности данных. Существует множество проектов, исследующих и собирающих многоспектральные изображения неба, разновременную и многоволновую информацию, например, [https://www.sdss.org/ SDSS]. ~~Соответственно~~Такие проекты предоставляют оцифрованные изображения неба, соответственно, в последние годы алгоритмы машинного обучения становятся все более популярными среди астрономов и в настоящее время используются для решения самых разнообразных задач; причиной этому служит большое количество доступных данных. В этой статье кратко приводится практическая информация о применении инструментов машинного обучения к астрономическим данным.

=== ~~[[Общие понятия#~~Классификация ~~задач машинного обучения | Обучение с учителем ]]~~ астрономических объектов по изображениям ===~~В этом разделе рассматриваются алгоритмы, наиболее часто встречающиеся~~ Наличие в ~~научных работах астрономической тематики~~наборах данных большого количества объектов одного типа, ~~и примеры таких работ~~но различных подтипов позволяет применить машинное обучение для решения задачи классификации на этих объектах.==== ~~Метод опорных векторов~~ Морфологическая классификация галактик ====[[ ~~Метод_опорных_векторов_(SVM)~~ Файл:hubbleTuningFork.jpg|300px|thumb|right| ~~Метод опорных векторов~~ Классификация галактик, [https://ru.wikipedia.org/wiki/Последовательность_Хаббла последовательность Хаббла]]] Одной из самых популярных тем классификации является морфологическая классификация галактик (англ. ''~~support vector machine, SVM~~Morphology galaxy classification'') , позволяющая разделить их на различные типы по визуальным признакам. Для обучения моделей, призванных решать эту задачу, часто используют набор данных [https://data.galaxyzoo.org/ Galaxy Zoo], который является ~~популярным алгоритмом для решения задач~~ результатом волонтерского сотрудничества (ручной классификациигалактик). Существует множество работ на эту тематику, использующих различные алгоритмы машинного обучения, как то: [[ Дерево решений и случайный лес | случайные леса]]<ref>https://arxiv.~~Астрономы используют~~ org/abs/1611.07526</ref>, [[ Метод_опорных_векторов_(SVM) | метод опорных векторов ~~для определения типа галактик по их морфологическим признакам~~ ]]<ref>Huertas-Company, M., Rouan, D., Tasca, L.,Soucail, G., & Le F`evre, O. 2008, A&A, 478,971</ref>, ~~обучая модели на изображениях далёких галактик~~[[ Нейронные сети, перцептрон | нейронные сети]]<ref> Banerji, M., Lahav, O., Lintott, C. J., et al. 2010,MNRAS, 406, 342 </ref>. Применение подходов машинного обучения в этом случае довольно прямолинейно, а разница между работами состоит в основном в представлении данных, выборе гиперпараметров и признаков классификации. Дополнительной сложностью ~~вышеприведённой~~ вышеприведённых и прочих работ на ту же тему являются визуальные ограничения имеющихся изображений, такие, как мерцание, смещение, размытие и [https://ru.wikipedia.org/wiki/Красное_смещение красное смещение]. В настоящее время существуют методы, обеспечивающие вероятность неверной классификации объекта в 0.005<ref>Miller, A. A., Kulkarni, M. K., Cao, Y., et al.2017, AJ, 153, 73</ref>.

~~Метод опорных векторов~~ Этой задачей следует заниматься, так как возможность находить тип галактик необходима для изучения их эволюции, а также является необходимым умением для множества задач наблюдательной космологии (англ. ''Observational cosmology''), например, для нахождения [https://ru.wikipedia.org/wiki/Кривая_блеска кривых блеска]. [[Файл:galaxyClassificationComparison.png|300px|thumb|left|Точность классификации различных алгоритмов на данных Galaxy Zoo<ref>arXiv:1901.07047 [astro-ph.IM]</ref>]] ====Выявление аномалий====Интересной возможностью некоторых классификаторов является способ с помощью них найти объекты, которые трудно поддаются классификации, соответственно, могут принадлежать к новым, неизученным типам галактик. Рассмотрим в качестве примера случайные леса. Случайные леса могут быть использованы для определения некоей меры схожести объектов без меток<ref>Shi, T., & Horvath, S. 2006, Journal ofComputational and Graphical Statistics, 15, 118</ref>.Чтобы перейти от задачи обучения без учителя к задаче обучения с учителем,которую можно решать с помощью случайного леса, применяется следующая идея: # Пусть набор данных имеет вид таблицы <tex>N \cdot M</tex>, где каждая строка представляет объект с <tex>M</tex> признаками. Построим другую матрицу размера <tex>N \cdot M</tex>, где значениями каждого столбца будет выборка из частного распределения соответствующего признака в исходном наборе данных. Такая матрица называется синтетическим набором данных (англ. ''synhtetic dataset''). Альтернативным вариантом построения такой матрицы является случайная перестановка каждого столбца исходной матрицы.# Пометим каждый объект исходного набора данных как принадлежащий классу <tex>A</tex>, а каждый объект синтетического набора данных как принадлежащий классу <tex>B</tex>. Обучим случайный лес на этой выборке. На этом этапе случайный лес способен определять наличие ковариации, ведь она присутствует только в исходном наборе данных. Как следствие, самыми важными признаками объектов будут являться признаки, имеющие корреляцию с другими. Расстояние между объектами определяется следующим образом:Каждая пара объектов передается во все решающие деревья случайного леса, и их схожесть описывается как количество деревьев, которые классифицировали оба объекта как принадлежащие классу <tex>A</tex>, причем оба объекта должны достигнуть одного и того же листа в дереве. Таким методом можно пользоваться, например, для нахождения в больших объемах данных объектов, не похожих на большинство других, для отдельного их изучения. В частности, с помощью такого алгоритма можно найти необычные типы галактик<ref>Baron, D., & Poznanski, D. 2017, MNRAS, 465,4530</ref>. === Анализ астрономических явлений по спектральным данным======= Классификация корональных выбросов массы====[[Файл:CoronalMassParams.png|300px|thumb|right|Признаки, использующиеся для классификации корональных выбросов массы]]Машинное обучение может быть ~~использован~~ использовано для классификации<ref>''Qu, M., Shih, F.Y., Jing, J. et al.'' Automatic Detection and Classification of Coronal Mass Ejections. Sol Phys 237, 419–431 (2006)</ref> [https://ru.wikipedia.com/Корональные_выбросы_массы корональных выбросов массы], определения их силы, источника и направления . Метод состоит в выборке определенного набора параметров выброса по данным спектрометрического коронографа [https://en.wikipedia.org/wiki/Large_Angle_and_Spectrometric_Coronagraph LASCO], а затем применения к этим данным метода опорных векторов. Работа имеет большое практическое значение, так как корональные выбросы массы могут прерывать радиопередачу, наносить повреждения спутникам и линиям электропередачи, если они направлены в сторону Земли и имеют достаточную скорость и объем, чтобы достичь ее атмосферы<ref>https://en.wikipedia.org/wiki/Coronal_mass_ejection</ref>. === Изучение астрономических параметров ======= Красное смещение ==== [[Файл:DistanceByRedshift.png|300px|thumb|right|Зависимость расстояния от красного смещения]][https://ru.wikipedia.org/wiki/Красное_смещение Красное смещение] (англ. ''redshift'') {{---}} астрономическое явление изменения длина волны наблюдаемого объекта. Важным свойством величины красного смещения является то, что через него, пользуясь законом Хаббла, можно высчитать примерное расстояние до объекта. Соответственно, красное смещение является важным астрономическим параметром, и при исследовании некоторых объектов будет полезным знать эту величину для вычисления других признаков объекта или заключения выводов о каких-либо закономерностях в наличествующих данных. Красное смещение может быть вычислено при помощи спектральных данных объекта (англ. ''spectroscopic redshift''), однако существуют другие методики, позволяющие в некоторых случаях определить примерную величину смещения по фотографии, пользуясь цветовыми характеристиками и яркостью объекта (англ. ''photometric redshift''). Задачу нахождения величины фотометрического красного смещения можно переформулировать как задачу регрессии на соответствующих данных. Для решения такой задачи на популярных астрономических данных может быть использовано множество известных моделей машинного обучения, к примеру, случайные леса<ref> Carliles, S., Budav ́ari, T., Heinis, S., Priebe, C., &Szalay, A. S. 2010, ApJ, 712, 511 </ref>, нейронные сети<ref> Vanzella, E., Cristiani, S., Fontana, A., et al.2004, A&A, 423, 761 </ref> и идеи [[Виды ансамблей#Бэггинг | композиции нескольких моделей]]<ref>https://doi.org/10.1051/0004-6361/201731326</ref>. В настоящее время существуют алгоритмы, основанные на [[Сверточные нейронные сети | сверточных нейронных сетях]], по предсказаниям которых можно восстановить расстояния до галактик, отличающихся от расстояний, вычисленных при помощи значений спектроскопического красного смещения, на несколько мегапарсек<ref>https://doi.org/10.1051/0004-6361/201937382</ref>, что является высокой точностью в астрономических масштабах (примерно 10 процентов от среднего размера [https://ru.wikipedia.org/wiki/Войд войда]) ==== Кривые блеска ==== [https://ru.wikipedia.org/wiki/Кривая_блеска Кривая блеска] (англ. ''light curve'') {{---}} функция изменения звездной величины (в базовом понимании яркости) во времени. Кривая блеска позволяет определить целый ряд физических свойств тела, в частности, период обращения, продолжительность затмения, отношение радиуса звезды к радиусу орбиты тела. Соответственно, разделение кривых блеска на типы позволяет лучше изучить структуры астрономических систем. Классифицировать кривые блеска можно при помощи [[Сверточные нейронные сети | сверточных нейронных сетей]]<ref>Mahabal, A., Sheth, K., Gieseke, F., et al. 2017,ArXiv e-prints, arXiv:1709.06257</ref>. Для этого необходимо представить функцию блеска в виде изображения. Это преобразование проводится следующим образом:# Для каждых двух точек кривой блеска <tex>(t_1, m_1), (t_2, m_2)</tex>, где <tex>t_i</tex> {{---}}} момент времени, <tex>m_i</tex> {{---}}} значение звездной величины, <tex>t_2 - t_1 = k * T</tex>, где <tex>k \in \mathbb{N}</tex>, <tex>T</tex> {{---}} некий временной интервал, пара значений <tex>(t_2 - t_1, m_2 - m_1)</tex> помещается в массив.# Полученные величины <tex>\Delta t, \Delta m</tex> округляются до ближайших из значений <tex>\delta m=\pm[0,0.1,0.2,0.3,0.5,1,1.5,2,2.5,3,5,8], \delta t=[\frac{1}{145},\frac{2}{145},\frac{3}{145},\frac{4}{145},\frac{1}{25},\frac{2}{25},\frac{3}{25},1.5,2.5,3.5,4.5,5.5,7,10,20,30,60,90,120,240,600,960,2000,4000]</tex>, тем самым перемещаясь в пространство <tex>23 * 24</tex>.# Строится изображение размера <tex>23 * 24</tex>, где интенсивность каждого пикселя пропорциональна количеству соответствующего элемента <tex>\Delta t, \Delta m</tex> в полученном выше массиве. [[Файл:PenelopeLightCurve.jpg|200px|thumb|left|Кривая блеска астероида Пенелопа]][[Файл:DmDtCureMapping.jpg|200px|thumb|center|Преобразование кривой блеска в множество точек на плоскости]][[Файл:LightCurveImage.jpg|200px|thumb|right|Изображения для обучения сверточной нейронной сети]] ==== heading ====или для классификации звезд и галактик (возможности отличать первые от вторых).<ref>Kov ́acs, A., & Szapudi, I. 2015, MNRAS, 448,1305</ref>

==== Cлучайные леса ====

=== [[Общие понятия#Классификация задач машинного обучения | Обучение без учителя ]] ===

Алгоритмы обучения без учителя применительно к астрономии имеют особое значение для научных исследований, поскольку они могут быть использованы для извлечения новых знаний из существующих наборов данных и могут способствовать новым открытиям.

~~==== Случайные леса ====~~

Случайные леса могут быть использованы для определения некоей меры схожести объектов без меток<ref>Shi, T., & Horvath, S. 2006, Journal ofComputational and Graphical Statistics, 15, 118</ref>.

Чтобы перейти от задачи обучения без учителя к задаче обучения с учителем,которую можно решать с помощью случайного леса, применяется следующая идея:

# Пусть набор данных имеет вид таблицы <tex>N \cdot M</tex>, где каждая строка представляет объект с <tex>M</tex> признаками. Построим другую матрицу размера <tex>N \cdot M</tex>, где значениями каждого столбца будет выборка из частного распределения соответствующего признака в исходном наборе данных. Такая матрица называется синтетическим набором данных (англ. ''synhtetic dataset''). Альтернативным вариантом построения такой матрицы является случайная перестановка каждого столбца исходной матрицы.

# Пометим каждый объект исходного набора данных как принадлежащий классу <tex>A</tex>, а каждый объект синтетического набора данных как принадлежащий классу <tex>B</tex>. Обучим случайный лес на этой выборке.

На этом этапе случайный лес способен определять наличие ковариации, ведь она присутствует только в исходном наборе данных. Как следствие, самыми важными признаками объектов будут являться признаки, имеющие корреляцию с другими. Расстояние между объектами определяется следующим образом:

Каждая пара объектов передается во все решающие деревья случайного леса, и их схожесть описывается как количество деревьев, которые классифицировали оба объекта как принадлежащие классу <tex>A</tex>, причем оба объекта должны достигнуть одного и того же листа в дереве.

Таким методом можно пользоваться, например, для нахождения в больших объемах данных объектов, не похожих на большинство других, для отдельного их изучения. В частности, с помощью такого алгоритма можно найти необычные типы галактик.<ref>Baron, D., & Poznanski, D. 2017, MNRAS, 465,4530</ref>

==== K-means ====

==== Иерархическая кластеризация ====

[[ Иерархическая кластеризация | Иерархическая кластеризация ]] также применима к астрономическим данным, например, к рентгеновским спектрам, изображениям галактик и спектрам поглощения межзвездного газа.<ref>Hojnacki, S. M., Kastner, J. H., Micela, G.,Feigelson, E. D., & LaLonde, S. M. 2007, ApJ,659, 585</ref><ref>Baron, D., Poznanski, D., Watson, D., et al. 2015,MNRAS, 451, 332</ref><ref>Hocking, A., Geach, J. E., Davey, N., & Sun, Y.2015, ArXiv e-prints: 1507.01589,arXiv:1507.01589</ref><ref>Peth, M. A., Lotz, J. M., Freeman, P. E., et al.2016, MNRAS, 458, 963</ref>

==Примечания==

* [https://arxiv.org/abs/1904.07248 arXiv.org: Machine Learning in Astronomy: a practical overview] {{---}} обзор астрономических работ, связанных с машинным обучением

* https://www.astroml.org/ {{---}} библиотека алгоритмов машинного обучения, заточенная под астрономические данные

* https://github.com/dalya/WeirdestGalaxies {{---}} алгоритм нахождения необычных галактик при помощи случайных лесов

==Источники информации==

* [https://arxiv.org/abs/1904.07248 arXiv.org: Machine Learning in Astronomy: a practical overview]

~~==Cм. также==~~

* https://www.astroml.org/

* https://github.com/dalya/WeirdestGalaxies

Анонимный участник

176.59.15.135

Изменения

Обсуждение участника:Qrort

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты