104
правки
Изменения
Нет описания правки
[[Категория: Машинное обучение]]
[[Категория: Практическое применение машинного обучения]]
== Машинное обучение в астрономии ==
Астрономия переживает стремительный рост объема и сложности данных. Существует множество проектов, исследующих и собирающих многоспектральные изображения неба, разновременную и многоволновую информацию, например, [https://www.sdss.org/ Слоановский цифровой небесный обзор] (англ. ''Sloan Digital Sky Survey, SDSS]''). СоответственноТакие проекты предоставляют оцифрованные изображения неба, соответственно, в последние годы алгоритмы машинного обучения становятся все более популярными среди астрономов и в настоящее время используются для решения самых разнообразных задач; причиной этому служит большое количество доступных данных. В этой статье кратко приводится практическая информация о применении инструментов машинного обучения к астрономическим данным.
=== [[Общие понятия#Классификация задач машинного обучения | Обучение с учителем ]] астрономических объектов по изображениям ===В этом разделе рассматриваются алгоритмы, наиболее часто встречающиеся Наличие в научных работах астрономической тематикинаборах данных большого количества объектов одного типа, и примеры таких работно различных подтипов позволяет применить машинное обучение для решения задачи классификации на этих объектах.==== Метод опорных векторов Морфологическая классификация галактик ====[[ Метод_опорных_векторов_(SVM) Файл:hubbleTuningFork.jpg|300px|thumb|right| Метод опорных векторов Классификация галактик, [https://ru.wikipedia.org/wiki/Последовательность_Хаббла последовательность Хаббла]]] Одной из самых популярных тем классификации является морфологическая классификация галактик (англ. ''support vector machine, SVMMorphology galaxy classification'') , позволяющая разделить их на различные типы по визуальным признакам. Для обучения моделей, призванных решать эту задачу, часто используют набор данных [https://data.galaxyzoo.org/ Galaxy Zoo], который является популярным алгоритмом для решения задач результатом волонтерского сотрудничества (ручной классификациигалактик). Существует множество работ на эту тематику, использующих различные алгоритмы машинного обучения, как то: [[ Дерево решений и случайный лес | случайные леса]]<ref>Baron, D., & Poznanski, D.Астрономы используют 2017, MNRAS, 465,4530</ref>, [[ Метод_опорных_векторов_(SVM) | метод опорных векторов для определения типа галактик по их морфологическим признакам ]]<ref>Huertas-Company, M., Rouan, D., Tasca, L.,Soucail, G., & Le F`evre, O. 2008, A&A, 478,971</ref>, обучая модели на изображениях далёких галактик[[ Нейронные сети, перцептрон | нейронные сети]]<ref> Banerji, M., Lahav, O., Lintott, C. J., et al. 2010,MNRAS, 406, 342 </ref>. Применение подходов машинного обучения в этом случае довольно прямолинейно, а разница между работами состоит в основном в представлении данных, выборе гиперпараметров и признаков классификации. Дополнительной сложностью вышеприведённой вышеприведённых и прочих работ на ту же тему являются визуальные ограничения имеющихся изображений, такие, как мерцание, смещение, размытие и [https://ru.wikipedia.org/wiki/Красное_смещение красное смещение]. В настоящее время существуют методы, обеспечивающие вероятность неверной классификации объекта в задаче морфологической классификации галактик в <tex>0.005</tex><ref>Miller, A. A., Kulkarni, M. K., Cao, Y., et al.2017, AJ, 153, 73</ref>.
==== Cлучайные леса Выявление аномалий====В астрономии могут использоваться [[Файл:Galaxy star features.png|300px|thumbДополнения конспектов по машинному обучению#Выявление аномалий с помощью случайного леса |right|Список признаков объекта, использующийся в классификации звезд и галактикметоды поиска ]][[ Дерево решений и случайный лес | Случайные леса ]] (англ. ''random forest'') используются для решения задач классификации и регрессии. В пример можно привести следующие исследования:* Определение величины красного смещения по изображению<ref>Carliles, S.трудно классифицируемых объектов выборки, Budav ́ariнапример, T.для нахождения в больших объемах данных объектов, Heinisне похожих на большинство других, Sдля отдельного их изучения.В частности, Priebe, C., &Szalay, A. S. 2010, ApJ, 712, 511</ref>* Классификация<ref>Bloom, J. S., Richards, J. W., Nugent, P. E., et al.2012, PASP, 124, 1175</ref> кратковременных астрономических событий и [https://ru.wikipedia.org/wiki/Переменная_звезда переменных звезд]* Классификация звезд и с помощью такого алгоритма можно найти необычные типы галактик<ref>MillerBaron, A. AD., Kulkarni& Poznanski, M. K., Cao, Y., et alD.2017, AJMNRAS, 153465, 734530</ref>.
==== Нейронные сети Классификация звезд и галактик====[[ Нейронные сетиФайл:Unsupervised galaxy star classification.png|300px|thumb|right|Распределение звезд, перцептрон | Нейронные сети галактик и квазаров согласно меткам спектрометрических классов]] Классификация звезд и галактик (англ. ''Artificial neural networks, ANNStar Galaxy Classification'') используются для решения задач является базовым шагом любой классификации и регрессиина звездах или галактиках, соответственно, имеет большое практическое значение. В пример можно привести следующие исследования:* Определение величины [httpsСуществует много работ на эту тему, связанных с машинным обучением, использующих различные алгоритмы://en.wikipedia.org/wiki/Photometric_redshift фотометрического красного смещения] галактикслучайный лес<ref>VanzellaMiller, E., Cristiani, SA., Fontana, A., et al.2004, A&A, 423, 761</ref>* Классификация галактик<ref>BanerjiKulkarni, M., Lahav, OK., LintottCao, C. JY., et al. 20102017,MNRASAJ, 406153, 34273</ref>* Измерение [https://astrobites.org/2014/09/30/measuring-galaxy-star-formation/ скорости звездообразования] галактик, метод опорных векторов<ref>EllisonKov ́acs, S. L., Teimoorinia, H., Rosario, D. JA., &MendelSzapudi, JI. T. 20162015, MNRAS, 458448, L341305</ref>* Классификация, нейронные сети<ref>MahabalNoble Kennamer, A.David Kirkby, ShethAlexander Ihler, K.Francisco Javier Sanchez-Lopez ; Proceedings of the 35th International Conference on Machine Learning, Gieseke, F., et al. 2017,ArXiv ePMLR 80:2582-prints2590, arXiv:17092018.06257</ref> различных видов [https://ru.wikipedia.org/wiki/Кривая_блеска кривых блеска]* Определения и классификация стадий астрономических феноменов галактик , алгоритмы кластеризации<ref>Huertas-Company, MC., Primack, JH. R., Dekel, A.,et alLogan and S. 2018FotopoulouA&A, ApJ, 858, 114633 (2020) A154</ref>.
===Анализ астрономических явлений по спектральным данным= Случайные леса ====== Классификация корональных выбросов массы====Случайные леса могут Машинное обучение может быть использованы использовано для определения некоей меры схожести объектов без метокклассификации<ref>Shi''Qu, TM., & HorvathShih, SF.Y. , Jing, J. et al.'' Automatic Detection and Classification of Coronal Mass Ejections. Sol Phys 237, 419–431 (2006)</ref> [https://ru.wikipedia.org/wiki/Корональные_выбросы_массы корональных выбросов массы] на Солнце, Journal ofComputational определения их силы, источника и направления. Метод состоит в выборке определенного набора параметров выброса по данным спектрометрического коронографа [https://en.wikipedia.org/wiki/Large_Angle_and_Spectrometric_Coronagraph LASCO], а затем применения к этим данным метода опорных векторов. В таблице ниже приведены признаки корональных выбросов массы, на которых обучается алгоритм. Здесь <tex dpi="130">A</tex> и <tex dpi="130">A_p</tex> {{---}} области исследуемых изображений.{| class="wikitable"|+ The properties of a CME region! No. || Description of the CME properties|-| 1 || The exposure time of the <tex dpi="130">LASCO </tex> image|-| 2 || The time interval between the current and Graphical Statistics, the previous image|-| 3 || The pixel size of the LASCO image|-| 4 || The mean brightness value of the reference image|-| 5 || The mean brightness value of the current image|-| 6 || The mean brightness value of the running difference|-| 7 || The standard deviation of the running difference|-| 8 || The number of pixels for <tex dpi="130">A</tex>|-| 9 || The threshold for segmentingAfrom the running difference|-| 10 || The maximum height (arcsecs from disk center) of <tex dpi="130">A</tex>|-| 11 || The height of the center of <tex dpi="130">A</tex>|-| 12 || The minimum height of <tex dpi="130">A</tex>|-| 13 || The starting angle of <tex dpi="130">A</tex>. The angle is calculated from North 0 clockwise|-| 14 || The angle of the center of <tex dpi="130">A</tex>|- | 15|| The ending angle of <tex dpi="130">A</tex>|-| 16 || The angular width of <tex dpi="130">A</tex>|-| 17 || The height difference (<tex dpi="130">h_1</tex>) between the maximum height of <tex dpi="130">A</tex> and <tex dpi="130">A_p</tex>|-| 18 || The height of the new moving region (<tex dpi="130">h_2</tex>) which is obtained by subtracting <tex dpi="130">A_p</tex> from <tex dpi="130">A</tex>|-| 19 || The speed which is computed using <tex dpi="130">h_1</tex>, 118divided by the interval time cadence|-| 20 || The speed which is computed using <tex dpi="130">h_2</reftex>.divided by the interval time cadence|-| 21 || The span width of the new moving region|-| 22 || The center angle of the new moving region|}Чтобы перейти от задачи обучения без учителя к задаче обучения с учителемРабота имеет большое практическое значение, так как корональные выбросы массы могут прерывать радиопередачу, наносить повреждения спутникам и линиям электропередачи,которую можно решать с помощью случайного лесаесли они направлены в сторону Земли и имеют достаточную скорость и объем, применяется следующая идеячтобы достичь ее атмосферы<ref>https://en.wikipedia.org/wiki/Coronal_mass_ejection</ref>.
[https://ru.wikipedia.org/wiki/Кривая_блеска Кривая блеска] (англ. ''light curve'') {{---}} функция изменения звездной величины (в базовом понимании яркости) во времени. Кривая блеска позволяет определить целый ряд физических свойств тела, в частности, период обращения, продолжительность затмения, отношение радиуса звезды к радиусу орбиты тела. Соответственно, разделение кривых блеска на типы позволяет лучше изучить структуры астрономических систем. Классифицировать кривые блеска можно при помощи [[Сверточные нейронные сети | сверточных нейронных сетей]]<ref>Mahabal, A., Sheth, K., Gieseke, F., et al. 2017,ArXiv e-prints, arXiv:1709.06257</ref>. Для этого необходимо представить функцию блеска в виде объекта, на котором можно обучать алгоритм, к примеру, в виде изображения. Это преобразование проводится следующим образом:# Для каждых двух точек кривой блеска <tex>(t_1, m_1), (t_2, m_2)</tex>, где <tex>t_i</tex> {{---}} момент времени, <tex>m_i</tex> {{---}} значение звездной величины, <tex>t_2 - t_1 = k * T</tex>, где <tex>k \in \mathbb{N}</tex>, <tex>T</tex> {{---}} некий временной интервал, пара значений <tex>(t_2 - t_1, m_2 - m_1)</tex> помещается в массив.# Полученные величины <tex>(\Delta t, \Delta m)</tex> округляются до ближайших из значений <tex>\delta m=\pm[0,0.1,0.2,0.3,0.5,1,1.5,2,2.5,3,5,8]</tex>,<br><tex>\delta t=[\frac{1}{145},\frac{2}{145},\frac{3}{145},\frac{4}{145},\frac{1}{25},\frac{2}{25},\frac{3}{25},1.5,2.5,3.5,4.5,5.5,7,10,20,30,60,90,120,240,600,960,2000,4000]</tex>, тем самым перемещаясь в пространство <tex>23 * 24</tex>.# Строится изображение размера <tex>23 * 24</tex>, где интенсивность каждого пикселя пропорциональна количеству соответствующего элемента <tex>(\Delta t, \Delta m)</tex> в полученном выше массиве.После этого на полученных изображениях обучается сверточная нейронная сеть, которая может классифицировать тип кривой блеска с точностью 84.5%.[[Файл:PenelopeLightCurve.png|300px|thumb|left|Кривая блеска астероида Пенелопа]][[Файл:LightCurveImage.png|300px|thumb|right|Изображения для обучения сверточной нейронной сети]][[Файл:DmDtCurveMapping.png|300px|thumb|center|Преобразование кривой блеска в множество точек на плоскости]] === Изучение астрономических явлений======= Кратковременные астрономические явления ====Ввиду невозможности круглосуточно наблюдать за данными, поступающими с телескопов, вполне вероятной является возможность пропустить или не заметить появление сверхновой или активность [https://ru.wikipedia.org/wiki/Переменная_звезда переменной звезды]. Как следствие, естественной целью оказывается обработка таких событий круглосуточно, в автоматическом режиме. Для классификации астрономических явлений необходимо иметь данные о каком-то участке неба на протяжении какого-то времени. Существуют два подхода, связанные с обработкой последовательностей изображений неба, связанные с машинным обучением:* Закодировать изменения во времени при помощи признаков искусственного объекта, после чего можно обучить классификатор на таких объектах, и результаты получать путем кодирования данных в объекты такого же типа. Классификатор может быть любым, к примеру, можно использовать случайный лес<ref>Bloom, J. S., Richards, J. W., Nugent, P. E., et al.2012, PASP, 124, 1175</ref>.* Использовать алгоритмы, способные обрабатывать последовательности объектов, например, [[ Рекуррентные нейронные сети | рекуррентные нейронные сети]], или, в частности, [[ Долгая краткосрочная память | LSTM]]<ref>Sadeh, I., ArXiv e-prints, arXiv:1902.03620</ref>, которые можно обучить на нескольких последовательных результатах измерения излучения участка неба. В вышеупомянутой работе, к примеру, объектами являются данные о гамма-излучении на протяжении 20 временных интервалов.[[Файл:LSTMforTransients.png|600px|thumb|center|Архитектура рекуррентной нейронной сети для классификации кратковременных событий]] ====Астрономические феномены====Нейронные сети можно использовать для определения и классификация стадий астрономических феноменов галактик <ref>Huertas-Company, M., Primack, J. R., Dekel, A.,et al. 2018, ApJ, 858, 114</ref>, связанных со звездообразованием в них. Особенностью таких задач является необходимость генерировать для них искусственные наборы объектов для обучения ввиду недостаточного количества наблюдаемых феноменов такого типа в реальных данных. === Обучение без учителя ===Алгоритмы [[Общие понятия#Классификация задач машинного обучения | обучения без учителя ]] применительно к астрономии имеют особое значение для научных исследований, поскольку они могут быть использованы для извлечения новых знаний из существующих наборов данных и могут способствовать новым открытиям. ==== KКлассификация гамма-means всплесков====Понятно[[Файл:grb.jpg|300px|thumb|right|Художественное изображение гамма-всплеска]][https://ru.wikipedia.org/wiki/Гамма-всплеск Гамма-всплески] (англ. ''gamma ray bursts'') {{---}} масштабные космические выбросы энергии взрывного характера. На сегодняшний день различают два основных подвида гамма-всплесков: длинные и короткие, что классические имеющие существенные различия в спектрах и наблюдательных проявлениях. Однако, многие авторы указывают на наличие третьего их типа с длиной события между длинными и короткими.Для проверки гипотезы о существовании гамма-всплесков можно использовать алгоритмы [[ Кластеризация | кластеризации]]. Достаточно зафиксировать модель, [[Оценка качества в задаче кластеризации также могут быть применены | метрику]] и функцию ошибки, и можно будет оценить правдоподобность наличия третьего типа всплесков в каком-либо наборе данных. Было установлено<ref>Kulkarni, S., Desai, S., Astrophys Space Sci 362, 70 (2017)</ref>, что на данных [https://swift.gsfc.nasa.gov/ SWIFT] допущение наличия третьего типа гамма-всплесков уменьшает ошибку в <tex>2.5</tex> раза. ====Изучение данных====Часто кластеризация применяется к астрономическим даннымдля прогресса в их изучении: Для того, чтобы получить новые знания о данных, необходимо их отсортировать и классифицировать. Так, например, [[ Кластеризация#Метод K-средних (Алгоритм Ллойда) | K-means ]] применяется в астрономии в разных контекстах, например, для изучения спектральных классов звезд, галактик и астероидов, рентгеновского спектра объектов и так далее.<ref>Hojnacki, S. M., Kastner, J. H., Micela, G.,Feigelson, E. D., & LaLonde, S. M. 2007, ApJ,659, 585</ref><ref>Galluccio, L., Michel, O., Bendjoya, P., & Slezak,E. 2008, in American Institute of Physics</ref><ref>Simpson, J. D., Cottrell, P. L., & Worley, C. C.2012, MNRAS, 427, 1153</ref>
[[ Иерархическая кластеризация | Иерархическая кластеризация ]] также применима к астрономическим данным, например, к рентгеновским спектрам, изображениям галактик и спектрам поглощения межзвездного газа.<ref>Hojnacki, S. M., Kastner, J. H., Micela, G.,Feigelson, E. D., & LaLonde, S. M. 2007, ApJ,659, 585</ref><ref>Baron, D., Poznanski, D., Watson, D., et al. 2015,MNRAS, 451, 332</ref><ref>Hocking, A., Geach, J. E., Davey, N., & Sun, Y.2015, ArXiv e-prints: 1507.01589,arXiv:1507.01589</ref><ref>Peth, M. A., Lotz, J. M., Freeman, P. E., et al.2016, MNRAS, 458, 963</ref>
==См. также==
* [[Глубокое обучение | Глубокое обучение]]
* [[Уменьшение размерности | Уменьшение размерности ]]
* [[Машинное обучение в медицине | Машинное обучение в медицине]]
==Примечания==
* [https://arxiv.org/abs/1904.07248 arXiv.org: Machine Learning in Astronomy: a practical overview]{{---}} обзор астрономических работ, связанных с машинным обучением* https://www.astroml.org/ {{---}} библиотека алгоритмов машинного обучения, заточенная под астрономические данные* https://github.com/dalya/WeirdestGalaxies {{---}} алгоритм нахождения необычных галактик при помощи случайных лесов
==Источники информации==
<references />