Изменения

Перейти к: навигация, поиск

Обсуждение участника:Qrort

15 847 байт добавлено, 16:49, 23 января 2021
Нет описания правки
== Машинное обучение в астрономии ==
Астрономия переживает стремительный рост объема и сложности данных. Существует множество проектов, исследующих и собирающих многоспектральные изображения неба, разновременную и многоволновую информацию, например, [https://www.sdss.org/ Слоановский цифровой небесный обзор] (англ. ''Sloan Digital Sky Survey, SDSS]''). Такие проекты предоставляют оцифрованные изображения неба, соответственно, в последние годы алгоритмы машинного обучения становятся все более популярными среди астрономов и в настоящее время используются для решения самых разнообразных задач; причиной этому служит большое количество доступных данных. В этой статье кратко приводится практическая информация о применении инструментов машинного обучения к астрономическим данным.
=== Классификация астрономических объектов по изображениям ===
Наличие в наборах данных большого количества объектов одного типа, но различных подтипов позволяет применить машинное обучение для решения задачи классификации на этих объектах.
==== Морфологическая классификация галактик ====
[[Файл:hubbleTuningFork.pngjpg|300px|thumb|right|Классификация галактик, [https://ru.wikipedia.org/wiki/Последовательность_Хаббла последовательность Хаббла]]]Одной из самых популярных тем классификации является морфологическая классификация галактик(англ. ''Morphology galaxy classification''), позволяющая разделить их на различные типы по визуальным признакам. Для обучения моделей, призванных решать эту задачу, часто используют набор данных [https://data.galaxyzoo.org/ Galaxy Zoo], который является результатом волонтерского сотрудничества (ручной классификации галактик). Существует множество работ на эту тематику, использующих различные алгоритмы машинного обучения, как то: [[ Дерево решений и случайный лес | случайные леса]]<ref>Baron, D., & Poznanski, D. 2017, MNRAS, 465,4530</ref>, [[ Метод_опорных_векторов_(SVM) | метод опорных векторов]]<ref> Huertas-Company, M., Rouan, D., Tasca, L.,Soucail, G., & Le F`evre, O. 2008, A&A, 478,971 </ref>, [[ Нейронные сети, перцептрон | нейронные сети]]<ref> Banerji, M., Lahav, O., Lintott, C. J., et al. 2010,MNRAS, 406, 342 </ref>. Применение подходов машинного обучения в этом случае довольно прямолинейно, а разница между работами состоит в основном в представлении данных, выборе гиперпараметров и признаков классификации. Дополнительной сложностью вышеприведённых и прочих работ на ту же тему являются визуальные ограничения имеющихся изображений, такие, как мерцание, смещение, размытие и [https://ru.wikipedia.org/wiki/Красное_смещение красное смещение]. В настоящее время существуют методы, обеспечивающие вероятность неверной классификации объекта в задаче морфологической классификации галактик в <tex>0.005</tex><ref>Miller, A. A., Kulkarni, M. K., Cao, Y., et al.2017, AJ, 153, 73</ref>.
=== [[Общие понятия#Классификация задач машинного обучения | Обучение с учителем ]] ===В этом разделе рассматриваются алгоритмыЭтой задачей следует заниматься, наиболее часто встречающиеся в научных работах астрономической тематикитак как возможность находить тип галактик необходима для изучения их эволюции, и примеры таких работ.==== Метод опорных векторов ====[[ Метод_опорных_векторов_(SVM) | Метод опорных векторов ]] а также является необходимым умением для множества задач наблюдательной космологии (англ. ''support vector machine, SVMObservational cosmology'') является популярным алгоритмом , например, для решения задач классификациинахождения [https://ru.wikipedia.org/wiki/Кривая_блеска кривых блеска].Астрономы используют метод опорных векторов для определения типа галактик по их морфологическим признакам [[Файл:galaxyClassificationComparison.png|700px|thumb|center|Точность классификации различных алгоритмов на данных Galaxy Zoo<ref>Huertas-CompanyBarchi, MP.H., Rouande Carvalho, DR.R., TascaRosa, LR.R.,SoucailSautter, GR.A., & Le F`evreSoares-Santos, OM. 2008, Marques, B.A&A.D., Clua, 478E.,971</ref>Gonçalves, обучая модели на изображениях далёких галактикT.S. Дополнительной сложностью вышеприведённой и прочих работ на ту же тему являются визуальные ограничения имеющихся изображений, такиеde Sá-Freitas, как мерцаниеC., смещениеMoura, размытие и [https://ruT.wikipediaC.org, 2020, Astronomy and Computing, 30, 100334</wiki/Красное_смещение красное смещениеref>]].
Метод опорных векторов также может быть использован для классификации<ref>''Qu====Выявление аномалий====В астрономии могут использоваться [[ Дополнения конспектов по машинному обучению#Выявление аномалий с помощью случайного леса | методы поиска ]] трудно классифицируемых объектов выборки, M.например, Shihдля нахождения в больших объемах данных объектов, F.Y.не похожих на большинство других, Jing, J. et al.'' Automatic Detection and Classification of Coronal Mass Ejections. Sol Phys 237, 419–431 (2006)</ref> [https://ru.wikipedia.com/Корональные_выбросы_массы корональных выбросов массы], определения для отдельного их силы, источника и направления по данным [https://enизучения.wikipedia.org/wiki/Large_Angle_and_Spectrometric_Coronagraph LASCO]В частности, или для классификации звезд и с помощью такого алгоритма можно найти необычные типы галактик (возможности отличать первые от вторых).<ref>Kov ́acsBaron, AD., & SzapudiPoznanski, ID. 20152017, MNRAS, 448465,13054530</ref>.
==== Cлучайные леса Классификация звезд и галактик====[[Файл:Galaxy Unsupervised galaxy star featuresclassification.png|300px|thumb|right|Список признаков объектаРаспределение звезд, использующийся в классификации звезд галактик и галактикквазаров согласно меткам спектрометрических классов]][[ Дерево решений Классификация звезд и случайный лес | Случайные леса ]] галактик (англ. ''random forestStar Galaxy Classification'') используются для решения задач является базовым шагом любой классификации и регрессиина звездах или галактиках, соответственно, имеет большое практическое значение. В пример можно привести следующие исследованияСуществует много работ на эту тему, связанных с машинным обучением, использующих различные алгоритмы:* Определение величины красного смещения по изображениюслучайный лес<ref>CarlilesMiller, SA. A., Budav ́ariKulkarni, TM., Heinis, SK., PriebeCao, CY., &Szalay, Aet al. S. 20102017, ApJAJ, 712153, 51173</ref>* Классификация, метод опорных векторов<ref>BloomKov ́acs, J. SA., Richards& Szapudi, J. WI.2015, NugentMNRAS, P. E.448, et al.2012, PASP, 1241305</ref>, 1175нейронные сети</ref> кратковременных астрономических событий и [httpsNoble Kennamer, David Kirkby, Alexander Ihler, Francisco Javier Sanchez-Lopez ; Proceedings of the 35th International Conference on Machine Learning, PMLR 80://ru.wikipedia2582-2590, 2018.org/wiki/Переменная_звезда переменных звезд]* Классификация звезд и галактик</ref>Miller, Aалгоритмы кластеризации<ref>C. H. A., Kulkarni, M. KLogan and S.FotopoulouA&A, Cao, Y., et al.2017, AJ, 153, 73633 (2020) A154</ref>.
==== Нейронные сети ====[[ Нейронные сети, перцептрон | Нейронные сети ]] (англ. ''Artificial neural networks, ANN'') используются для решения задач Главная проблема классификации звезд и регрессии. В пример можно привести следующие исследования:* Определение величины [https://en.wikipedia.org/wiki/Photometric_redshift фотометрического красного смещения] галактик<ref>Vanzella, E.состоит в том, Cristianiчто, S.по мере удаления объекта от телескопа различные атмосферные или космогенные эффекты могут повлиять на свет, Fontana, Aкоторый отражается от тела и захватывается телескопом., et al.2004, A&A, 423, 761</ref>* Классификация Детерминированные алгоритмы классификации обычно проверяют звездную величину объекта на соответствие известным шаблонам звезд и галактик<ref>Banerji, Mи работают только с объектом как таковым.В то же время кажется логичным, Lahavчто результат классификации объекта может зависеть не только от того, O.как он выглядит на изображении, Lintottно и от того, C. J.как выглядит на изображении участок неба, et al. 2010в котором он находится (потому что на этот участок,MNRASскорее всего, 406, 342</ref>* Измерение [https://astrobites.org/2014/09/30/measuring-galaxy-star-formation/ скорости звездообразования] галактик<ref>Ellison, S. Lвлияют такие же эффекты искажения изображения).Алгоритмы машинного обучения, Teimooriniaнатренированные на изображениях, Hспособны учесть эти зависимости., Rosario, D. J., &Mendel, J. T. 2016, MNRAS, 458, L34</ref>* Классификация<ref>Mahabal, A., Sheth, K., Gieseke, F., et al. 2017,ArXiv e-prints, arXiv:1709.06257</ref> различных видов [https://ru.wikipedia.org/wiki/Кривая_блеска кривых блеска]* Определения и классификация стадий астрономических феноменов галактик <ref>Huertas-Company, M., Primack, J. R., Dekel, A.,et al. 2018, ApJ, 858, 114</ref>
=== Анализ астрономических явлений по спектральным данным======= Классификация корональных выбросов массы====Машинное обучение может быть использовано для классификации<ref>''Qu, M., Shih, F.Y., Jing, J. et al.'' Automatic Detection and Classification of Coronal Mass Ejections. Sol Phys 237, 419–431 (2006)</ref> [https://ru.wikipedia.org/wiki/Корональные_выбросы_массы корональных выбросов массы] на Солнце, определения их силы, источника и направления. Метод состоит в выборке определенного набора параметров выброса по данным спектрометрического коронографа [Общие понятия#Классификация задач машинного обучения https://en.wikipedia.org/wiki/Large_Angle_and_Spectrometric_Coronagraph LASCO], а затем применения к этим данным метода опорных векторов. В таблице ниже приведены признаки корональных выбросов массы, на которых обучается алгоритм. Здесь <tex dpi="130">A</tex> и <tex dpi="130">A_p</tex> {{---}} области исследуемых изображений.{| class="wikitable"|+ The properties of a CME region! No. || Description of the CME properties|-| 1 || The exposure time of the <tex dpi="130">LASCO </tex> image|-| 2 || The time interval between the current and the previous image|-| 3 || The pixel size of the LASCO image|-| 4 || The mean brightness value of the reference image|-| 5 || The mean brightness value of the current image|-| 6 || The mean brightness value of the running difference|-| 7 || The standard deviation of the running difference|-| 8 || The number of pixels for <tex dpi="130">A</tex>|-| 9 || The threshold for segmentingAfrom the running difference|-| 10 || The maximum height (arcsecs from disk center) of <tex dpi="130">A</tex>|-| 11 || The height of the center of <tex dpi="130">A</tex>|-| 12 || The minimum height of <tex dpi="130">A</tex>|-| 13 || The starting angle of <tex dpi="130">A</tex>. The angle is calculated from North 0 clockwise|-| 14 || The angle of the center of <tex dpi="130">A</tex>|- | 15 || The ending angle of <tex dpi="130">A</tex>|-| 16 || The angular width of <tex dpi="130">A</tex>|-| 17 || The height difference (<tex dpi="130">h_1</tex>) between the maximum height of <tex dpi="130">A</tex> and <tex dpi="130">A_p</tex>|-| 18 || Обучение без учителя ]] The height of the new moving region (<tex dpi="130">h_2</tex>) which is obtained by subtracting <tex dpi="130">A_p</tex> from <tex dpi="130">A</tex>|-| 19 || The speed which is computed using <tex dpi="130">h_1</tex>, divided by the interval time cadence|-| 20 || The speed which is computed using <tex dpi="130">h_2</tex> divided by the interval time cadence|-Алгоритмы обучения без учителя применительно к астрономии имеют особое | 21 || The span width of the new moving region|-| 22 || The center angle of the new moving region|}Работа имеет большое практическое значение для научных исследований, поскольку так как корональные выбросы массы могут прерывать радиопередачу, наносить повреждения спутникам и линиям электропередачи, если они могут быть использованы для извлечения новых знаний из существующих наборов данных направлены в сторону Земли и имеют достаточную скорость и могут способствовать новым открытиямобъем, чтобы достичь ее атмосферы<ref>https://en.wikipedia.org/wiki/Coronal_mass_ejection</ref>.
===Изучение астрономических параметров = Случайные леса ====== Красное смещение ====Случайные леса могут быть использованы для определения некоей меры схожести объектов без меток<ref>Shi, T[[Файл:DistanceByRedshift.png|300px|thumb|right|Зависимость расстояния от красного смещения]][https://ru.wikipedia.org/wiki/Красное_смещение Красное смещение] (англ., & Horvath, S''redshift'') {{---}} астрономическое явление изменения длины волны наблюдаемого объекта. 2006Важным свойством величины красного смещения является то, Journal ofComputational and Graphical Statisticsчто через него, 15пользуясь законом Хаббла, 118</ref>можно высчитать примерное расстояние до объекта.Чтобы перейти от задачи обучения без учителя к задаче обучения с учителемСоответственно,которую можно решать с помощью случайного лесакрасное смещение является важным астрономическим параметром, применяется следующая идея:и при исследовании некоторых объектов будет полезным знать эту величину для вычисления других признаков объекта или заключения выводов о каких-либо закономерностях в наличествующих данных.
# Пусть набор Красное смещение может быть вычислено при помощи спектральных данных объекта (англ. ''spectroscopic redshift''), однако существуют другие методики, позволяющие в некоторых случаях определить примерную величину смещения по фотографии, пользуясь цветовыми характеристиками и яркостью объекта (англ. ''photometric redshift''). Задачу нахождения величины фотометрического красного смещения можно переформулировать как задачу регрессии на соответствующих данных. Для решения такой задачи на популярных астрономических данных имеет вид таблицы может быть использовано множество известных моделей машинного обучения, к примеру, случайные леса<texref>N \cdot MCarliles, S., Budav ́ari, T., Heinis, S., Priebe, C., &Szalay, A. S. 2010, ApJ, 712, 511 </texref>, где каждая строка представляет объект с нейронные сети<texref>MVanzella, E., Cristiani, S., Fontana, A., et al.2004, A&A, 423, 761 </texref> признакамии идеи [[Виды ансамблей#Бэггинг | композиции нескольких моделей]]<ref>A. D’Isanto and K. L. Построим другую матрицу размера Polsterer, A&A, 609 (2018) A111<tex/ref>N \cdot M. В настоящее время существуют алгоритмы, основанные на [[Сверточные нейронные сети | сверточных нейронных сетях]], по предсказаниям которых можно восстановить расстояния до галактик, отличающихся от расстояний, вычисленных при помощи значений спектроскопического красного смещения, на несколько мегапарсек</texref>M. Shuntov, J. Pasquet, S. Arnouts, O. Ilbert, где значениями каждого столбца будет выборка из частного распределения соответствующего признака в исходном наборе данныхM. Treyer, E. Bertin, S. de la Torre, Y. Dubois, D. Fouchez, K. Такая матрица называется синтетическим набором данных (англKraljic, C. ''synhtetic dataset'')Laigle, C. Альтернативным вариантом построения такой матрицы является случайная перестановка каждого столбца исходной матрицыPichon and D.Vibert,# Пометим каждый объект исходного набора данных как принадлежащий классу <tex>A&A, 636 (2020) A90</texref>, а каждый объект синтетического набора данных как принадлежащий классу <tex>B<что является высокой точностью в астрономических масштабах (примерно 10 процентов от среднего размера [https://tex>ru. Обучим случайный лес на этой выборкеwikipedia.org/wiki/Войд войда])
На этом этапе случайный лес способен определять наличие ковариации, ведь она присутствует только в исходном наборе данных. Как следствие, самыми важными признаками объектов будут являться признаки, имеющие корреляцию с другими. Расстояние между объектами определяется следующим образом:Каждая пара объектов передается во все решающие деревья случайного леса, и их схожесть описывается как количество деревьев, которые классифицировали оба объекта как принадлежащие классу <tex>A</tex>, причем оба объекта должны достигнуть одного и того же листа в дереве.==== Кривые блеска ====
Таким методом можно пользоваться[https://ru.wikipedia.org/wiki/Кривая_блеска Кривая блеска] (англ. ''light curve'') {{---}} функция изменения звездной величины (в базовом понимании яркости) во времени. Кривая блеска позволяет определить целый ряд физических свойств тела, напримерв частности, для нахождения в больших объемах данных объектовпериод обращения, не похожих на большинство другихпродолжительность затмения, для отдельного их изученияотношение радиуса звезды к радиусу орбиты тела. В частностиСоответственно, с помощью такого алгоритма можно найти необычные разделение кривых блеска на типы галактик.<ref>Baron, D., & Poznanski, Dпозволяет лучше изучить структуры астрономических систем. 2017, MNRAS, 465,4530</ref>
Классифицировать кривые блеска можно при помощи [[Сверточные нейронные сети | сверточных нейронных сетей]]<ref>Mahabal, A., Sheth, K., Gieseke, F., et al. 2017,ArXiv e-prints, arXiv:1709.06257</ref>. Для этого необходимо представить функцию блеска в виде объекта, на котором можно обучать алгоритм, к примеру, в виде изображения. Это преобразование проводится следующим образом:# Для каждых двух точек кривой блеска <tex>(t_1, m_1), (t_2, m_2)</tex>, где <tex>t_i</tex> {{---}} момент времени, <tex>m_i</tex> {{---}} значение звездной величины, <tex>t_2 - t_1 = k * T</tex>, где <tex>k \in \mathbb{N}</tex>, <tex>T</tex> {{---}} некий временной интервал, пара значений <tex>(t_2 - t_1, m_2 - m_1)</tex> помещается в массив.# Полученные величины <tex>(\Delta t, \Delta m)</tex> округляются до ближайших из значений <tex>\delta m=\pm[0,0.1,0.2,0.3,0.5,1,1.5,2,2.5,3,5,8]</tex>,<br><tex>\delta t=[\frac{1}{145},\frac{2}{145},\frac{3}{145},\frac{4}{145},\frac{1}{25},\frac{2}{25},\frac{3}{25},1.5,2.5,3.5,4.5,5.5,7,10,20,30,60,90,120,240,600,960,2000,4000]</tex>, тем самым перемещаясь в пространство <tex>23 * 24</tex>.# Строится изображение размера <tex>23 * 24</tex>, где интенсивность каждого пикселя пропорциональна количеству соответствующего элемента <tex>(\Delta t, \Delta m)</tex> в полученном выше массиве.После этого на полученных изображениях обучается сверточная нейронная сеть, которая может классифицировать тип кривой блеска с точностью 84.5%.[[Файл:PenelopeLightCurve.png|300px|thumb|left|Кривая блеска астероида Пенелопа]][[Файл:LightCurveImage.png|300px|thumb|right|Изображения для обучения сверточной нейронной сети]][[Файл:DmDtCurveMapping.png|300px|thumb|center|Преобразование кривой блеска в множество точек на плоскости]] === Изучение астрономических явлений=======Кратковременные астрономические явления = K===Ввиду невозможности круглосуточно наблюдать за данными, поступающими с телескопов, вполне вероятной является возможность пропустить или не заметить появление сверхновой или активность [https://ru.wikipedia.org/wiki/Переменная_звезда переменной звезды]. Как следствие, естественной целью оказывается обработка таких событий круглосуточно, в автоматическом режиме. Для классификации астрономических явлений необходимо иметь данные о каком-то участке неба на протяжении какого-то времени. Существуют два подхода, связанные с обработкой последовательностей изображений неба, связанные с машинным обучением:* Закодировать изменения во времени при помощи признаков искусственного объекта, после чего можно обучить классификатор на таких объектах, и результаты получать путем кодирования данных в объекты такого же типа. Классификатор может быть любым, к примеру, можно использовать случайный лес<ref>Bloom, J. S., Richards, J. W., Nugent, P. E., et al.2012, PASP, 124, 1175</ref>.* Использовать алгоритмы, способные обрабатывать последовательности объектов, например, [[ Рекуррентные нейронные сети | рекуррентные нейронные сети]], или, в частности, [[ Долгая краткосрочная память | LSTM]]<ref>Sadeh, I., ArXiv e-prints, arXiv:1902.03620</ref>, которые можно обучить на нескольких последовательных результатах измерения излучения участка неба. В вышеупомянутой работе, к примеру, объектами являются данные о гамма-излучении на протяжении 20 временных интервалов.[[Файл:LSTMforTransients.png|600px|thumb|center|Архитектура рекуррентной нейронной сети для классификации кратковременных событий]] ====Астрономические феномены====Нейронные сети можно использовать для определения и классификация стадий астрономических феноменов галактик <ref>Huertas-Company, M., Primack, J. R., Dekel, A.,et al. 2018, ApJ, 858, 114</ref>, связанных со звездообразованием в них. Особенностью таких задач является необходимость генерировать для них искусственные наборы объектов для обучения ввиду недостаточного количества наблюдаемых феноменов такого типа в реальных данных. === Обучение без учителя ===Алгоритмы [[Общие понятия#Классификация задач машинного обучения | обучения без учителя ]] применительно к астрономии имеют особое значение для научных исследований, поскольку они могут быть использованы для извлечения новых знаний из существующих наборов данных и могут способствовать новым открытиям. ====Классификация гамма-means всплесков====Понятно[[Файл:grb.jpg|300px|thumb|right|Художественное изображение гамма-всплеска]][https://ru.wikipedia.org/wiki/Гамма-всплеск Гамма-всплески] (англ. ''gamma ray bursts'') {{---}} масштабные космические выбросы энергии взрывного характера. На сегодняшний день различают два основных подвида гамма-всплесков: длинные и короткие, имеющие существенные различия в спектрах и наблюдательных проявлениях. Однако, что классические многие авторы указывают на наличие третьего их типа с длиной события между длинными и короткими.Для проверки гипотезы о существовании гамма-всплесков можно использовать алгоритмы [[ Кластеризация | кластеризации также могут быть применены ]]. Достаточно зафиксировать модель, [[Оценка качества в задаче кластеризации | метрику]] и функцию ошибки, и можно будет оценить правдоподобность наличия третьего типа всплесков в каком-либо наборе данных. Было установлено<ref>Kulkarni, S., Desai, S., Astrophys Space Sci 362, 70 (2017)</ref>, что на данных [https://swift.gsfc.nasa.gov/ SWIFT] допущение наличия третьего типа гамма-всплесков уменьшает ошибку в <tex>2.5</tex> раза. ====Изучение данных====Часто кластеризация применяется к астрономическим даннымдля прогресса в их изучении: Для того, чтобы получить новые знания о данных, необходимо их отсортировать и классифицировать. Так, например, [[ Кластеризация#Метод K-средних (Алгоритм Ллойда) | K-means ]] применяется в астрономии в разных контекстах, например, для изучения спектральных классов звезд, галактик и астероидов, рентгеновского спектра объектов и так далее.<ref>Hojnacki, S. M., Kastner, J. H., Micela, G.,Feigelson, E. D., & LaLonde, S. M. 2007, ApJ,659, 585</ref><ref>Galluccio, L., Michel, O., Bendjoya, P., & Slezak,E. 2008, in American Institute of Physics</ref><ref>Simpson, J. D., Cottrell, P. L., & Worley, C. C.2012, MNRAS, 427, 1153</ref>
==== Иерархическая кластеризация ====
[[ Иерархическая кластеризация | Иерархическая кластеризация ]] также применима к астрономическим данным, например, к рентгеновским спектрам, изображениям галактик и спектрам поглощения межзвездного газа.<ref>Hojnacki, S. M., Kastner, J. H., Micela, G.,Feigelson, E. D., & LaLonde, S. M. 2007, ApJ,659, 585</ref><ref>Baron, D., Poznanski, D., Watson, D., et al. 2015,MNRAS, 451, 332</ref><ref>Hocking, A., Geach, J. E., Davey, N., & Sun, Y.2015, ArXiv e-prints: 1507.01589,arXiv:1507.01589</ref><ref>Peth, M. A., Lotz, J. M., Freeman, P. E., et al.2016, MNRAS, 458, 963</ref>
 
==См. также==
* [[Глубокое обучение | Глубокое обучение]]
* [[Уменьшение размерности | Уменьшение размерности ]]
* [[Машинное обучение в медицине | Машинное обучение в медицине]]
==Примечания==
* [https://arxiv.org/abs/1904.07248 arXiv.org: Machine Learning in Astronomy: a practical overview]{{---}} обзор астрономических работ, связанных с машинным обучением* https://www.astroml.org/{{---}} библиотека алгоритмов машинного обучения, заточенная под астрономические данные* https://github.com/dalya/WeirdestGalaxies{{---}} алгоритм нахождения необычных галактик при помощи случайных лесов
==Источники информации==
<references />
104
правки

Навигация