104
правки
Изменения
Нет описания правки
== Машинное обучение в астрономии ==
Астрономия переживает стремительный рост объема и сложности данных. Существует множество проектов, исследующих и собирающих многоспектральные изображения неба, разновременную и многоволновую информацию, например, [https://www.sdss.org/ Слоановский цифровой небесный обзор] (англ. ''Sloan Digital Sky Survey, SDSS]''). Такие проекты предоставляют оцифрованные изображения неба, соответственно, в последние годы алгоритмы машинного обучения становятся все более популярными среди астрономов и в настоящее время используются для решения самых разнообразных задач; причиной этому служит большое количество доступных данных. В этой статье кратко приводится практическая информация о применении инструментов машинного обучения к астрономическим данным.
=== Классификация астрономических объектов по изображениям ===
==== Морфологическая классификация галактик ====
[[Файл:hubbleTuningFork.jpg|300px|thumb|right|Классификация галактик, [https://ru.wikipedia.org/wiki/Последовательность_Хаббла последовательность Хаббла]]]
Одной из самых популярных тем классификации является морфологическая классификация галактик(англ. ''Morphology galaxy classification''), позволяющая разделить их на различные типы по визуальным признакам. Для обучения моделей, призванных решать эту задачу, часто используют набор данных [https://data.galaxyzoo.org/ Galaxy Zoo], который является результатом волонтерского сотрудничества (ручной классификации галактик). Существует множество работ на эту тематику, использующих различные алгоритмы машинного обучения, как то: [[ Дерево решений и случайный лес | случайные леса]]<ref>https://arxivBaron, D.org/pdf/1611, & Poznanski, D.07526.pdf2017, MNRAS, 465,4530</ref>, [[ Метод_опорных_векторов_(SVM) | метод опорных векторов]]<ref> Huertas-Company, M., Rouan, D., Tasca, L.,Soucail, G., & Le F`evre, O. 2008, A&A, 478,971 </ref>, [[ Нейронные сети, перцептрон | нейронные сети]]<ref> Banerji, M., Lahav, O., Lintott, C. J., et al. 2010,MNRAS, 406, 342 </ref>. Применение подходов машинного обучения в этом случае довольно прямолинейно, а разница между работами состоит в основном в представлении данных, выборе гиперпараметров и признаков классификации. Дополнительной сложностью вышеприведённых и прочих работ на ту же тему являются визуальные ограничения имеющихся изображений, такие, как мерцание, смещение, размытие и [https://ru.wikipedia.org/wiki/Красное_смещение красное смещение]. В настоящее время существуют методы, обеспечивающие вероятность неверной классификации объекта в задаче морфологической классификации галактик в <tex>0.005</tex><ref>Miller, A. A., Kulkarni, M. K., Cao, Y., et al.2017, AJ, 153, 73</ref>.
Этой задачей следует заниматься, так как возможность находить тип галактик необходима для изучения их эволюции, а также является необходимым умением для множества задач наблюдательной космологии (англ. ''Observational cosmology''), например, для нахождения красного смещения и [https://ru.wikipedia.org/wiki/Кривая_блеска кривых блеска]. Ещё одной интересной возможностью применения таких работ является способ таким образом найти объекты, которые трудно поддаются классификации, соответственно, могут принадлежать к новым, неизученным типам галактик.[[Файл:galaxyClassificationComparison.png|300px700px|thumb|leftcenter|Точность классификации различных алгоритмов на данных Galaxy Zoo<ref>arXiv:1901Barchi, P.H., de Carvalho, R.R., Rosa, R.R., Sautter, R.A., Soares-Santos, M., Marques, B.A.D., Clua, E., Gonçalves, T.S.07047 [astro, de Sá-phFreitas, C., Moura, T.IM]C., 2020, Astronomy and Computing, 30, 100334</ref>]]<br>
====Выявление аномалий====
В астрономии могут использоваться [[ Дополнения конспектов по машинному обучению#Выявление аномалий с помощью случайного леса | методы поиска ]] трудно классифицируемых объектов выборки, например, для нахождения в больших объемах данных объектов, не похожих на большинство других, для отдельного их изучения. В частности, с помощью такого алгоритма можно найти необычные типы галактик<ref>Baron, D., & Poznanski, D. 2017, MNRAS, 465,4530</ref>.
====Классификация звезд и галактик====
[[Файл:Unsupervised galaxy star classification.png|300px|thumb|right|Распределение звезд, галактик и квазаров согласно меткам спектрометрических классов]]
Классификация звезд и галактик (англ. ''Star Galaxy Classification'') является базовым шагом любой классификации на звездах или галактиках, соответственно, имеет большое практическое значение. Существует много работ на эту тему, связанных с машинным обучением, использующих различные алгоритмы: случайный лес<ref>Miller, A. A., Kulkarni, M. K., Cao, Y., et al.2017, AJ, 153, 73</ref>, метод опорных векторов<ref>Kov ́acs, A., & Szapudi, I. 2015, MNRAS, 448,1305</ref>, нейронные сети<ref>Noble Kennamer, David Kirkby, Alexander Ihler, Francisco Javier Sanchez-Lopez ; Proceedings of the 35th International Conference on Machine Learning, PMLR 80:2582-2590, 2018.
</ref>, алгоритмы кластеризации<ref>C. H. A. Logan and S. Fotopoulou
A&A, 633 (2020) A154</ref>.
Главная проблема классификации звезд и галактик состоит в том, что, по мере удаления объекта от телескопа различные атмосферные или космогенные эффекты могут повлиять на свет, который отражается от тела и захватывается телескопом. Детерминированные алгоритмы классификации обычно проверяют звездную величину объекта на соответствие известным шаблонам звезд и галактик и работают только с объектом как таковым. В то же время кажется логичным, что результат классификации объекта может зависеть не только от того, как он выглядит на изображении, но и от того, как выглядит на изображении участок неба, в котором он находится (потому что на этот участок, скорее всего, влияют такие же эффекты искажения изображения). Алгоритмы машинного обучения, натренированные на изображениях, способны учесть эти зависимости.
=== Анализ астрономических явлений по спектральным данным===
==== Классификация корональных выбросов массы====
=== Изучение астрономических параметров ======= Cлучайные леса Красное смещение ====[[Файл:Galaxy star featuresDistanceByRedshift.png|300px|thumb|right|Список признаков объекта, использующийся в классификации звезд и галактикЗависимость расстояния от красного смещения]][[ Дерево решений и случайный лес | Случайные леса ]https://ru.wikipedia.org/wiki/Красное_смещение Красное смещение] (англ. ''random forestredshift'') используются для решения задач классификации и регрессии{{---}} астрономическое явление изменения длины волны наблюдаемого объекта. В пример можно привести следующие исследования:* Определение Важным свойством величины красного смещения по изображению<ref>Carlilesявляется то, S.что через него, Budav ́ariпользуясь законом Хаббла, T., Heinis, S., Priebe, C., &Szalay, A. S. 2010, ApJ, 712, 511</ref>* Классификация<ref>Bloom, J. S., Richards, J. Wможно высчитать примерное расстояние до объекта.Соответственно, Nugentкрасное смещение является важным астрономическим параметром, P. E., et al.2012, PASP, 124, 1175</ref> кратковременных астрономических событий и [https://ru.wikipedia.org/wiki/Переменная_звезда переменных звезд]* Классификация звезд и галактик<ref>Miller, A. A., Kulkarni, Mпри исследовании некоторых объектов будет полезным знать эту величину для вычисления других признаков объекта или заключения выводов о каких-либо закономерностях в наличествующих данных. K., Cao, Y., et al.2017, AJ, 153, 73</ref>
=== [[Общие понятия#Классификация задач машинного обучения | Обучение без учителя ]] = Кривые блеска ====Алгоритмы обучения без учителя применительно к астрономии имеют особое значение для научных исследований, поскольку они могут быть использованы для извлечения новых знаний из существующих наборов данных и могут способствовать новым открытиям.
Классифицировать кривые блеска можно при помощи [[Сверточные нейронные сети | сверточных нейронных сетей]]<ref>Mahabal, A., Sheth, K., Gieseke, F., et al. 2017,ArXiv e-prints, arXiv:1709.06257</ref>. Для этого необходимо представить функцию блеска в виде объекта, на котором можно обучать алгоритм, к примеру, в виде изображения. Это преобразование проводится следующим образом:# Пусть набор данных имеет вид таблицы Для каждых двух точек кривой блеска <tex>N \cdot M(t_1, m_1), (t_2, m_2)</tex>, где каждая строка представляет объект с <tex>Mt_i</tex> {{---}} момент времени, <tex>m_i</tex> {{---}} значение звездной величины, <tex>t_2 - t_1 = k * T</tex> признаками. Построим другую матрицу размера , где <tex>k \in \mathbb{N \cdot M}</tex>, <tex>T</tex>{{---}} некий временной интервал, пара значений <tex>(t_2 - t_1, где значениями каждого столбца будет выборка из частного распределения соответствующего признака m_2 - m_1)</tex> помещается в исходном наборе данныхмассив. Такая матрица называется синтетическим набором данных # Полученные величины <tex>(англ\Delta t, \Delta m)</tex> округляются до ближайших из значений <tex>\delta m=\pm[0,0.1,0.2,0.3,0.5,1,1.5,2,2.5,3,5,8]</tex>,<br><tex>\delta t=[\frac{1}{145},\frac{2}{145},\frac{3}{145},\frac{4}{145},\frac{1}{25},\frac{2}{25},\frac{3}{25},1.5,2.5,3.5,4. ''synhtetic dataset'')5,5. Альтернативным вариантом построения такой матрицы является случайная перестановка каждого столбца исходной матрицы5,7,10,20,30,60,90,120,240,600,960,2000,4000]</tex>, тем самым перемещаясь в пространство <tex>23 * 24</tex>.# Пометим каждый объект исходного набора данных как принадлежащий классу Строится изображение размера <tex>A23 * 24</tex>, а каждый объект синтетического набора данных как принадлежащий классу где интенсивность каждого пикселя пропорциональна количеству соответствующего элемента <tex>B(\Delta t, \Delta m)</tex>в полученном выше массиве. Обучим случайный лес После этого на этой выборкеполученных изображениях обучается сверточная нейронная сеть, которая может классифицировать тип кривой блеска с точностью 84.5%.[[Файл:PenelopeLightCurve.png|300px|thumb|left|Кривая блеска астероида Пенелопа]][[Файл:LightCurveImage.png|300px|thumb|right|Изображения для обучения сверточной нейронной сети]][[Файл:DmDtCurveMapping.png|300px|thumb|center|Преобразование кривой блеска в множество точек на плоскости]]
==== KАстрономические феномены====Нейронные сети можно использовать для определения и классификация стадий астрономических феноменов галактик <ref>Huertas-Company, M., Primack, J. R., Dekel, A.,et al. 2018, ApJ, 858, 114</ref>, связанных со звездообразованием в них. Особенностью таких задач является необходимость генерировать для них искусственные наборы объектов для обучения ввиду недостаточного количества наблюдаемых феноменов такого типа в реальных данных. === Обучение без учителя ===Алгоритмы [[Общие понятия#Классификация задач машинного обучения | обучения без учителя ]] применительно к астрономии имеют особое значение для научных исследований, поскольку они могут быть использованы для извлечения новых знаний из существующих наборов данных и могут способствовать новым открытиям. ====Классификация гамма-means всплесков====Понятно[[Файл:grb.jpg|300px|thumb|right|Художественное изображение гамма-всплеска]][https://ru.wikipedia.org/wiki/Гамма-всплеск Гамма-всплески] (англ. ''gamma ray bursts'') {{---}} масштабные космические выбросы энергии взрывного характера. На сегодняшний день различают два основных подвида гамма-всплесков: длинные и короткие, что классические имеющие существенные различия в спектрах и наблюдательных проявлениях. Однако, многие авторы указывают на наличие третьего их типа с длиной события между длинными и короткими.Для проверки гипотезы о существовании гамма-всплесков можно использовать алгоритмы [[ Кластеризация | кластеризации также могут быть применены ]]. Достаточно зафиксировать модель, [[Оценка качества в задаче кластеризации | метрику]] и функцию ошибки, и можно будет оценить правдоподобность наличия третьего типа всплесков в каком-либо наборе данных. Было установлено<ref>Kulkarni, S., Desai, S., Astrophys Space Sci 362, 70 (2017)</ref>, что на данных [https://swift.gsfc.nasa.gov/ SWIFT] допущение наличия третьего типа гамма-всплесков уменьшает ошибку в <tex>2.5</tex> раза. ====Изучение данных====Часто кластеризация применяется к астрономическим даннымдля прогресса в их изучении: Для того, чтобы получить новые знания о данных, необходимо их отсортировать и классифицировать. Так, например, [[ Кластеризация#Метод K-средних (Алгоритм Ллойда) | K-means ]] применяется в астрономии в разных контекстах, например, для изучения спектральных классов звезд, галактик и астероидов, рентгеновского спектра объектов и так далее.<ref>Hojnacki, S. M., Kastner, J. H., Micela, G.,Feigelson, E. D., & LaLonde, S. M. 2007, ApJ,659, 585</ref><ref>Galluccio, L., Michel, O., Bendjoya, P., & Slezak,E. 2008, in American Institute of Physics</ref><ref>Simpson, J. D., Cottrell, P. L., & Worley, C. C.2012, MNRAS, 427, 1153</ref>
[[ Иерархическая кластеризация | Иерархическая кластеризация ]] также применима к астрономическим данным, например, к рентгеновским спектрам, изображениям галактик и спектрам поглощения межзвездного газа.<ref>Hojnacki, S. M., Kastner, J. H., Micela, G.,Feigelson, E. D., & LaLonde, S. M. 2007, ApJ,659, 585</ref><ref>Baron, D., Poznanski, D., Watson, D., et al. 2015,MNRAS, 451, 332</ref><ref>Hocking, A., Geach, J. E., Davey, N., & Sun, Y.2015, ArXiv e-prints: 1507.01589,arXiv:1507.01589</ref><ref>Peth, M. A., Lotz, J. M., Freeman, P. E., et al.2016, MNRAS, 458, 963</ref>
==См. также==
* [[Глубокое обучение | Глубокое обучение]]
* [[Уменьшение размерности | Уменьшение размерности ]]
* [[Машинное обучение в медицине | Машинное обучение в медицине]]
==Примечания==