Изменения

← Предыдущая правка

Анализ временных рядов

8754 байта добавлено, 19:11, 4 сентября 2022

м

rollbackEdits.php mass rollback

Временные ряды {{---}} это актуальный инструмент ~~применимые~~ , применимый во множестве решений, от предсказания цен на акции, прогнозов погоды, планирования бизнеса, до распределения ресурсов. Несмотря на то, что прогнозирование может быть сведено к построению контролируемой [[Вариации регрессии|регрессии]], существуют ~~особенноссти~~особенности, связанные с временным характером наблюдений, которые необходимо учитывать, используя специальные инструменты.

==Временной ряд==

~~Обычно временной~~ {{Определение|definition ='''Временно́й ряд ~~представляется как стохастический процесс Y~~(tили ряд динамики)~~, то есть ряд случайных переменных. В момент предсказания мы находимся~~ ''' {{---}} собранный в ~~моменте t и нужно предположить значение Y~~разные моменты времени статистический материал о значении каких-либо параметров (~~t+b~~в простейшем случае одного)~~, использую только информацию, доступную в момент t~~исследуемого процесса. Каждая единица статистического материала называется измерением или отсчётом. Во временном ряде для каждого отсчёта должно быть указано время измерения или номер измерения по порядку.}}

==Как ~~валидировать~~ и ~~тестировать модель временного ряда?==Из-за~~ большинство других видов анализа, анализ временных ~~зависимостей данных~~ рядов предполагает, что данные содержат систематическую составляющую (обычно включающую несколько компонент) и случайный шум (ошибку), который затрудняет обнаружение регулярных компонент. Большинство методов исследования временных рядоввключает различные способы фильтрации шума, ~~мы не можем пользоваться обычными способами валидации~~позволяющие увидеть регулярную составляющую более отчетливо. ~~Чтобы избежать смещения оценки мы должны удостовериться~~Большинство регулярных составляющих временных рядов принадлежит к двум классам: они являются либо трендом, ~~что обучающие наборы данных содержат только наблюдения~~либо сезонной составляющей. Тренд представляет собой общую систематическую линейную или нелинейную компоненту, ~~которые произошли до событий из валидирующий наборов~~которая может изменяться во времени. Сезонная составляющая {{---}} это периодически повторяющаяся компонента. Оба эти вида регулярных компонент часто присутствуют в ряде одновременно.

Возможным способом преодоления данной проблемы будет использование скользящего окна, как описано здесь [https://robjhyndman.com/hyndsight/tscv/]. Эта процедура называется кросс-валидацией ==Валидирование и тестирование модели временного ряда == Данные упорядочены относительно неслучайных моментов времени, и ~~может быть вкратце описано следующей картинкой~~, значит, в ~~которой синие точки обозначают тренировочный набор данных~~отличие от случайных выборок, могут содержать в себе дополнительную информацию, поэтому нельзя пользоваться обычными способами валидации. Чтобы избежать смещения оценки необходимо удостовериться, ~~а красные соответствующие валидационные~~ что обучающие наборы данныхсодержат только наблюдения, которые произошли до событий из валидирующиx наборов. [[Файл:TimeSeriesCross-validation.png~~]] Если мы хотим предсказать следующие n шагов, то можно заранее кросс~~|thumb|left|400px|[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-~~валидировать~~ a2fa7a358fcb Рисунок 1~~,2,...,n шагов~~. Таким образов можно также сравнить качество предсказаний для разных [[временные горизонты|временных горизонтов]Кросс-валидация временного ряда] ~~[на 07.01.21 не создан~~]~~. ~~

~~Определив лучшую модель~~Возможным способом преодоления данной проблемы будет использование скользящего окна, ~~мы можем применить её ко всему обучающему набору~~ как описано [https://robjhyndman.com/hyndsight/tscv/ здесь]. Эта процедура называется [[Кросс-валидация|кросс-валидацией]] временного ряда и ~~оценить его работу на следующем во времени наборе данных. Оценка работы~~ может быть ~~дана с использованием метода скользящего окна~~вкратце описана следующей картинкой (рис. 1), ~~который мы использовали при кросс-валидации~~в которой синие точки обозначают тренировочный набор данных, ~~но без переподсчёта параметром модели~~а красные соответствующие валидационные наборы данных.

~~==Краткое исследование данных==~~В следующей части мы попробуем использовать несколько разных моделей для предсказания изменений в промышленного производстваЕсли необходимо предсказать следующие $n$ шагов, ~~которое будем оценивать численно~~то можно заранее кросс-валидировать $1, ~~как количество электро оборудования~~2, ~~произведённого в зоне Евро~~...,n$. Таким образом можно также сравнить качество предсказаний для разных временных горизонтов.

~~Данные легко получить из пакета~~ Определив лучшую модель, можно применить её ко всему обучающему набору и оценить его работу на следующем во времени наборе данных. Оценка работы может быть дана с использованием метода скользящего окна<ref>[https://~~cran~~wiki.loginom.rru/articles/windowing-~~project~~method.~~org/package=fpp2 fpp2~~html loginom: Метод скользящего окна] ~~в R. Чтобы набор можно было использовать вне R просто запустите следующий код в среде R.~~<br/ref>, который используем при кросс-валидации, но без переподсчёта параметра модели.

~~'''library'''(fpp2)~~==Краткое исследование данных== ~~'''write~~[[Файл:ManufactureOfElectricalEquipment.~~csv'''(elecequip,file = “elecequip~~png|thumb|right|300px|[https://towardsdatascience.~~csv”,row~~com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb Рисунок 2.~~names = FALSE)~~] Набор данных описывающий график производства электрооборудования]]

В данной части используется несколько разных моделей для предсказания изменений в промышленном производстве, которые для примера будем оценивать численно, как количество электрооборудования, произведённого в зоне Евро (рис. 2, 3). [[Файл:SeasonalPlotMonthluSeasonalPattern.png|thumb|right|300px|[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb Рисунок 3.] Сезонные колебания]]Набор данных ~~описиывает~~ описывает ежемесячное производство электрооборудования(компьютеры электрические и оптические приборы) в зоне евро(17 стран) в период с января 1996 по март 2012 года (см. график ниже). Последние два года будем использовать при тестировании.

~~[[Файл:ManufactureOfElectricalEquipment.png]]~~==Модели прогнозирования временных рядов==

~~Временной ряд имеет пик в конце 2000~~ Существует 10 моделей прогнозирования, у каждой имеются свои достоинства и ~~другой в течение 2007~~недостатки. ~~Также наблюдается большой спад в конце 2008 года~~Ниже, ~~который~~используя каждую модель, ~~видимо~~предскажем 12 месяцев, ~~совпал с мировым финансовым кризисом~~соответственно,~~который случился в том же году~~значение $t+1, t+2, …, t + 12$.Имеет смысл использовать среднюю абсолютную ошибку для работы оценки модели.

~~В течение каждого года можно увидеть повторяющийся рисунок, описывающий сезонные колебания~~===Наивное предсказание===[[Файл:NaiveElectricalEquipmentManufacturing. Посмотрим ближе на графики каждого года, чтобы лучше его понять, представим графики в декартовых и полярных координатахpng|thumb|[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb Рисунок 4.] Наивная]]

~~[[Файл:SeasonalPlotMonthluSeasonalPattern.png]]~~Предсказания для каждого горизонта соотвествуют последнему наблюдаемому значению~~[[Файл:PolarSeasonalPlotMonthlyManufactureOfElectricalEquipment~~$Y(t + h|t) = Y(t)$.~~png]]~~

~~Можно наблюдать сильно выраженные сезонные изменения~~Такие предскания предполагают, ~~особенно большой спад в августе~~что стохастическая<ref>[https://ru.wikipedia.org/wiki/Стохастичность Википедия: Стохастичность]</ref> модель генерирует [[Участник:Mk17.ru|случайное блуждание]]. [[Файл:SeasonalNaiveElectricalEquipmentManufacturing.png|thumb|left|[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb Рисунок 5.] Cезонно-наивная]] Расширение наивной модели сезонно-наивная модель (англ. Season Naive, SNAIVE) {{---}} сезонно-наивная модель предполагает, что временной ряд имеет сезонную компоненту, ~~связанный с летними каникулами~~и что период сезонности $T$.

~~==Модели прогнозирования временных рядов==~~

~~#Наивный~~

~~#Разделение по сезонам (+ любая модель)~~

~~#Экспоненциальное сглаживание~~

~~#ARIMA, SARIMA~~

~~#GARCH~~

~~#Динамические линейные модели~~

~~#TBATS~~

~~#Prophet~~

~~#NNETAR~~

~~#LSTM~~

~~Будем предсказывать 12 месяцев, соответсвтенно, значение~~ Прогнозы SNAIVE-модели описываются формулой $\dot{Y}(t+1, h|t~~+2, …,~~ ) = Y(t + 12h-T)$.

~~Будем использовать Среднюю абсолютную ошибку~~Получаемые прогнозы следующие $T$ шагов совпадают с предыдущими $T$ шагами. Эти модели часто используются как ориентировочные модели. Следующий графики показывают предсказания двух моделей для 2007 года (~~MAE~~рис. 4, 5) ~~для оценки работы модели~~.

===~~Наивная~~Разделение по сезонам + любая модель===~~Предсказания для каждого горизонта соотвествуют последнему наблюдаему значению~~[[Файл:STL_docompositionOnIndustrialProductionIndexData.png|thumb|[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb Рисунок 6.] Методы разложения ряда]]<~~code~~br>YЕсли данные показывают, что они восприимчивы к периодическим (~~t + h|t~~сезонным) ~~= Y~~изменениям (tежедневно, еженедельно, ежеквартально, ежегодно), то будет полезным разложить исходный временной ряд на сумму трёх компонентов.<~~/code~~br>.~~Такие предскания предполагают, что стохастическая модель генерирует случайное блуждание.~~

~~Расширирение наивной модели~~ $Y(t) = S(t) + T(t) + R(t)$ $S(t)$ {{- ~~SNAIVE~~ - ~~сезонно~~-~~наивная модель предполагает, что временной ряд имеет сезонную компоненту, и что переиод сезонности~~ }} сезонный компонент. $T(t)$ {{---}} компонент трендового цикла. ~~Прогнозы SNAIVE~~ $R(t)$ {{--- ~~модели описываются формулой~~}} остаток.<~~code~~br>Существуют несколько способов для такого разложения, но наиболее простой называется классическим разложением и заключается в том, чтобы оценить тренд $T(t)$ через скользящее среднее, посчитать $S(t)$, как среднее без тренда $Y*(t~~+h|~~) - T(t)$ для каждого сезона. Посчитать остаток, как $R(t) = Y(t+h) -T(t) -S(t)$. [[Файл:SeasonallyAdjustedIndustrial.png |thumb|left|[https://towardsdatascience.com/~~code~~an-overview-of-time-series-forecasting-models-a2fa7a358fcb Рисунок 7.] Сезонные индексы ряда]]Классическое разложение можно расширить несколькими способами. .Расширение позволяет использовать данный метод при:* непостоянной величине сезона;* посчитать начальные и конечные значения декомпозиции;* избежать лишнего сглаживания;

~~Получаемые прогнозы следующий T шагов совпадают с предыдущими T шагами~~Обзор методов разложений ряда можно увидеть по [https://otexts. ~~Эти модели часто используются как ориентировочные модели~~com/fpp2/decomposition. ~~Следующий график показывает предсказания двух моделей для 2007 года~~html ссылке]. Используется реализация из стандартной библиотеки (рис. 6). ~~[[Файл:NaiveElectricalEquipmentManufacturing.png]][[Файл:SeasonalNaiveElectricalEquipmentManufacturing.png]]~~

~~Модели были имплементированы с помощью встроенных функций naive и snaive~~ Одним из ~~пакета forecast~~ способов использования декомпозиции для прогнозирования будет: 1) Разложить обучающий набор алгоритмом. 2) Посчитать сезонное отклонение ряда $Y(t) - S(t)$, используя любую модель для прогнозирования сезонно-чувствительного временного ряда. 3) Добавить прогнозам сезонность последнего временного периода во временном ряду (в Rнашем случае $S(t)$ для прошлого года). [[Файл:SeasonallyAdjustedTimeSeries.png|right|thumb|[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb Рисунок 8.] Декомпозиция и наивная модель]] На следующем графике показаны сезонные индексы ряда с учётом сезонности (рис. 7).

~~===Разделение по сезонам + любая модель===~~

Если данные показывают, что они воспроиимчивы к периодическим-сезонным изменениям(ежедневно, еженедельно, ежеквартально, ежегодно), то будет полезным разложить исходный временной ряд на сумму трёх компонентов.

~~<code>Y~~Следующий график показывает расчёты для 2007 года с использованием декомпозиции и наивной модели (tрис. 8) ~~= S(t) + T(t) + R(t)</code>~~для сезонно-изменяемого временного ряда. ~~S(t) - сезонный компонентT(t) - компонент трендового циклаR(t) - остаток~~

~~Существуют несколько способов~~ ===Экспоненциальное сглаживание === [[Файл:ExpSmoothing.png|thumb|left|[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb Рисунок 9.] Данные полученные для ~~такого разложения, но~~ 2007 года с использованием модели экспоненциального сглаживания]]Экспоненциальное сглаживание<ref>[https://ru.wikipedia.org/wiki/Экспоненциальное_сглаживание Википедия: Экспоненциальное сглаживание]</ref> {{---}} один из наиболее ~~простой~~ успешных классических методов предсказаний. В своей базовой форме он называется ~~классическим разложением~~ простым экспоненциальный сглаживанием и ~~заключается в том, чтобы~~его прогнозы описываются формулами:~~Оценить тренд T~~$Ŷ(t+h|t) ~~через скользящее среднееПосчитать S~~= ⍺y(t)~~, как среднее без тренда Y~~+ ⍺(1-⍺)y(t-1) + ⍺(1- T⍺)²y(t-2) ~~для каждого сезона~~+ …$ ~~Посчитать остаток~~где''''' $0<⍺<1$ '''''. Если $⍺ = 0$, то текущие наблюдения игнорируются, если же $⍺ = 1$, ~~как~~ то полностью игнорируются предыдущие наблюдения. ~~R(t) = Y(t)~~ [[Файл:ExpSmoothing+Decomposition.png|thumb|right|[https://towardsdatascience.com/an-overview-of-time-series-forecasting- ~~T(t)~~models-~~S(t)~~a2fa7a358fcb Рисунок 10.] Данные полученные для 2007 года, с использованием модели экспоненциального сглаживания и декомпозиции]]

~~Классическое разложение можно расширить несколькими способамиРасширение позволяет использовать данный метод при:~~ *непостоянной величине сезона *посчитать начальные Заметно, что прогнозы равны взвешенному среднему от старых наблюдений, и ~~конечные значение декомпозиции~~ *избежать лишнего сглаживаниячто соответствующие веса убывают экспоненциально по мере хода времени.

Обзор методов разложений ряда можно увидеть по ссылке***ссылка***. Мы воспользуемся реализацией из стандартной библиотекиНекоторые методы для расширения алгоритма позволяют добавить тренд, ~~которая достаточно универсальна~~ его затухание и ~~надёжна~~сезонность.~~ ~~Экспоненциальное сглаживание состоит из 9 моделей, которые подробно описаны [~~[Файл~~https:~~STL_docompositionOnIndustrialProductionIndexData~~//otexts.~~png~~com/fpp2/taxonomy.html здесь]~~] Одним из способов использования декомпозиции для прогнозирования будет:1)разложить обучающий набор алгоритмом из STL~~2)посчитать сезонное отклонение ряда Y(t)-S(t), используя любую модель для прогнозирования сезоно-чувствительного временного ряда3)Добавить прогнозам сезонность последнего временного периода во временном ряду(в нашем случае S(t) для прошлого года).

~~На следующем графике показаны сезонные индексы ряда~~ Следующие графики (рис. 9, 10) описывают прогнозы данных полученные для 2007 года, с ~~учётом сезонности: [[Файл:SeasonallyAdjustedIndustrial~~использованием модели экспоненциального сглаживания (выбраны автоматически), которые подходили исходному и сезонно-чувствительному временному ряду.~~png]]~~

Следующий график показывает предсказания полученные для 2007 года с использованием STL декомпозиции и наивной модели для сезонно-изменяемого временного ряда:===ARIMA, SARIMA=== [[Файл:~~SeasonallyAdjustedTimeSeries~~SARIMA.png|thumb|left|[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb Рисунок 11.] SARIMA]]~~ Декомпозиция была исплементирована с помощью встроенной в стандартную либу функции~~Также как и экспоненциальное сглаживание, интегрированная модель авторегрессии скользящего среднего (англ. autoregressive integrated moving average, ARIMA) также часто используются для прогноза временных рядов.

~~===Экспоненциальное сглаживание ===~~

Экспоненциальное сглаживание {{---}} один из наиболее успешных классических методов предсказаний. В своей базовой форме оно называется простым экспоненциальный сглаживанием и его прогнозы описываются формулами:

~~<code>Ŷ(t+h|t) = ⍺y(t) + ⍺(1-⍺)y(t-1) + ⍺(1-⍺)²y(t-2) + …</code>~~

~~'''''with 0<⍺<1.''''' ~~

~~Заметим~~{{Определение |definition = '''Процесс авторегрессии''' {{---}} последовательная зависимость элементов временного ряда, ~~что прогнозы~~ выразается следующим уравнением:$x(t) = \psi + \phi_1 * x_(t-1) + \phi_2 * x_(t-2) + \phi_3 * x_(t-3) + ... + \epsilon$ Где $\psi$ {{---}} свободный член (константа). $\phi_1, \phi_2, \phi_3, ...$ {{---}} параметры авторегрессии.}}{{Определение|definition ='''Скользящее среднее''' {{---}} общее название для семейства функций, значения которых в каждой точке определения равны ~~взвешеному~~ некоторому среднему ~~от старых наблюдений, и что соответствующие веса убывают экспоненциально по мере хода времени~~значению исходной функции за предыдущий период.}}

~~Некоторые методы для расширения алгоритма позволяют добавить тренд~~{{Определение|definition ='''Процесс скользящего среднего''' {{---}} в процессе скользящего среднего каждый элемент ряда подвержен суммарному воздействию предыдущих ошибок. В общем виде это можно записать следующим образом:$x_t = \mu + \epsilon_t - \theta_1 * \epsilon_{t-1} - \theta_2 * \epsilon_{t-2} - ...$ Где $\mu$ {{---}} константа. $\theta_1, \theta_2, \theta_3, ~~его затухание и сезонность~~...$ {{---}} параметры скользящего среднего.}} [[Файл:SARIMA_Decomposition.png|thumb|right|[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb Рисунок 12.] SARIMA декомпозированная]]ARIMA {{---}} комбинация этих двух подходов. Так как эти подходы требуются стационарности временного ряда, может понадобится продифференциировать/проинтегрировать ряд.~~Экспоненциальное сглаживание состоит из 9 моделей~~То есть рассматировать ряд разностей, ~~которые подробно описаны здесь(ссылка)~~а не исходный ряд.

Следующие графики описывают прогнозы данные полученные для 2007 года с использованием модели экспоненциального сглаживанияСезонная интегрированная модель авторегрессии скользящего среднего (~~выбраны автоматически~~англ. season autoregressive integrated moving average, SARIMA)учитывает сезонность, ~~которые подходили исходному~~ добавляя линейную комбинацию прошлых сезонных значений и ~~сезонно-чувствительному временному ряду~~/или прошлых ошибок прогноза.Более подробную информацию про ARIMA, SARIMA читайте по [https://otexts.com/fpp2/arima.html ссылке].

~~[[Файл:ExpSmoothing~~Данные графики показывают предсказания полученные для 2007 года, с использованием модели SARIMA (рис.~~png]][[Файл:ExpSmoothing+Decomposition.png]]Модели были имплементированы с помощью функции ets в forecast пакете R~~11,12).~~ ~~

===~~ARIMA, SARIMA~~Garch===~~Также как и экспоненциальное сглаживание, ARIMA также часто используются для прогноза временных рядов~~ [[Файл:GARCH.png |thumb|left|[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb Рисунок 13. ~~Название является акронимом AutoRegressive Integrated Moving Average Саморегрессивное интегрированное скользящее среднее~~] ARMA]]

~~Саморегрессивность {{---}} линейная комбинация старых значений.~~ ~~Скользящее среднее {{---}} линейная комбинация прошлых ошибок~~В предыдущих моделях считалось, что слагаемое ошибки в стохастическом процессе генерации временного ряда имело одинаковую дисперсию.

~~ARIMA {{~~В GARСH-~~--}} комбинация этих двух подходов~~модели (англ. Generalized AutoRegressive Conditional Heteroscedasticity, GARCH) предполагается, что слагаемое ошибки следует авторегрессионному скользящему среднему (англ. ~~Так как эти подходы требуют стационарности временного ряда~~AutoRegressive Moving Average, ARMA), ~~может понадобится продифференциировать/проинтегрировать рядТо есть рассматировать ряд разностей~~соответственно слагаемое меняется по ходу времени. Это особенно полезно при моделировании финансовых временных рядов, ~~а не исходный ряд~~так как диапазон изменений тоже постоянно меняется (рис. 13).

~~SARIMA учитывает сезонность~~В 1982 году была предложена ARCH {{---}} модель, ~~добавляя линейную комбинацию прошлых сезонных значений и/или прошлых ошибок прогнозаДля полного ввода в ARIMA, SARIMA читайте по ссылке~~описываемая формулой:

~~Данные графики показывают предсказания полученные для 2007 года с использованием модели SARIMA:~~$\sigma^2(t) = \alpha + \sum_{i = 1}^{\alpha}b_ir^{2}_{t-1}$ ~~[[Файл:SARIMA.png]]~~где $\alpha$ {{---}} коэффициент задержки $\sigma^2(t)$ - волатильность ~~[[Файл:SARIMA_Decomposition~~$\sum_{i = 1}^{\alpha}b_ir^{2}_{t-1}$ - линенйная комбинация абсолютных значений нескольких последних изменений значений.~~png]]~~

~~Имплементация с помощью встроенной в R функции auto~~Позднее была создана GARCH {{---}} обобщённая ARCH модель, которая также учитывает предыдущие оценки дисперсии.~~arima~~Формула может быть записана так:$\sigma^2(t) = \alpha + \sum_{i = 1}^{\alpha}b_ir^{2}_{t-1} \sum_{i = 1}^{p}c_i\sigma^{2}_{t-1}$ где p {{---}} количество предшествующих оценок, влияющих на текущее значение. ~~===Garch===~~В с {{---}} весовые коэффициенты предыдущих моделях мы считали, что слагаемое ошибки в стохастическом процессе генерации временного ряды имели одинаковую дисперсиюоценок.

~~В GARSH-модели мы преполагаем, что слагаемое ошибки следуют~~ Обычно ARMA ~~процессу(саморегрессирующее скользящее среднее)~~используется и для учёта среднего, ~~соответственно слагаемое меняется по ходу времени~~более подробное введение в Garsh и различные варианты можно найти [https://cran.r-project. Это особенно полезно при моделировании финансовых временных рядов, так как диапазон изменений тоже постоянно меняетсяorg/web/packages/rugarch/vignettes/Introduction_to_the_rugarch_package.pdf здесь].

~~Обычно ARMA используется и для учёта среднего, для подробного введения в Garsh модели смотри здесь:~~

~~[[Файл:GARCH.png]] ~~

===Динамические линейные модели===

[[Файл:DLM+Decomposition.png|right|thumb|[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb Рисунок 14.] DLM]] Динамические линейные модели представляют другой класс моделей предсказания временных рядов(рис. 14).Идея заключается в том, что в каждый ~~моменты~~ момент времени $t $ эти модели соответствуют линейной модели, но коэффициент регрессии постоянно меняется. Пример динамической линейной модели ниже: ~~<code>~~$y(t) = ⍺(t) + tβ(t) + w(t)~~</code>~~$, ~~<code>~~$⍺(t) = ⍺(t-1) + m(t)~~</code>~~$, ~~<code>~~$β(t) = β(t-1) + r(t)~~</code>~~$, ~~<code>~~$w(t)$ ~$N(0,W) $, $m(t)$ ~$N(0,M) $, $r(t)$ ~$N(0,R)~~</code>~~$.

В предыдущей модели коэффициенты $a(t) $ и $b(t) $ следуют случайному блужданию. Динамические линейные модели могут быть построены в рамках Байесовской системы. Тем не менее и этот метод можно улучшить, подробности ~~читайте~~ [https://cran.r-project.org/web/packages/dlm/vignettes/dlm.pdf ~~тут~~здесь].

~~[[Файл:DLM+Decomposition.png]] ~~

===TBATS===

~~Это~~ [[Файл:TBATS_Electrical.png |left|thumb|[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb Рисунок 15.] DLM]]TBATS (англ. Trigonometric seasonality, Box-Cox transformation, ARMA errors, Trend and Seasonal components) {{---}} это модели, которые основаны на экспоненциальном сглаживании(рис. 15). Главной особенностью TBATS является возможность взаимодействия с несколькими сезонностями. Моделируя каждую функцию сезонности отдельным тригонометрическим отображением построенным на [[L 2-теория рядов Фурье|рядах Фурье]]. Классическим примером комплексной сезонности будет отображение ежедневных объемов продаж, ~~которые~~ которое имеет, как еженедельные колебания, так и ежегодные.

Больше информации можно прочиать [https://robjhyndman.com/papers/ComplexSeasonality.pdf тут]. ~~[[Файл:DLM+Decomposition.png]]~~

===Prophet===

Ещё одна модель, способная взаимодействовать с несколькими сезонностями(рис. 16). Это ПО с открытым исходным кодом от Фейсбука([https://facebook.github.io/prophet/ ссылка]). [[Файл:Prophet.png |right|thumb|[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb Рисунок 16.] Prophet]] Prophet считает, что временной ряд может быть ~~расложен~~ разложен следующим образом: ~~<code>~~$y(t) = g(t) + s(t) + h(t) + ε(t)~~</code>~~$, $g(t) $ {{- --}} тренд, $s(t) $ {{-- -}} сезонность, $h(t) $ {{- --}} каникулы, т.е аномальные данные, $ε(t) $ {{-- -}} ошибки.

Подгонка модели представляет собой упражнение по подгонке кривой, поэтому она явно не учитывает структуру временной зависимости в данных. Это также позволяет проводить наблюдения с нерегулярным интервалом.

Есть два варианта временных рядов тренда: модель насыщающего роста и кусочно-линейная модель. Модель многопериодной сезонности основана на рядах Фурье<ref>[[Определение ряда Фурье]]</ref>. Эффект известных и заказных выходных дней может быть легко включен в модель. Модель ~~пророка~~ Prophet вставлена в байесовскую структуру и позволяет сделать полный апостериорный вывод, чтобы включить неопределенность параметров модели в неопределенность прогноза.

~~[[Файл:Prophet.png]]~~

===NNETAR===

[[Файл:NNETARElectriacalequipmntManufacturing.png |left|300px|thumb|[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb Рисунок 17.] NNETAR]]Модель авторегрессии нейронной сети (англ. Neural NETwork AutoRegression, NNETAR ) представляет собой ~~полностью связанную~~ полносвязную [https://neerc.ifmo.ru/wiki/index.php?title=Нейронные_сети,_перцептрон нейронную сеть]. ~~Аббревиатура расшифровывается как Neural NETwork AutoRegression~~Модель NNETAR принимает на вход последние элементы последовательности до момента времени $t$ и выводит прогнозируемое значение в момент времени $t + 1$. Для выполнения многоэтапных прогнозов сеть применяется итеративно.

Модель ~~NNETAR принимает на вход последние элементы последовательности до момента времени~~ можно описать уравнением$y_t = f(y_{t-1}) + \epsilon_t$ где $y_{t-1} = (y_{t-1}, y_{t -2}, ...)'$ {{---}} вектор, содержащий запаздывающие значения, f {{---}} нейронная сеть, с 4 скрытыми узлами в каждом слое, $\epsilon_t$ {{---}} считаем, что ряд ошибок [https://ru.wikipedia.org/wiki/Гомоскедастичность гомокседастичен] (и ~~выводит прогнозируемое~~ возможно имеет нормальное распределение). [[Файл:NNETARElectriacalequipmntManufacturingDecomposition.png |right|300px|thumb|[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb Рисунок 18.] NNETAR c декомпозицией]] Мы можем моделировать будущие выборочные пути этой модели итеративно, случайным образом генерируя значение для $\epsilon_t$ либо из нормального распределения, либо путем повторной выборки из исторических значений. Так что если$\epsilon^*_{T+1}${{---}} случайная выборка из распределения ошибок в момент времени t $T+1$, тогда $y^*_{T+1} = f(y_T) + \epsilon^*_{T+1}$ {{---}} один из возможных вариантов распределения прогнозов для $y_{T+1}$ Установив $y^*_{T+1} = (y^*_{T+1}, y_{T})'$, мы можем повторить процесс, чтобы получить $y^*_{T+2} = f(y_{T+ 1}) + \epsilon_{T+2}$. ~~Для выполнения многоэтапных прогнозов сеть применяется~~ Таким образом, мы можем итеративномоделировать будущий путь выборки. Повторно моделируя выборочные пути, мы накапливаем знания о распределении всех будущих значений на основе подобранной нейронной сети.

===LSTM===

~~Модели~~ Блок [[:Долгая_краткосрочная_память|cети долго-краткосрочной памяти]] (англ. Long short-term memory, LSTM ) могут использоваться для прогнозирования временных рядов (а также других рекуррентных нейронных сетей)~~. LSTM {{---}} это аббревиатура от Long-Short Term Memories~~.

Состояние сети LSTM представлено через вектор пространства состояний. Этот метод позволяет отслеживать зависимости новых наблюдений от прошлых (даже очень далеких).

Вообще говоря, LSTM представляют собой сложные модели, и они редко используются для прогнозирования одного временного ряда, поскольку для их оценки требуется большой объем данных. Однако они обычно используются, когда необходимы прогнозы для большого количества временных рядов(~~проверьте~~ как показано [https://arxiv.org/abs/1704.04110 здесь]).

==Оценка==

~~Мы выполнили~~ [[Файл:Evaluation.png |right|600px|thumb|[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb Рисунок 19.] MAE с перекрестной проверкой для каждой модели]]Выполнен выбор модели с помощью процедуры перекрестной проверки, описанной ранее. ~~Мы не рассчитывали~~ Не рассчитывая его для динамических линейных моделей и моделей LSTM из-за их высокой вычислительной стоимости и низкой производительности. На следующем рисунке ~~мы показываем~~ показана [[Оценка качества в задачах классификации и регрессии|средняя абсолютная ошибка]] (англ. Mean Absolute Error, MAE ) с перекрестной проверкой для каждой модели и для каждого временного горизонта(рис. 17): ~~[[Файл:Evaluation.png]]~~

~~Мы видим, что для временных горизонтов больше 4 модель~~ Модель NNETAR с по сезонно ~~скорректированными данными работает лучше~~скорректированным данным была лучшей моделью для данной задачи, ~~чем другие. Давайте проверим общую~~ поскольку она соответствовала самому низкому значению MAE, ~~вычисленную путем усреднения по разным временным горизонтам~~прошедшему перекрестную проверку. Чтобы получить объективную оценку наилучшей производительности модели, вычислим MAE на тестовом наборе (рис. 18), получив оценку, равную 5,24. На следующем рисунке можно увидеть MAE, оцененную на тестовой выборке для каждого временного горизонта.

Модель NNETAR по сезонно скорректированным данным была лучшей моделью для этого приложения, поскольку она соответствовала самому низкому значению MAE, прошедшему перекрестную проверку. Чтобы получить объективную оценку наилучшей производительности модели, мы вычислили MAE на тестовом наборе, получив оценку, равную 5,24. На следующем рисунке мы можем увидеть MAE, оцененную на тестовой выборке для каждого временного горизонта. [[Файл:Cross-validated MAE.png|left|thumb|[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb Рисунок 20.] MAE, тестовый набор]] === Методы увеличения производительности===

~~===Как еще больше повысить производительность===Другие методы повышения производительности моделей:~~*Использование разных моделей для разных временных горизонтов,*Объединение нескольких прогнозов (например, с учетом среднего прогноза),*''Агрегация начальных данных''. ~~Последний метод у можно резюмировать следующим образом:~~*Разложите исходный временной ряд (например, используя STL)*Создайте набор похожих временных рядов путем случайного перемешивания фрагментов оставшейся компоненты.*Подбирайте модель для каждого временного ряда*Средние прогнозы каждой модели

==Заключительные замечания==

~~Целью этого проекта было не подобрать наилучшую возможную модель прогнозирования~~ Большинство ранее описанных моделей позволяют легко включать изменяющиеся во времени предикторы. Они могут быть извлечены из одного и того же временного ряда или могут соответствовать внешним предикторам (например, временному ряду другого индекса ~~промышленного производства, а дать обзор моделей прогнозирования~~). В ~~реальном приложении много времени следует тратить~~ последнем случае необходимо обратить внимание на ~~предварительную обработку~~то, ~~разработку функций и выбор функций~~чтобы не использовать информацию из будущего, которая могла бы быть удовлетворена путем прогнозирования предикторов или использования версий c ошибками.~~ ~~

~~Большинство ранее описанных моделей позволяют легко включать изменяющиеся во времени предикторы~~Обратите внимание, что в данном конспекте рассматривается случай, когда у нас есть один временной ряд для прогнозирования. ~~Они могут~~ Когда у нас много временных рядов, может быть ~~извлечены из одного~~ предпочтительнее глобальный подход, поскольку он позволяет нам оценивать более сложную и того же временного ряда или могут соответствовать внешним предикторам (например, временному ряду другого индекса)потенциально более точную модель. Подробнее о глобальном подходе [https://arxiv.org/abs/1704. В последнем случае мы должны обратить внимание на то, чтобы не использовать информацию из будущего, которая могла бы быть удовлетворена путем прогнозирования предикторов или использования их лаговых версий04110 здесь].~~ ~~

Наконец, обратите внимание, что в этой статье мы рассмотрели только случай, когда у нас есть один временной ряд для прогнозирования. Когда у нас много временных рядов, может быть предпочтительнее глобальный подход, поскольку он позволяет нам оценивать более сложную и потенциально более точную модель. Чтобы ознакомиться с глобальным подходом, щелкните здесь.

==См. Также==

* [[Кластеризация]]

* [[Рекомендательные системы]]

* [[Анализ социальных сетей]]

* [[Графовые нейронные сети]]

* [[Компьютерное зрение]]

== Примечания ==

==Источники Информации==

*[http://www.machinelearning.ru/wiki/index.php?title=Временной_ряд machinelearning.ru]* [https://~~towardsdatascience~~ru.~~com~~wikipedia.org/wiki/Временной_ряд Википедия: Временной ряд]*[http://statsoft.ru/home/textbook/modules/~~an-overview-of-time-series-forecasting-models-a2fa7a358fcb towardsdatascience~~sttimser.~~com~~html StatSoft: Анализ временных рядов]* ~~Филатов, А~~[https://chaos.phys. Вmsu. ~~Заметки профайлера~~ ru/loskutov/ PDF/Lectures_time_series_analysis.pdf Лоскутов А. ВЮ. ~~Филатов~~физ. ~~-Москва~~фак. МГУ: Анализ Временных Рядов]*[https: ~~Издательские решения, 2019~~//wiki. loginom.ru/articles/garch-~~522~~model.html loginom: Garch-модель]* ~~http~~[https://~~www~~otexts.~~machinelearning.ru~~com/~~wiki~~fpp2/~~index~~nnetar.~~php?title=Временной_ряд machinelearning.ru~~html Otexts: NNETAR]

[[Категория: Машинное обучение]]

[[Категория: Анализ временных рядов]]

Maintenance script

1632

правки

Изменения

Анализ временных рядов

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты