Изменения

Анализ временных рядов

595 байт убрано, 22:29, 13 января 2021

Нет описания правки

==Валидирование и тестирование модели временного ряда==

Из-за зависимости данных временных рядов, нельзя пользоваться обычными способами валидации. Чтобы избежать смещения оценки необходимо удостовериться, что обучающие наборы данных содержат только наблюдения, которые произошли до событий из валидирующий наборов.

[[Файл:TimeSeriesCross-validation.png |thumb|left|400px|~~Рисунок 1. кросс-валидация временного ряда<ref>~~[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb ~~towardsdatascience~~Рисунок 1.~~com~~кросс-валидация временного ряда]~~</ref>~~]]

Возможным способом преодоления данной проблемы будет использование скользящего окна, как описано [https://robjhyndman.com/hyndsight/tscv/ здесь]. Эта процедура называется [[Кросс-валидация|кросс-валидацией]] временного ряда и может быть вкратце описана следующей картинкой (рис. 1), в которой синие точки обозначают тренировочный набор данных, а красные соответствующие валидационные наборы данных.

==Краткое исследование данных==

[[Файл:ManufactureOfElectricalEquipment.png|thumb|right|300px|~~Рисунок 2. Набор данных описывающий график производства электрооборудования<ref>~~[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb ~~towardsdatascience~~Рисунок 2.~~com~~Набор данных описывающий график производства электрооборудования]~~</ref>~~]]

В данной части используется несколько разных моделей для предсказания изменений в промышленном производстве, которое для примера будем оценивать численно, как количество электрооборудования, произведённого в зоне Евро (рис. 2, 3).

[[Файл:SeasonalPlotMonthluSeasonalPattern.png|thumb|right|300px|~~Рисунок 3. Сезонные колебания<ref>~~[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb ~~towardsdatascience~~Рисунок 3.~~com~~Сезонные колебания]~~</ref>~~]]

Набор данных описывает ежемесячное производство электрооборудования (компьютеры электрические и оптические приборы) в зоне евро(17 стран) в период с января 1996 по март 2012 года (см. график ниже). Последние два года будем использовать при тестировании.

===Наивная===

[[Файл:NaiveElectricalEquipmentManufacturing.png|thumb|~~Рисунок 4. Наивная<ref>~~[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb ~~towardsdatascience~~Рисунок 4.~~com~~Наивная]~~</ref>~~ ]]

Предсказания для каждого горизонта соотвествуют последнему наблюдаему значению

Такие предскания предполагают, что стохастическая<ref>[https://ru.wikipedia.org/wiki/Стохастичность Википедия: Стохастичность]</ref> модель генерирует случайное блуждание.

[[Файл:SeasonalNaiveElectricalEquipmentManufacturing.png|thumb|left|~~Рисунок 5. Сезонно наивная<ref>~~[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb ~~towardsdatascience~~Рисунок 5.~~com~~Сезонно наивная]~~</ref>~~]]

Расширение наивной модели SNAIVE {{---}} сезонно-наивная модель предполагает, что временной ряд имеет сезонную компоненту, и что период сезонности T.

===Разделение по сезонам + любая модель===

[[Файл:STL_docompositionOnIndustrialProductionIndexData.png|thumb|~~Рисунок 6. Методы разложения ряда<ref>~~[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb ~~towardsdatascience~~Рисунок 6.~~com~~Методы разложения ряда]~~</ref>~~]]

Если данные показывают, что они воспроиимчивы к периодическим-сезонным изменениям(ежедневно, еженедельно, ежеквартально, ежегодно), то будет полезным разложить исходный временной ряд на сумму трёх компонентов.

Посчитать остаток, как

R(t) = Y(t) - T(t)-S(t)

[[Файл:SeasonallyAdjustedIndustrial.png |thumb|left|~~Рисунок 7. Сезонные индексы ряда<ref>~~[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb ~~towardsdatascience~~Рисунок 7.~~com~~Сезонные индексы ряда]~~</ref>~~]]

Классическое разложение можно расширить несколькими способами.

Расширение позволяет использовать данный метод при:

2)посчитать сезонное отклонение ряда Y(t)-S(t), используя любую модель для прогнозирования сезоно-чувствительного временного ряда.

3)Добавить прогнозам сезонность последнего временного периода во временном ряду(в нашем случае S(t) для прошлого года).

[[Файл:SeasonallyAdjustedTimeSeries.png|right|thumb|~~Рисунок 8. Декомпозиция и наивная модель<ref>~~[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb ~~towardsdatascience~~Рисунок 8.~~com~~Декомпозиция и наивная модель]~~</ref>~~]]

На следующем графике показаны сезонные индексы ряда с учётом сезонности (рис. 7):

===Экспоненциальное сглаживание ===

[[Файл:ExpSmoothing.png|thumb|left|~~Рисунок 9. данные полученные для 2007 года с использованием модели экспоненциального сглаживания<ref>~~[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb ~~towardsdatascience~~Рисунок 9.~~com~~данные полученные для 2007 года с использованием модели экспоненциального сглаживания]~~</ref>~~]]

Экспоненциальное сглаживание<ref>[https://ru.wikipedia.org/wiki/Экспоненциальное_сглаживание Википедия: Экспоненциальное сглаживание]</ref> {{---}} один из наиболее успешных классических методов предсказаний. В своей базовой форме оно называется простым экспоненциальный сглаживанием и его прогнозы описываются формулами:

'''''with 0<⍺<1.'''''

[[Файл:ExpSmoothing+Decomposition.png|thumb|right|Рисунок 10. данные полученные для 2007 года с использованием модели экспоненциального сглаживания и декомпозиции<ref>[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb ~~towardsdatascience~~Рисунок 10.~~com~~данные полученные для 2007 года с использованием модели экспоненциального сглаживания и декомпозиции]~~</ref>~~]]

Заметно, что прогнозы равны взвешенному среднему от старых наблюдений, и что соответствующие веса убывают экспоненциально по мере хода времени.

===ARIMA, SARIMA===

[[Файл:SARIMA.png |thumb|left|~~Рисунок 11. SARIMA<ref>~~[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb ~~towardsdatascience~~Рисунок 11.~~com~~SARIMA]~~</ref>~~]]

Также как и экспоненциальное сглаживание, ARIMA также часто используются для прогноза временных рядов. Название является акронимом AutoRegressive Integrated Moving Average Саморегрессивное интегрированное скользящее среднее

Скользящее среднее {{---}} линейная комбинация прошлых ошибок.

[[Файл:SARIMA_Decomposition.png|thumb|right|~~Рисунок 12. SARIMA декомпозированная<ref>~~[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb ~~towardsdatascience~~Рисунок 12.~~com~~SARIMA декомпозированная]~~</ref>~~]]

ARIMA {{---}} комбинация этих двух подходов. Так как эти подходы требуют стационарности временного ряда, может понадобится продифференциировать/проинтегрировать ряд

То есть рассматировать ряд разностей, а не исходный ряд

===Garch===

[[Файл:GARCH.png |thumb|left|~~Рисунок 13. ARMA<ref>~~[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb ~~towardsdatascience~~Рисунок 13.~~com~~ARMA]~~</ref>~~]]

В предыдущих моделях считалось, что слагаемое ошибки в стохастическом процессе генерации временного ряды имели одинаковую дисперсию.

===Динамические линейные модели===

[[Файл:DLM+Decomposition.png|right|thumb|~~Рисунок 14. DLM<ref>~~[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb ~~towardsdatascience~~Рисунок 14.~~com~~DLM]~~</ref>~~]]

Динамические линейные модели представляют другой класс моделей предсказания временных рядов(рис. 14).

Идея заключается в том, что в каждый момент времени t эти модели соответствуют линейной модели, но коэффициент регрессии постоянно меняется. Пример динамической линейной модели ниже:

===TBATS===

[[Файл:TBATS_Electrical.png |left|thumb|~~Рисунок 15. DLM<ref>~~[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb ~~towardsdatascience~~Рисунок 15.~~com~~DLM]~~</ref>~~]]

TBATS {{---}} это модели, которые основаны на экспоненциальном сглаживании(рис. 15). Главной особенностью TBATS является возможность взаимодействия с несколькими сезонностями. Моделируя каждую функцию сезонности отдельным тригонометрическим отображением построенным на рядах Фурье. Классическим примером комплексной сезонности будет отображение ежедневных объемов продаж, которые имеет, как еженедельные колебания, так и ежегодные.

Ещё одна модель, способная взаимодействовать с несколькими сезонностями.

Это ПО с открытым исходным кодом от Фейсбука (рис. 16).

[[Файл:Prophet.png |right|thumb|~~Рисунок 16. Prophet<ref>~~[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb ~~towardsdatascience~~Рисунок 16.~~com~~Prophet]~~</ref>~~]]

Prophet считает, что временной ряд может быть расложен следующим образом:

==Оценка==

[[Файл:Evaluation.png |right|600px|thumb|~~Рисунок 17. MAE с перекрестной проверкой для каждой модели<ref>~~[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb ~~towardsdatascience~~Рисунок 17.~~com~~MAE с перекрестной проверкой для каждой модели]~~</ref>~~]]

Выполнен выбор модели с помощью процедуры перекрестной проверки, описанной ранее. Не рассчитывая его для динамических линейных моделей и моделей LSTM из-за их высокой вычислительной стоимости и низкой производительности.

На следующем рисунке показывало MAE с перекрестной проверкой для каждой модели и для каждого временного горизонта(рис. 17):

Чтобы получить объективную оценку наилучшей производительности модели, вычислим MAE на тестовом наборе(рис. 18), получив оценку, равную 5,24. На следующем рисунке можно увидеть MAE, оцененную на тестовой выборке для каждого временного горизонта.

[[Файл:Cross-validated MAE.png |left|thumb|~~Рисунок 18. MAE, тестовый набор<ref>~~[https://towardsdatascience.com/an-overview-of-time-series-forecasting-models-a2fa7a358fcb ~~towardsdatascience~~Рисунок 18.~~com~~MAE, тестовый набор]~~</ref>~~]]

===Как еще больше повысить производительность===

Анонимный участник

95.29.44.10

Изменения

Анализ временных рядов

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты