Темы производства и потребления нефтепродуктов становятся все более актуальными по всему миру на фоне проявляющейся угрозы дефицита этих ресурсов и отсутствия заменителей в широком использовании. Показатели взяты с сайта Национального Института Статистических и Экономических исследований (INSEE) Франции1. Информация представлена в денежном выражении, в биллионах евро. В данных учитывается ИПЦ, привязка идет к ценам 2005 года. Данные о потреблении взяты за период в 12 лет, а точнее с января 2000 года по август 2012 года. При этом частота наблюдения равна один месяц.
В данной работе будут построены и оценены модели временных рядов ARIMA (и, с учётом сезонной составляющей, SARIMA). Такие модели (интегрируемые модели авторегрессии и модели скользящего среднего) достаточно гибкие и могут описывать множество характеристик временных рядов. В модели авторегрессии каждое значение ряда находится в линейной зависимости от предыдущих значений. Модель скользящего среднего предполагает, что в ошибках модели в предшествующие периоды сосредоточена информация обо всей предыстории ряда. В зависимости от свойств изучаемого показателя, модели ARIMA могут включать в себя сразу обе модели, или каждую по отдельности.
В общем виде модель ARMA(p,q), где p – порядок авторегрессии, q – порядок скользящего среднего, выглядит следующим образом:
yt=α1yt-1+…+αpyt-p+εt+θ1yt-1+…+θqyt-q
Если процесс оказывается нестационарным и для приведения его к стационарному виду потребовалось взять несколько разностей, то модель становится ARIMA(p,d,q), где d – порядок разности.
ШАГ 1. Описание исходных данных. Анализ динамики временного ряда.Ниже графически представлена динамика потребления нефтепродуктов жителями Франции за период с 2000 по 2012 год (см рисунок 1). Отметим сразу, что тренд за весь период – нисходящий, он также отмечен на графике серой линией.
Наивысший уровень потребления нефтепродуктов приходится на февраль 2004. Меньше всего французы потребляли в 2011 году. Как правило, для зимних месяцев наблюдается высокое потребление, для летних – низкое, что легко объясняется погодными условиями.
Рисунок Динамика потребления нефтепродуктов
Отметим, при анализе графика видно, что тренд для потребления нефтепродуктов нисходящий. Это легко объясняется тем, что во Франции активно идет переход к альтернативным источникам энергии.
Продолжим анализ и рассчитаем показатели динамики временного ряда:
Темпы роста;
Темпы прироста.
Подобные расчеты позволят провести сопоставление значений величины потребления за разные периоды. Стоит отметить, что расчет указанных показателей может быть произведен как базисным, так и цепным методом.
Были произведены соответствующие расчеты, ниже представлены их графические интерпретации (см рисунок 2-5).
Рисунок Рисунок
Рисунок Рисунок
Рисунок Рисунок
Отметим, что базисные показатели повторяют динамику переменной. Самый стабильный, а значит и полезный для анализа показатель «Темп роста (цепной)».
ШАГ 2. Исследование тенденции временного рядаПриступая к следующему этапу, стоит сузить набор данных в силу практического удобства. Если до этого рассматривались помесячные данные за почти 12 лет, то теперь будет взять период с января 2004 по декабрь 2010.При изучении потребления нефтепродуктов такой период видится вполне приемлемым, особенно, если принять во внимание тот факт, что основные изменения в данной сфере начались сравнительно недавно.
На графике ниже изображена динамика потребления нефтепродуктов за выбранный отрезок времени (см рисунок 9).
Рисунок
При первоначальной визуальной оценке можно предположить, что наблюдается нисходящий тренд. Однако визуального анализа графика недостаточно для состоятельного вывода. Установить точную картину помогут тесты для проверки наличия тренда во временном ряду.
А именно:
Метод Фостера-Стюарта;
Критерий серий.
Применим для начала метод Фостера-Стюарта.
Нулевая гипотеза выглядит так: H0:Myt=a=const = > в динамике значений показателя тренд отсутствует. Рассчитаем специальные показатели: D=-13, σD=2,831 (для 84 показателей). Согласно критерию Стьюдента при α=0,05 и ν=84-1=83 , tкр=1,998. Значит, tнабл=DσD=-4,591. Отсюда следует, что гипотеза об отсутствии тренда отклоняется с вероятность ошибки 0,05 и тренд в данных есть.
Критерий серий.
Нулевая гипотеза утверждает, что тренд в ряду отсутствует, если выполняются неравенства:
Где τmax(n) – протяженность самой длинной серии, а υ(n)- число серий повторяющихся знаков при сравнении медианы и значений ряда.
В нашем случае гипотеза об отсутствии отвергается, так как не выполняются оба неравенства. Значения параметров представлены в таблице №2:
Таблица
Параметр |
Значение |
Число серий |
12 |
Самая долгая серия |
23 |
t |
17,9217 |
v |
33,57178 |
Таким образом, согласно критерию серий в рассматриваемом временном ряду присутствует тренд.
Теперь стоит аналитически определить тренд. Для этого необходимо оценить существующие модели, такие как:
Прямолинейная;
Параболическая;
Гиперболическая;
Логарифмическая;
Экспоненциальная.
В данной работе все модели не будут рассмотрены, для анализа используются только прямолинейная и полиномиальная модели. Прямолинейная модель – универсальная и проста в интерпретации, полиномиальная хороша для описания величин, попеременно возрастающих и убывающих.
Уравнение линейной модели:
y = -0,0048x + 4,43772
Уравнение полиномиальной модели:
y = 0,00003x2 - 0,0072x + 4,47213
Были рассчитаны параметры моделей, на основе которых производится их отбор, результаты представлены в таблице 3:
Таблица
Парамертры |
Прямолинейнаямодель |
Полиномиальнаямодель |
k |
2 |
2 |
0,09349 |
0,09253 |
|
R |
0,6159 |
0,6258 |
Таким образом, получается, что полиномиальная модель – самая адекватная из выбранных, в ней ошибка S ниже, чем в линейной. В то же время коэффициент детерминации R2 чуть выше, значит, в этой подели потребление в больше степени определяется временем.
Представим графически сравнение трендов (см рисунок 10).
Рисунок
ШАГ 3. Проверка на стационарностьИтак, в данных присутствуют нисходящий тренд и слабая сезонность. Это может быть объяснено климатическими условиями, а также тем, что Франция – одна из тех стран, которые начали переходить на альтернативные источники энергии. В ходе прошлого анализа было выявлено, что модель тренда – полиномиальная, и лучше всего описывает данные аддитивная модель, но заметим, что проверку на адекватность она не прошла.
Стационарный ряд – это ряд, чье поведение в настоящем и будущем совпадает с поведением в прошлом, т.е. на свойства не влияет изменение начала отсчёта времени. Определить, стационарен ли ряд, можно по виду автокорреляционной функции (ACF) и частной автокорреляционной функции (PACF) и путем проведения теста Дики-Фуллера.
Анализ автокорреляционной функции (ACF) и частной автокорреляционной функции (PACF)
Ниже представлены графики функций ACF и PACF (см рисунок 2 и 3). Красными пунктирынми линиями на графиках отмечен критический интервал [-2n;2n], в пределах которого значения ACF и PACF считаются не отличающимися от нуля.
Рисунок 1. Автокорреляция (ACF)
Рисунок 1. Частная корреляция (PACF)
При визуальном анализе графиков видно, что ряд не является стационарным. Автокорреляция не стабильна, имеются выбросы. Графики отражают сезонность, но она довольно слабая.
Тест Дики-Фулера
Суть Дики-Фуллера состоит в том, что необходимо проверять нулевую гипотезу о наличии единичного корня в уравнении:
yt=αyt-1+εt
Есть альтернативная гипотеза: αχ20,05;2=5,99.Значит, гипотеза о нормальности остатков не отвергается. Однако судя по графику, утверждение о нормальности данных является спорным.
ВыводТаким образом, в ходе анализа была построена модель SARMA(4;1;4)(12;0;0). Были выявлены стационарность и сравнительно наибольшая эффективность. Однако построенный прогноз не показал себя довольно эффективным. В таком случае в заключение построим прогноз на 2010 год (см рисунок 6)
Рисунок . Прогноз на год
В данном случае прогноз не отразил резкости изменения переменной, однако, направление колебаний совпадает с исходными данными. Также близки по величине значения на конец периода, значит, тренд отражен адекватно.
Список литературы:Магнус Я.Р. Эконометрика: Начальный курс: Учебное пособие/ Я.Р.Магнус, П.К. Катышев, А.А.Пересецкий. - М.: Дело, 2005. - 503с.
Айвазян С.А. Методы эконометрики: учебник. – М.: Магистр: ИНФРА-М, 2010.
Айвазян С.А. Прикладная статистика. Основы эконометрики. Изд. 2 – е. Т. 2 – М.: ЮНИТИ,2001.
Орлова И.В., Половников В.А. Экономико-математические методы и модели: компьютерное моделирование: учебное пособие, Вузовский учебник, 2007.
Сайта Национального Института Статистических и Экономических исследований http://www.bdm.insee.fr/bdm2/choixCriteres.action?request_locale=en&codeGroupe=1309
Null Hypothesis: Y has a unit root |
||||
Exogenous: Constant |
||||
Lag Length: 2 (Fixed) |
||||
t-Statistic |
Prob.* |
|||
Augmented Dickey-Fuller test statistic |
-3.179024 |
0.0251 |
||
Test critical values: |
1% level |
-3.517847 |
||
5% level |
-2.899619 |
|||
10% level |
-2.587134 |
|||
*MacKinnon (1996) one-sided p-values. |
||||
Dependent Variable: D(Y) |
||||
Method: Least Squares |
||||
Date: 12/19/12 Time: 22:54 |
||||
Sample (adjusted): 2005M06 2010M08 |
||||
Included observations: 63 after adjustments |
||||
Convergence achieved after 18 iterations |
||||
MA Backcast: 2005M02 2005M05 |
||||
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
AR(1) |
-0.162291 |
0.414500 |
-0.391535 |
0.6969 |
AR(2) |
0.369723 |
0.419001 |
0.882392 |
0.3815 |
AR(3) |
0.348843 |
0.343531 |
1.015464 |
0.3144 |
AR(4) |
0.324409 |
0.172139 |
1.884580 |
0.0649 |
SAR(12) |
-0.276359 |
0.115088 |
-2.401289 |
0.0198 |
MA(1) |
-0.770015 |
0.428270 |
-1.797968 |
0.0778 |
MA(2) |
-0.678956 |
0.706697 |
-0.960745 |
0.3410 |
MA(3) |
0.252731 |
0.616332 |
0.410057 |
0.6834 |
MA(4) |
0.196282 |
0.348860 |
0.562639 |
0.5760 |
R-squared |
0.587934 |
Mean dependent var |
-0.003413 |
|
Adjusted R-squared |
0.526888 |
S.D. dependent var |
0.150613 |
|
S.E. of regression |
0.103597 |
Akaike info criterion |
-1.565059 |
|
Sum squared resid |
0.579543 |
Schwarz criterion |
-1.258897 |
|
Log likelihood |
58.29936 |
Hannan-Quinn criter. |
-1.444644 |
|
Durbin-Watson stat |
2.032115 |
Dependent Variable: D(Y) |
||||
Method: Least Squares |
||||
Date: 12/19/12 Time: 22:57 |
||||
Sample (adjusted): 2005M06 2010M08 |
||||
Included observations: 63 after adjustments |
||||
Convergence achieved after 141 iterations |
||||
MA Backcast: OFF (Roots of MA process too large) |
||||
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
C |
-0.001316 |
0.002432 |
-0.540920 |
0.5908 |
AR(1) |
-0.526297 |
1.077917 |
-0.488253 |
0.6274 |
AR(2) |
-0.264593 |
0.535161 |
-0.494418 |
0.6231 |
AR(3) |
0.010428 |
0.530909 |
0.019642 |
0.9844 |
AR(4) |
0.144801 |
0.241549 |
0.599468 |
0.5514 |
SAR(12) |
-0.248870 |
0.117841 |
-2.111914 |
0.0394 |
MA(1) |
-0.618607 |
1.101765 |
-0.561469 |
0.5768 |
MA(2) |
-0.497375 |
1.539291 |
-0.323119 |
0.7479 |
MA(3) |
-0.193063 |
0.992726 |
-0.194478 |
0.8465 |
MA(4) |
-0.097579 |
0.625944 |
-0.155890 |
0.8767 |
R-squared |
0.697062 |
Mean dependent var |
-0.003413 |
|
Adjusted R-squared |
0.645619 |
S.D. dependent var |
0.150613 |
|
S.E. of regression |
0.089660 |
Akaike info criterion |
-1.840967 |
|
Sum squared resid |
0.426062 |
Schwarz criterion |
-1.500787 |
|
Log likelihood |
67.99046 |
Hannan-Quinn criter. |
-1.707172 |
|
F-statistic |
13.55035 |
Durbin-Watson stat |
2.307048 |
|
Prob(F-statistic) |
0.000000 |
Dependent Variable: D(Y,2) |
||||
Method: Least Squares |
||||
Date: 12/19/12 Time: 22:58 |
||||
Sample (adjusted): 2005M07 2010M08 |
||||
Included observations: 62 after adjustments |
||||
Convergence achieved after 19 iterations |
||||
MA Backcast: 2005M03 2005M06 |
||||
Variable |
Coefficient |
Std. Error |
t-Statistic |
Prob. |
AR(1) |
-1.119256 |
0.905085 |
-1.236631 |
0.2217 |
AR(2) |
-0.788885 |
1.176637 |
-0.670458 |
0.5055 |
AR(3) |
-0.451115 |
0.470531 |
-0.958736 |
0.3420 |
AR(4) |
-0.089890 |
0.367086 |
-0.244873 |
0.8075 |
SAR(12) |
-0.243165 |
0.112813 |
-2.155465 |
0.0357 |
MA(1) |
-0.842579 |
0.904598 |
-0.931441 |
0.3558 |
MA(2) |
-0.570918 |
0.747516 |
-0.763754 |
0.4484 |
MA(3) |
0.226798 |
1.190412 |
0.190521 |
0.8496 |
MA(4) |
0.186924 |
0.806922 |
0.231650 |
0.8177 |
R-squared |
0.854610 |
Mean dependent var |
0.000887 |
|
Adjusted R-squared |
0.832665 |
S.D. dependent var |
0.256572 |
|
S.E. of regression |
0.104955 |
Akaike info criterion |
-1.537091 |
|
Sum squared resid |
0.583823 |
Schwarz criterion |
-1.228314 |
|
Log likelihood |
56.64983 |
Hannan-Quinn criter. |
-1.415858 |
|
Durbin-Watson stat |
1.999077 |
|||
1 Данные взяты с сайта Национального Института Статистических и Экономических исследований http://www.bdm.insee.fr/bdm2/choixCriteres.action?request_locale=en&codeGroupe=1309
2 См. приложение 1
3 См. приложение 1