Введение
Мультиколлинеарность – это явление, при котором существует линейная связь между всеми или несколькими объясняющими переменными, что приводит к уменьшению точности оценивания переменных или даже к невозможности оценивания. Основная причина в том, что при наличии мультиколлинеарности переменные становятся зависимыми, поэтому становится невозможным выделение воздействия каждой из объясняющих переменных на зависимую. Наличие мультиколлинеарности является одной из основных причин неустойчивости регрессионных моделей. Одним из способов устранения мультиколлинеарности и повышения устойчивости модели является отбор наиболее значимых признаков. Проблема мультиколлинеарности, возможные способы её обнаружения и устранения описаны в [1, 2, 3, 6]. Также мультиколлинеарность приводит к уменьшению устойчивости оценок вектора параметров. Оценка вектора параметров называется устойчивой, если малое изменении некоторой компоненты этого вектора приводит к малому изменению соответствующей компоненты оценки целевого вектора.
В своей работе мы взяли данные по российским банкам и решили сравнить модели, полученные в результате исследования отдельно банков Московской и Ленинградской областей (включая города Москва и Санкт-Петербург). Мы использовали несколько способов определения мультиколлинеарности и избавления от нее. В качестве зависимой переменной y были признаны активы банков, а 11 факторов, которые будут представлены ниже – в качестве объясняющих переменных.
Актуальность работы обусловлена тесной связью банковской сферы России с экономическими событиями, происходящими в нашей стране. Целью работы стали выявление и исследование факторов, оказывающих наибольшее влияние на активы банков в Московской и Ленинградской областях. Для достижения цели были поставлены следующие задачи:
Проверить данные на наличие мультиколлинеарности
Построить многофакторные модели, максимально избавившись от мультиколлинеарности
Провести сравнительный анализ полученных результатов.
Для того, чтобы показать как можно больше способов определения и избавления от мультиколлинеарности, при анализе Московской и Ленинградской области эти способы отличались.
Определение мультиколлинеарности в массиве данных:
Построим матрицу парных коэффициентов корреляции:
А) Для Московской области:
Активы |
Валюта баланса |
Прибыль до налогов |
Депозиты частных лиц |
Вложения в государственные ценные бумаги |
Вложения в негосударственные ценные бумаги |
Средства в банках (брутто) |
Кредиты небанковскому сектору |
Просроченные кредиты небанковскому сектору |
Кредиты физическим лицам |
Обязательства перед банками |
Иностранные обязательства |
|
Х1 |
Х2 |
Y |
Х3 |
Х4 |
Х5 |
Х6 |
Х7 |
Х8 |
Х9 |
Х10 |
Х11 |
|
Х1 |
1 |
|||||||||||
Х2 |
0,994 |
1 |
||||||||||
Y |
0,951 |
0,978 |
1 |
|||||||||
Х3 |
0,967 |
0,98 |
0,98 |
1 |
||||||||
Х4 |
0,96 |
0,98 |
0,99 |
0,98 |
1 |
|||||||
Х5 |
0,93 |
0,898 |
0,807 |
0,83 |
0,83 |
1 |
||||||
Х6 |
0,83 |
0,785 |
0,688 |
0,729 |
0,701 |
0,854 |
1 |
|||||
Х7 |
0,997 |
0,997 |
0,965 |
0,978 |
0,971 |
0,91 |
0,785 |
1 |
||||
Х8 |
0,83 |
0,797 |
0,698 |
0,769 |
0,734 |
0,86 |
0,816 |
0,81 |
1 |
|||
Х9 |
0,95 |
0,959 |
0,94 |
0,98 |
0,935 |
0,82 |
0,748 |
0,958 |
0,795 |
1 |
||
Х10 |
0,98 |
0,96 |
0,898 |
0,91 |
0,914 |
0,96 |
0,870 |
0,967 |
0,891 |
0,90 |
1 |
|
Х11 |
0,87 |
0,825 |
0,714 |
0,734 |
0,7396 |
0,907 |
0,7705 |
0,853 |
0,751 |
0,728 |
0,88 |
1 |
Б) Для Ленинградской области:
Активы |
Валюта баланса |
Прибыль до налогов |
Депозиты частных лиц |
Вложения в государственные ценные бумаги |
Вложения в негосударственные ценные бумаги |
Средства в банках (брутто) |
Кредиты небанковскому сектору |
Просроченные кредиты небанковскому сектору |
Кредиты физическим лицам |
Обязательства перед банками |
Иностранные обязательства |
|
Y |
Х1 |
X2 |
Х3 |
Х4 |
Х5 |
Х6 |
Х7 |
Х8 |
Х9 |
Х10 |
Х11 |
|
Y |
1 |
|||||||||||
Х1 |
0,98 |
1 |
||||||||||
X2 |
0,998 |
0,986 |
1 |
|||||||||
Х3 |
0,169 |
0,189 |
0,18 |
1 |
||||||||
Х4 |
0,162 |
0,316 |
0,21 |
0,26 |
1 |
|||||||
Х5 |
0,998 |
0,981 |
1 |
0,2 |
0,194 |
1 |
||||||
Х6 |
0,999 |
0,973 |
1 |
0,13 |
0,125 |
0,995 |
1 |
|||||
Х7 |
1 |
0,983 |
1 |
0,19 |
0,184 |
0,999 |
0,997 |
1 |
||||
Х8 |
0,998 |
0,969 |
0,99 |
0,15 |
0,104 |
0,994 |
0,999 |
0,996 |
1 |
|||
Х9 |
0,031 |
0,041 |
0,04 |
0,97 |
0,145 |
0,053 |
-0 |
0,049 |
0,02 |
1 |
||
Х10 |
0,998 |
0,97 |
0,99 |
0,14 |
0,109 |
0,995 |
1 |
0,996 |
1 |
0 |
1 |
|
Х11 |
0,997 |
0,968 |
0,99 |
0,11 |
0,099 |
0,992 |
0,999 |
0,994 |
1 |
-0,02 |
0,999 |
1 |
Мультиколлинеарность существует, когда коэффициент парной корреляции> 0,8. Можно заметить, что значений, превышающих необходимое требование много. Соответственно, в рассматриваемом примере существует мультиколлинеарность. Для определения наличия мультиколлинеарности используются различные методы.
Для определения мультиколлинеарности используем метод Белсли. Belsley, Kuh и Welsch предложили метод анализа мультиколлинеарности основанный на индексах обусловленности (the scaled condition indexes) и дисперсионных долях (the variance-decomposition proportions) [2].
При численном решении различных прикладных задач исследователи часто сталкиваются с таким понятием как число обусловленности. Это понятие описывается в учебниках по матричной алгебре [5]. Число обусловленности η является важнейшим «индикатором» для определения устойчивости решения той или иной задачи.
Обусловленность оценивает близость матрицы коэффициентов к вырожденной. Число обусловленности η является количественной оценкой обусловленности. Отметим, что всегда η> 1. Если η > 103, то говорят, что матрица плохо обусловлена. Если 1 < η < 100 , то матрица считается хорошо обусловленной.
Оценки собственных значений получены в программе VSTAT. Вычислим 11 коэффициентов обусловленности по формуле . В нашем примере показатель обусловленности η равен 416,247. Следовательно, можно сделать вывод о наличии зависимости близкой к линейной между столбцами матрицы Х, т.е. о наличии мультиколлинеарности.
Фактор |
Собств. значение () |
ή |
||
1 |
9,313549546 |
3,051811 |
1 |
|
2 |
1,085728384 |
1,041983 |
2,92885 |
|
3 |
0,254369927 |
0,504351 |
6,05097 |
|
4 |
0,192395949 |
0,43863 |
6,9576 |
|
5 |
0,073098285 |
0,270367 |
11,2877 |
|
6 |
0,045620985 |
0,213591 |
14,2881 |
|
7 |
0,026565880 |
0,16299 |
18,7239 |
|
8 |
0,004414457 |
0,066441 |
45,9324 |
|
9 |
0,002707560 |
0,052034 |
58,6501 |
|
10 |
0,001495273 |
0,038669 |
78,9219 |
|
11 |
0,000053754 |
0,007332 |
416,247 |
Метод дополнительных регрессий (Тест VIF).
Для измерения эффекта мультиколлинеарности используется показатель VIF – «фактор инфляции вариации»:
где - это значение коэффициента множественной корреляции, полученное для регрессора Xj как зависимой переменной и остальных переменных. При этом степень мультиколлинеарности, представляемая в регрессии переменной Xj, когда все переменные X включены в регрессию, есть функция множественной корреляции между Xj и другими переменными X.
А) Для Московской области:
VIF |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
Значение |
1432,32 |
211,37 |
387,71 |
153,47 |
26,1131 |
11,8380 |
806,792 |
13,9070 |
90,5577 |
102,679 |
34,8001 |
Такие большие значения свидетельствуют о наличии мультиколлинеарности.
Б) Для Ленинградской области:
VIFx1 |
VIFx2 |
VIFx3 |
VIFx4 |
VIFx5 |
VIFx6 |
VIFx7 |
VIFx8 |
VIFx9 |
VIFx10 |
VIFx11 |
117,437 |
1553,46 |
54,1101 |
65,2989 |
10774,4 |
10774,4 |
8617,59 |
8971,33 |
38,3602 |
95674,6 |
29214,6 |
На основании только данного способа построение уравнения регрессии представляется затруднительным в силу того, что все показатели вздутия регрессии по всем факторам принимают очень большие значения.
Используем пошаговый метод избавления от мультиколлинеарности:
А) Для Московской области:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
Нижние 95,0% |
Верхние 95,0% |
|
Активы |
656377,9 |
320869,2 |
2,04562419 |
0,0413729 |
25793,484 |
1286962,2 |
25793,48472 |
1286962,24 |
Валюта баланса |
0,034053 |
0,004782 |
7,12161243 |
4,248E-12 |
0,024655 |
0,0434491 |
0,024655793 |
0,0434498 |
Прибыль до налогов |
-3,73084 |
0,342514 |
-10,892541 |
1,09E-24 |
-4,403964 |
-3,057722 |
-4,40396448 |
-3,0577229 |
Депозиты частных лиц |
-0,04382 |
0,017078 |
-2,5656506 |
0,0106203 |
-0,07737 |
-0,010253 |
-0,0773792 |
-0,0102539 |
Вложения в государственные ценные бумаги |
0,981389 |
0,107064 |
9,1663929 |
1,736E-18 |
0,770982 |
1,1917942 |
0,77098273 |
1,1917942 |
Вложения в негосударственные ценные бумаги |
0,669773 |
0,019868 |
33,7117500 |
2,58E-125 |
0,6307283 |
0,7088176 |
0,630728374 |
0,7088176 |
Средства в банках (брутто) |
0,912039 |
0,012199 |
74,764229 |
2,97E-256 |
0,8880657 |
0,9360130 |
0,888065716 |
0,9360130 |
Кредиты небанковскому сектору |
1,111184 |
0,014478 |
76,748008 |
5,29E-261 |
1,0827307 |
1,1396375 |
1,082730792 |
1,13963757 |
Просроченные кредиты небанковскому сектору |
-0,45274 |
0,053391 |
-8,4796615 |
3,251E-16 |
-0,5571004 |
-0,340052 |
-0,55766004 |
-0,3478100 |
Кредиты физическим лицам |
0,023151 |
0,01561 |
1,483061419 |
0,138756537 |
-0,007526862 |
0,053828576 |
-0,007526862 |
0,053828576 |
Обязательства перед банками |
0,151825 |
0,025522 |
5,94869445 |
5,427E-09 |
0,101667 |
0,2019825 |
0,101667371 |
0,2019825 |
Иностранные обязательства |
-0,05632 |
0,021472 |
-2,6227674 |
0,0090171 |
-0,098511 |
-0,014112 |
-0,09851192 |
-0,0141182 |
t значение |
1,965237 |
Исключаем фактор "Кредиты физическим лицам", потому что tрасч FGкрит, Hо отклоняеся, факторы признаются коллинеарными. В массиве есть коллинеарность.
F1 |
F2 |
F3 |
F4 |
F5 |
F6 |
F7 |
F8 |
F10 |
F11 |
62098,78 |
9105,807513 |
7656,165574 |
4863,41902 |
1070,423867 |
461,2419851 |
34958,60566 |
539,2204578 |
4476,832858 |
1475,324 |
Так как все F>Fтабл, то соответствующие переменные Х мультиколлинеарны друг с другом.
После исключения факторов имеем модель: y=268715+0,319194*х3+0,800632*х7+1,732275*х10+0,656838*х11, в которой коэффициент эластичности равен 3,52%, а R^2 = 0,816, что свидетельствует о высокой точности и хорошем качестве полученной модели.
Интерпретируя модель, можно сказать, что основными факторами, которые влияют на активы банков в Москве и Московской области, являются депозиты частных лиц, кредиты небанковскому сектору, обязательства перед банками и иностранные обязательства. Достаточно странно, что фактор «кредиты физическим лицам» был исключен в ходе построения модели, но, тем не менее, это можно связать с тем, что столичные банки очень тесно связаны с корпоративными клиентами, фирмами и бизнесом. Крупные кредиты на развитие бизнеса выдаются именно в крупных банках, чаще всего государственных, которые сосредоточены как раз в Москве. Так же в столице развит рынок межбанковских кредитов, поэтому фактор «обязательства перед банками» оказывает сильное прямое воздействие на размер активов.
Б) Для Ленинградской области:
Проверив наличие мультиколлинеарности всего массива переменных, выяснили, что FGнабл>FGкрит, факторы признаются коллинеарными. Так же переменные оказались мультиколлинеарными друг с другом.
После исследования мультиколлинеарности и исключения факторов с целью избавления от нее, была получена следующая модель:
Y = -1986523,164+2,02X7-2,23X9
Отрицательный знак при Х9 и свободном члене является явным признаком признаком того, что результат, показываемый данной моделью, может быть искаженным, даже принимая во
дельта7 |
дельта 9 |
1,033510199 |
-0,0006605 |
Наибольшее влияние на Y оказывает также объем кредитов небанковскому сектору
Наименьший результат и здесь снова принадлежит фактору вложений в негосударственные ценные бумаги.
Заключение
Целью нашей работы было исследование и сравнение факторов, влияющих на величину активов банков Московской и Ленинградской области.
На активы банков Московской области больше всего влияют такие факторы, как депозиты частных лиц, кредиты небанковскому сектору, обязательства перед банками и иностранные обязательства. Ф «кредиты физическим лицам» был исключен в ходе составления модели, однако это объясняется тем, что в Москве сосредоточены крупные государственные банки, которые дают много кредитов небанковскому сектору и в которые аккумулируют значительные сбережения населения.
На активы банков Ленинградской области больше всего влияют такие факторы, как депозиты частных лиц, кредиты небанковскому сектору, обязательства перед банками и иностранные обязательства.
Таким образом, несмотря на некоторые различия, наблюдаются значительные сходства. Во-первых, это объясняется тем, что в Московской и Ленинградской областях есть спрос на банковские услуги одного типа. Во-вторых, это ключевые области Российской Федерации, где сосредоточены все виды бизнеса, которые нуждаются в банковском кредитовании. В-третьих, именно в Москве и Санкт-Петербурге больше всего развиты международные обязательства, поэтому фактор «иностранные обязательства» играет важное и ключевое значение при выявлении влияния факторов на активы банков.Список используемой литературы:
Гармаш А.Н., Орлова И.В., Математические методы в управлении: Учебное пособие - М.: Вузовский учебник: ИНФРА-М, 2012.
Дрейпер, Норман, Смит, Гарри Прикладной регрессионный анализ, 3-е изд. : Пер. с англ. – М.: Издательский дом «Вильямс», 2007.
Л.О. Бабешко «Основы эконометрического моделирования»
М.Г.Назарова «Курс социально-экономической статистики»
Орлова И.В. Линейная алгебра и аналитическая геометрия для экономистов: учебник и практикум для прикладного бакалавриата / И.В. Орлова, В.В. Угрозов, Е.С. Филонова. – М.: Издательство Юрайт. 2014 – 370 с. – Серия: Бакалавр. Прикладной курс.
Орлова И.В., Половников В.А. Экономико-математические методы и модели: компьютерное моделирование. / учебное пособие для студентов высших учебных заведений, обучающихся по специальности "Статистика" и другим экономическим специальностям / Москва, 2011. Сер. Вузовский учебник (3-е издание, переработанное и дополненное)
Э. Фёрствер, Б. Рёнц «Методы корреляционного и регрессионного анализа»