СТАТИСТИЧЕСКИЙ АНАЛИЗ ДИНАМИКИ НАЛОГОВЫХ ПОСТУПЛЕНИЙ ПО НАЛОГУ НА ДОХОДЫ ФИЗИЧЕСКИХ ЛИЦ ЗА 1990-2012 - Студенческий научный форум

VI Международная студенческая научная конференция Студенческий научный форум - 2014

СТАТИСТИЧЕСКИЙ АНАЛИЗ ДИНАМИКИ НАЛОГОВЫХ ПОСТУПЛЕНИЙ ПО НАЛОГУ НА ДОХОДЫ ФИЗИЧЕСКИХ ЛИЦ ЗА 1990-2012

Плаксин К.С. 1, Беляев А.Д. 1, Погиба В.А. 1, Концевая Н.В. 1
1Финансовый университет при правительстве РФ
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

  1. Введение

Значимость налога на доходы физических лиц для бюджета Российской Федерации весьма велика. Он является одним из основных налогов, формирующих доходную часть налоговых поступления консолидированного бюджета страны. Поэтому проведение статистического анализа его поступлений является актуальным.

Целью работы является проведение статистического анализа динамики налоговых поступлений по налогу на доходы физических лиц.

Для достижения данной цели необходимо решить следующие задачи:

  • Рассмотреть теоретические аспекты формирования многофакторной регрессии.

  • Провести отбор данных для построения модели поступления налога на доходы физических лиц в бюджет.

  • Оценить темноту связи результативного признака с факторными.

  • Провести отбор значимых факторов в модель

  • Построить модель на основании значимых факторов

  • Провести анализ степени влияния факторов

  • Рассмотреть двухфакторную модель.

Объектом исследования являются налоговые поступления по налогу на доходы физических лиц. Предметом исследования являются факторы и степень их влияния на поступление данного налога в бюджет.

Информационной базой являются данные официального сайта Росстата gks.ru.

Анализ проводился с использованием «Пакета анализа» MS Excel.

  1. Теоретические аспекты формирования многофакторной регрессии

Построение уравнения множественной регрессии начинается с решения вопроса о спецификации модели, включает в себя два круга вопросов: отбор факторов и выбор вида уравнения регрессии.

Включение в уравнение множественной регрессии того или иного набора факторов связано, прежде всего, с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости учитывается место нахождения недвижимости);

не должны быть интеркоррелированы и, тем более, находиться в точной функциональной связи.

Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель и параметры уравнения регрессии оказываются неинтерпретируемыми.

Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором р-факторов, то для нее рассчитывается показатель детерминации R2 , который фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии р-факторов. Влияние других, неучтенных в модели факторов, оценивается как 1 - R2 с соответствующей остаточной дисперсией S2 .

При дополнительном включении в регрессию фактора (р + 1) коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться:

и (1)

Если же этого не происходит и данные показатели практически мало отличаются друг от друга, то включаемый в анализ фактор xp + 1 не улучшает модель и практически является лишним фактором. Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по t-критерию Стьюдента.

Таким образом, хотя теоретически регрессионная модель позволяет учесть любое число факторов, практически в этом нет необходимости. Отбор факторов производится на основе качественного теоретико-экономического анализа. Однако теоретический анализ часто не позволяет однозначно ответить на вопрос о количественной взаимосвязи рассматриваемых признаков и целесообразности включения фактора в модель. Поэтому отбор факторов обычно осуществляется в две стадии: на первой — подбирают факторы, исходя из сущности проблемы; на второй — на основе матрицы показателей корреляции определяют t-статистики для параметров регрессии.

Коэффициенты интеркорреляции (т.е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Если факторы явно коллинеарны, то они дублируют друг друга и один из них рекомендуется исключить из регрессии. Предпочтение при этом отдается не фактору, более тесно связанному с результатом, а тому, который при достаточно тесной связи с результатом имеет наименьшую тесноту связи с другими факторами. В этом требовании проявляется специфика множественной регрессии как метода исследования комплексного воздействия факторов в условиях их независимости друг от друга.

По величине парных коэффициентов корреляции может обнаруживаться лишь явная коллинеарность факторов. Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов, когда более чем два фактора связаны между собой линейной зависимостью, т.е. имеет место совокупное воздействие факторов друг на друга.

Для оценки параметров уравнения множественной регрессии, так же как и для оценки этих параметров в простейшем случае парной однофакторной регрессии, используется метод наименьших квадратов (МНК). Соответствующая система нормальных уравнений имеет структуру, аналогичную той, которая была в модели однофакторной регрессии, но теперь является более громоздкой и для ее решения можно применять известный из линейной алгебры метод определителей Крамера.

Если парная регрессия (однофакторная) может дать хороший результат в случае, когда влиянием других факторов можно пренебречь, то исследователь не может быть уверен в справедливости пренебрежения влиянием прочих факторов в общем случае. Более того, в экономике, в отличие от химии, физики и биологии, затруднительно использовать для преодоления этой трудности методы планирования эксперимента ввиду отсутствия в экономике возможности регулирования отдельных факторов. Поэтому большое значение приобретает попытка выявления влияния прочих факторов с помощью построения уравнения множественной регрессии и изучения такого уравнения.

Анализ модели множественной регрессии требует разрешения двух весьма важных новых вопросов. Первым является вопрос разграничения эффектов различных независимых переменных. Данная проблема, когда она становится особенно существенна, носит название проблемы мультиколлинеарности. Вторая, не менее важная проблема заключается в оценке совместной (объединенной) объясняющей способности независимых переменных в противоположность влиянию их индивидуальных предельных эффектов.

С этими двумя вопросами связана проблема спецификации модели. Дело в том, что среди нескольких объясняющих переменных имеются оказывающие влияние на зависимую переменную и не оказывающие такового влияния. Более того, некоторые переменные могут и вовсе не подходить для данной модели. Поэтому необходимо решить, какие переменные следует включать в модель (уравнение), а какие, напротив, исключить. Так, если в уравнение не вошла переменная, которая по природе исследуемых явлений и процессов в действительности должна была быть включена в эту модель, то оценки коэффициентов регрессии с довольно большой вероятностью могут оказаться смещенными. При этом рассчитанные по простым формулам стандартные ошибки коэффициентов и соответствующие тесты в целом становятся некорректными.

Если же включена переменная, которая не должна присутствовать в уравнении, то оценки коэффициентов регрессии будут несмещенными, но с высокой вероятностью окажутся неэффективными. Также в этом случае рассчитанные стандартные ошибки окажутся в целом приемлемы, но из-за неэффективности регрессионных оценок они станут чрезмерно большими.

Особого внимания заслуживают так называемые замещающие переменные. Часто оказывается, что данные по какой-либо переменной не могут быть найдены или что определение таких переменных столь расплывчато, что непонятно, как их в принципе измерить. Другие переменные поддаются измерению, но таковое весьма трудоемко и требует много времени, что практически весьма неудобно. В подобных случаях приходится использовать некоторую другую переменную вместо вызывающей описанные выше затруднения. Такая переменная называется замещающей, но каким условиям она должна удовлетворять? Замещающая переменная должна выражаться в виде линейной функции (зависимости) от неизвестной (замещаемой) переменной, и наоборот, последняя также связана линейной зависимостью с замещающей переменной. Важно, что сами коэффициенты линейной зависимости неизвестны. Иначе всегда можно выразить одну переменную через другую и вовсе не использовать замещающей переменной. Оставаясь неизвестными, коэффициенты являются обязательно постоянными величинами. Бывает и так, что замещающая переменная используется непреднамеренно (неосознанно).

Включаемые в уравнение множественной регрессии факторы должны объяснить вариацию зависимой переменной. Если строится модель с некоторым набором факторов, то для нее рассчитывается показатель детерминации, который фиксирует долю объясненной вариации результативного признака (объясняемой переменной) за счет рассматриваемых в регрессии факторов. А как оценить влияние других, неучтенных в модели факторов? Их влияние оценивается вычитанием из единицы коэффициента детерминации, что и приводит к соответствующей остаточной дисперсии.

Таким образом, при дополнительном включении в регрессию еще одного фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит и данные показатели практически недостаточно значимо отличаются друг от друга, то включаемый в анализ дополнительный фактор не улучшает модель и практически является лишним фактором.

Если модель насыщается такими лишними факторами, то не только не снижается величина остаточной дисперсии и не увеличивается показатель детерминации, но, более того, снижается статистическая значимость параметров регрессии по критерию Стьюдента вплоть до статистической незначимости.

Вернемся теперь к уравнению множественной регрессии с точки зрения различных форм, представляющих такое уравнение. Если ввести стандартизованные переменные, представляющие собой исходные переменные, из которых вычитаются соответствующие средние, а полученная разность делится на стандартное отклонение, то получим уравнения регрессии в стандартизованном масштабе. К этому уравнению применим МНК. Для него из соответствующей системы уравнений определяются стандартизованные коэффициенты регрессии β (бета-коэффициенты). В свою очередь, коэффициенты множественной регрессии просто связаны со стандартизованными β-коэффициентами, именно коэффициенты регрессии получаются из β-коэффициентов умножением последних на дробь, представляющую собой отношение стандартного отклонения результативного фактора к стандартному отклонению соответствующей объясняющей переменной.

В простейшем случае парной регрессии стандартизованный коэффициент регрессии — это не что иное, как линейный коэффициент корреляции. Вообще стандартизованные коэффициенты регрессии показывают, на сколько стандартных отклонений изменится в среднем результат, если соответствующий фактор изменится на одно стандартное отклонение при неизменном среднем уровне других факторов. Кроме того, поскольку все переменные заданы как центрированные и нормированные, все стандартизованные коэффициенты регрессии сравнимы между собой, поэтому можно ранжировать факторы по силе их воздействия на результат. Следовательно, можно использовать стандартизованные коэффициенты регрессии для отсева факторов с наименьшим влиянием на результат просто по величинам соответствующих стандартизованных коэффициентов регрессии.

Теснота совместного влияния факторов на результат оценивается с помощью индекса множественной корреляции, который дается простой формулой: из единицы вычитается отношение остаточной дисперсии к дисперсии результативного фактора, а из полученной разности извлекается квадратный корень:

. (2)

Его величина лежит в пределах от 0 до 1 и при этом больше или равна максимальному парному индексу корреляции. Для уравнения в стандартизованном виде (масштабе) индекс множественной корреляции записывается еще проще, т.к. подкоренное выражение в данном случае является просто суммой попарных произведений β-коэффициентов на соответствующие парные индексы корреляции:

. (3)

Таким образом, в целом качество построенной модели оценивают с помощью коэффициента или индекса детерминации, как показано выше. Этот коэффициент множественной детерминации рассчитывается как индекс множественной корреляции, а иногда используют скорректированный соответствующий индекс множественной детерминации, который содержит поправку на число степеней свободы. Значимость уравнения множественной регрессии в целом оценивается с помощью F-критерия Фишера. Имеется также частный F-критерий Фишера, оценивающий статистическую значимость присутствия каждого из факторов в уравнении.

Оценка значимости коэффициентов чистой регрессии с помощью t-критерия Стьюдента сводится к вычислению корня квадратного из величины соответствующего частного критерия Фишера или, что то же самое, нахождению величины отношения коэффициента регрессии к среднеквадратической ошибке коэффициента регрессии.

При тесной линейной связанности факторов, входящих в уравнение множественной регрессии, возможна проблема мультиколлинеарности факторов. Количественным показателем явной коллинеарности двух переменных является соответствующий линейный коэффициент парной корреляции между этими двумя факторами. Две переменные явно коллинеарны, если этот коэффициент корреляции больше или равен 0,7. Но это указание на явную коллинеарность факторов абсолютно недостаточно для исследования общей проблемы мультиколлинеарности факторов, т.к. чем сильнее мультиколлинеарность (без обязательного наличия явной коллинеарности) факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью МНК.

  1. Подбор данных

В качестве факторов, влияющих на налоговые поступления по налогу на доходы физических лиц были выбраны следующие:

Х1 – индекс инфляции,

Х2 – коэффициент безработицы,

Х3 – процент рабочего населения,

Х4 – размер средней заработной платы.

Индекс инфляции оказывает влияние на номинальную заработную плату, а также на общее положение дел в стране.

Коэффициент безработицы и процент рабочего населения влияют на количество субъектов налогообложения, то есть физических лиц, уплачивающих НДФЛ.

Средняя заработная плата является объектом налогообложения.

Таблица 1

Исходные данные

год

Поступления по налогу на доходы физических лиц (Y)

Коэффициент инфляции (Х1)

Коэффициент безработицы (Х2)

Процент работающего населения (Х3)

Средняя заработная плата (Х4)

1990

 

105,3

   

303

1991

 

360,4

5,2

67,1

548

1992

0,43

2508,8

5,1

66,7

600

1993

4,4

940

5,9

64,3

369

1994

17,5

314,8

7,2

60,5

370

1995

36,6

231,3

9,6

58,7

472,4

1996

56,6

121,8

9,8

57,6

790,2

1997

75,2

111

12

54,9

950,2

1998

71,5

184,4

13,4

53

1051,5

1999

117,3

136,5

12,9

57,2

1522,6

2000

174,3

120,2

10

58,4

2223,4

2001

255,6

118,6

9,1

58,6

3240,4

2002

357,8

115,1

8,7

59,6

4360,3

2003

455,3

112

8

59,8

5498,5

2004

574,2

111,7

8,1

59,9

6739,5

2005

706,6

110,9

7,3

61,5

8554,9

2006

929,9

109

7

61,7

10633,9

2007

1266,1

111,9

5,9

63,2

13593,4

2008

1665,6

113,3

7,1

63,1

17290,1

2009

1665,8

108,8

8,7

62,1

18637,5

2010

1790,5

108,8

7,7

62,7

20952,2

2011

1995,8

106,1

6,5

68,3

23369,2

2012

2260,3

106,58

5,5

68,7

26628,9

  1. Оценка тесноты связи факторных признаков с результативным

Рассчитаем парные коэффициенты корреляции и построим графики зависимости поступлений НДФЛ в бюджет от факторов.

Рис. 1

Таблица 2

Коэффициент корреляции по модулю менее 50%, связь между поступлением НДФЛ и инфляцией слабая. В большей степени это связано с выбросом показателя инфляции в 1992 и 1993 годах, значения этого показателя в связи с изменениями в стране были аномально высокими.

Рис. 2

Таблица 3

Коэффициент корреляции по модулю менее 50%, связь между поступлением НДФЛ и уровнем безработицы слабая. Как видно из рисунка, данные достаточно сильно рассеяны.

Рис. 3

Таблица 4

Коэффициент корреляции по модулю находится в диапазоне 50%-80%, связь между поступлением НДФЛ и удельным весом занятых средняя. Как видно из рисунка, связь практически линейная, за исключением нескольких выбросов.

Рис. 4

Таблица 5

Коэффициент корреляции более 80%, связь между поступлением НДФЛ и средней заработной платы очень тесная, очень близка к функциональной.

Таким образом, величина поступления НДФЛ в бюджет слабо зависит от динамики уровня инфляции и безработицы, в средней степени зависит от численности занятых и очень сильно зависит от средней заработной платы.

  1. Отбор факторов в модель

Используем два способа выбора факторных признаков для построения регрессионной модели:

1. На основе анализа матрицы коэффициентов парной корреляции:

Таблица 6

На основании данного метода, необходимо исключить из модели только фактор инфляции, остальные факторы значимо коррелируют с поступлением НДФЛ в бюджет.

2. С помощью пошагового отбора методом исключения.

Рис. 5. Шаг 1 исключения переменных

Табличное значение t-статистики равно 2,1199, поэтому исключаем переменную Х1, как самую незначимую.

Рис. 6. Шаг 2 исключения переменных

Табличное значение t-статистики равно 2,1098, поэтому исключаем переменную Х2, как самую незначимую.

Рис. 7. Шаг 3 исключения переменных

Табличное значение t-статистики равно 2,1009, поэтому исключаем переменную Х3, как незначимую.

Таким образом, влияние инфляции, безработицы и числа занятых в линейной модели не значимы. Значимо влияние только средней заработной платы. При ее увеличении на 1 руб. поступления НДФЛ в бюджет увеличиваются на 0,088 млрд. руб.

  1. Построение модели

Так как значимым оказался только фактор Х4 – средняя заработная плата, строим модель зависимости поступления НДФЛ от данного фактора

Рис. 8. Регрессионный анализ зависимости поступления НДФЛ от средней заработной платы

Получаем уравнение регрессии:

Y=0,088x-16,14

Таким образом, увеличение заработной платы на 1 руб. увеличивает поступления НДФЛ в бюджет на 0,088 млрд. руб. Влияние прочих факторов составляет -16,14 млрд.руб.

Коэффициент детерминации равен 0,9961, то есть 99,61% колебания поступлений НДФЛ в бюджет зависят от колебаний средней заработной платы.

  1. Анализ чувствительности

Чувствительность результативного признака определяется коэффициентами эластичности, а также бета и дельта коэффициентами.

Таблица 7

Увеличение инфляции на 1 процентный пункт увеличивает поступление НДФЛ на 0,4%, увеличение уровня безработицы на 1 процентный пункт снижает поступление НДФЛ на 19,87%, увеличение числа работающих на 1% снижает поступление НДФЛ на 133,09% и увеличение средней заработной платы на 1% увеличивает поступление НДФЛ на 105,56%

Бета-коэффициент максимален для фактора Х4 - средняя заработная плата, этот фактор оказывает максимальное воздействие.

Дельта-коэффициент показывает долю влияния каждого фактора в суммарном влиянии всех факторов на зависимую переменную Y, он также максимален для средней заработной платы.

  1. Двухфакторная модель

Рассмотрим также двухфакторную модель – зависимость поступления НДФЛ в бюджет от уровня инфляции и доли занятых в экономике.

Рис. 9. Регрессионный анализ зависимости поступления НДФЛ в бюджет от уровня инфляции и доли занятых в экономике

Таким образом, при исключении из модели такого сильного регрессора как заработная плата, показатели инфляции и средней доли занятых в экономике становятся значимыми.

Уравнение регрессии:

Y = -9203,5-0,87Х1 + 166,3Х3.

Данная модель показывает, что при увеличении инфляции на 1% поступления НДФЛ снижаются на 0,97 млрд. руб., а при росте доли занятых на 1% - увеличиваются на 166,3 млрд. руб.

  1. Заключение

На основании проведенного статистического анализа динамики налоговых поступлений по налогу на доходы физических лиц можно сделать следующие выводы.

Для анализ результативного фактора – поступлений НДФЛ в бюджет были выбраны ряд факоров. Индекс инфляции оказывает влияние на номинальную заработную плату, а также на общее положение дел в стране. Коэффициент безработицы и процент рабочего населения влияют на количество субъектов налогообложения, то есть физических лиц, уплачивающих НДФЛ. Средняя заработная плата является объектом налогообложения.

Расчет парных коэффициентов корреляции показал, что величина поступления НДФЛ в бюджет слабо зависит от динамики уровня инфляции и безработицы, в средней степени зависит от численности занятых и очень сильно зависит от средней заработной платы.

Отбор факторов в модель показал, что влияние инфляции, безработицы и числа занятых в линейной модели не значимы. Значимо влияние только средней заработной платы. При ее увеличении на 1 руб. поступления НДФЛ в бюджет увеличиваются на 0,088 млрд. руб. Коэффициент детерминации равен 0,9961, то есть 99,61% колебания поступлений НДФЛ в бюджет зависят от колебаний средней заработной платы.

Анализ чувствительности показал, что Увеличение инфляции на 1 процентный пункт увеличивает поступление НДФЛ на 0,4%, увеличение уровня безработицы на 1 процентный пункт снижает поступление НДФЛ на 19,87%, увеличение числа работающих на 1% снижает поступление НДФЛ на 133,09% и увеличение средней заработной платы на 1% увеличивает поступление НДФЛ на 105,56%. Бета-коэффициент максимален для фактора Х4 - средняя заработная плата, этот фактор оказывает максимальное воздействие. Дельта-коэффициент показывает долю влияния каждого фактора в суммарном влиянии всех факторов на зависимую переменную Y, он также максимален для средней заработной платы.

При исключении из модели такого сильного регрессора как заработная плата, показатели инфляции и средней доли занятых в экономике становятся значимыми. Уравнение регрессии: Y = -9203,5-0,87Х1 + 166,3Х3. Данная модель показывает, что при увеличении инфляции на 1% поступления НДФЛ снижаются на 0,97 млрд. руб., а при росте доли занятых на 1% - увеличиваются на 166,3 млрд. руб.

  1. Список литературы

1. Афанасьев, В. Н. Анализ временных рядов и прогнозирование [Текст]: учебник / В. Н. Афанасьев, М. М. Юзбашев. – М.: Финансы и статистика, 2001. - 228 с.

2. Елисеева, И. И. Общая теория статистики [Текст]: учебник для вузов / И. И. Елисеева, М. М. Юзбашев. – 5-е изд. пер. и доп. – М.: Финансы и статистика, 2004. – 656 с.

3. Ефимова, М. Р. Общая теория статистики [Текст] / М. Р. Ефимова, Е. В. Петрова, В. Н. Румянцев; под общ. ред. М. Р. Ефимовой. - М.: ИНФРА-М, 2003. - 416 с.

4. Ефимова, М. Р. Практикум по общей теории статистики [Текст]: учеб. пособие / М. Р. Ефимова, О. И. Ганченко, Е. В. Петрова. - М.: Финансы и статистика, 1999. -280 с.

5. Гусаров, В. М. Статистика [Текст]: учеб. пособие / В. М. Гусаров. - М.: ЮНИТИ, 2002. – 463 с.

Просмотров работы: 4675