Метод наименьших квадратов (МНК, англ. Ordinary Least Squares, OLS) — один из методов оценки параметров регрессионных моделей. Достоинством метода являются — статистические свойства МНК-оценок (при выполнении предпосылок Гаусса-Маркова — несмещенность и эффективность), простота математических выводов и практической реализации.
МНК позволяет решить задачу «наилучшего» приближения выборочных данных , линейной функцией
(1)
— для парной регрессии.
Смысл «наилучшего» приближения определяется выбором критерия. В методе наименьших квадратов — это сумма квадратов отклонений (остатков)
=,
и оценки параметров и должны быть подобраны таким образом, чтобы функция была минимальна:
. (2)
Для решения задачи (2) (задача на безусловный экстремум) составляются необходимые условия экстремума(First Order Condition):
,
которые, можно также записать следующим образом:
, (3)
или в компактной форме:
.
Система (3) называется системой нормальных уравнений. В (3) столько уравнений, сколько параметров требуется оценить по выборочным данным. Из решения системы нормальных уравнений находятся МНК-оценки параметров:
,
где и - средние значения по выборке:
, .
Подстановка, полученного для выражения, во второе уравнение системы нормальных уравнений
,
приводит к следующей оценке параметра b
,
где
, — значения переменных центрированные по средним выборочным;
Таким образом, МНК - оценки параметров парной регрессионной модели выражаются через выборочные данные следующим образом:
. (4)
Реализация регрессионного анализа в программе MS Excel
Для проведения расчетов по линейному методу МНК можно использовать программу Microsoft Excel (входит в программный пакет Microsoft Office).
Наиболее просто реализуются вычисления коэффициентов линейной регрессионной модели (1).
Для этого можно использовать следующие встроенные функций MS Excel:
ОТРЕЗОК (диапозон_Y; диапазон_X)
НАКЛОН (диапазон_Y; диапазон_X)
КОРРЕЛ (диапазон_Y; диапазон_X)
Первая функция вычисляет свободный член уравнения регрессии ( в выражении (1)), вторая – наклон прямой (b в выражении (1)). Третья функция позволяет вычислить коэффициент корреляции.
Каждая из функций принимает два аргумента, разделяемых знаком точка с запятой “;”. Каждый из аргументов определяет диапазон ячеек, в котором находятся значения зависимой (диапазон_Y) и независимой (диапазон_Х) переменных. Диапазоны должны быть одинаковой формы (вектор-строка или вектор-столбец одинаковой длины).
В более общем виде линейный МНК может быть реализован с помощью встроенной функции ЛИНЕЙН, которая производит вычисления коэффициентов линейной регрессии и дополнительно рассчитывает ряд статистических показателей. Вычисленные коэффициенты регрессии и статистики возвращаются в виде массива чисел. Поскольку возвращается массив значений, функция должна задаваться в виде формулы массива.
Функция ЛИНЕЙН может принимать от одного до четырех аргументов. Обязателен только первый аргумент, остальные – необязательные:
ЛИНЕЙН (диапазон Y, [диапазон X], [константа], [статистика])
Диапазон Y — обязательный аргумент. Диапазон ячеек, содержащий множество значений зависимой переменной (y);
Диапазон Х — Диапазон ячеек, содержащий множество значений независимых переменных. Если переменных несколько, то они должны располагаться в смежных ячейках. Каждый диапазон значений независимой переменной должен иметь форму, аналогичную диапазону Y.
Константа. Необязательный аргумент. Логическое значение, которое указывает, требуется ли, чтобы константа была равна 0. Если аргумент константа имеет значение ИСТИНА или опущен, то свободный член вычисляется обычным образом.
Если аргумент константа имеет значение ЛОЖЬ, то значение полагается равным 0 и значения коэффициентов регрессии подбираются с этим условием.
Статистика. Необязательный аргумент. Логическое значение, которое указывает, требуется ли возвратить дополнительную регрессионную статистику. Если аргумент статистика имеет значение ИСТИНА, функция ЛИНЕЙН возвращает дополнительную регрессионную статистику. Возвращаемый массив чисел будет иметь следующий вид:
Если аргумент статистика имеет значение ЛОЖЬ или опущен, функция ЛИНЕЙН возвращает только коэффициенты (то есть, вектор-строку). Размер диапазона ячеек, в которые будет записан результат выполнения функции ЛИНЕЙН следующий:
1. Если статистика=ЛОЖЬ, то 1 строка и n столбцов (n-число определяемых параметров)
2. Если статистика=ИСТИНА, то 5 строк и k столбцов (число столбцов равно числу оцениваемых параметров, для парной регрессии — 2).
Описание значений, вычисляемых функцией приведены в таблице ниже.
Величина |
Описание |
МНК-оценки параметров. |
|
и т.д. |
Стандартные значения ошибок для коэффициентов b;a; ... |
Коэффициент детерминации. Он характеризует тесноту связи между результативным показателем и набором факторных показателей. Принимает только положительные значения в пределах от 0 до 1. Чем ближе значение коэффициента к 1, тем больше теснота связи. И, наоборот, чем ближе к 0, тем зависимость меньше. |
|
Оценка ско возмущения. |
|
F |
F-статистика или F-наблюдаемое значение. F-статистика используется для определения того, является ли случайной наблюдаемая взаимосвязь между зависимой и независимой переменными. |
Степени свободы. Степени свободы полезны для нахождения F-критических значений в статистической таблице. Для определения уровня надежности модели необходимо сравнить значения в таблице с F-статистикой, возвращаемой функцией ЛИНЕЙН. |
|
RSS |
Регрессионная сумма квадратов. |
ESS |
Остаточная сумма квадратов, равна сумме квадратов разностей для каждой точки между прогнозируемым значением y и фактическим значением y. |
Практическая часть
Пример. По территориям региона приводятся данные за 20ХХ г.
Таблица П1.
Номер региона |
Среднедневная заработная плата, руб., y |
Среднедушевой прожиточный минимум в день одного трудоспособного, руб., x |
1 |
133 |
78 |
2 |
148 |
82 |
3 |
134 |
87 |
4 |
154 |
79 |
5 |
162 |
89 |
6 |
195 |
106 |
7 |
139 |
67 |
8 |
158 |
88 |
9 |
152 |
73 |
10 |
162 |
87 |
11 |
159 |
76 |
12 |
173 |
115 |
Используя функцию ЛИНЕЙН, оценим регрессионную модель зависимости размера средней заработной платы в регионе от среднедушевого прожиточного минимума:
0,920431 |
76,97649 |
||
0,279716 |
24,21156 |
||
0,519877 |
12,54959 |
||
10,82801 |
10 |
||
1705,328 |
1574,922 |
Можем записать стандартную форму записи оцененной модели:
Y=76.98+0.92×Xt+et
24.21 (0.28) (12.55)
Таким образом, в нашем случае коэффициент детерминации равен 0,52, следовательно, оцененная модель среднего качества.
С увеличением среднедневной зарплаты среднедушевой прожиточный минимум увеличивается на 0,92 процентных пунктов.
Список использованной литературы
1. Бабешко Л.О. Основы эконометрического моделирования. — М.: КомКнига, 2010. —432 с.
Бородич С.А. «Эконометрика» Минск: Новое знание, 2001. – 408 с.
Орлов А.И. «Эконометрика» М.: Издательство "Экзамен", 2002.
Кремер Н.Ш., Путко Б.А. «Эконометрика» Учебник для вузов / Под ред. Проф. Н.Ш. Кремера. – М.: ЮНИТА-ДАНА, 2005. -311с.