Введение. В современной исследовательской практике и междисциплинарных научных изысканиях неуклонно возрастает значение автоматизированных систем статистического анализа. Современные инструменты анализа данных сегодня не просто производят арифметические вычисления, но обеспечивают комплексную визуализацию, многофакторную проверку статистических предположений и интеллектуальную интерпретацию полученных результатов [1, 4].Корреляционный и регрессионный анализ являются фундаментальными методами прикладной статистики, позволяющими выявлять структуру связей между переменными и строить прогностические модели в условиях неопределенности. Однако, как указывают Дрейпер и Смит [2], применение этих методов требует не только технического построения уравнения, но и строгой методологической верификации. Ключевым аспектом здесь выступает соблюдение условий классической линейной регрессионной модели (предпосылки Гаусса-Маркова), без проверки которых полученные оценки параметров могут оказаться смещенными или неэффективными [7, 8].
Актуальность данной работы обусловлена необходимостью создания доступного и методологически выверенного инструментария для исследователей. В то время как коммерческие пакеты (такие как SPSS или Statistica) обладают широким функционалом, разработка собственного программного обеспечения на языке Python с использованием библиотек numpy, scipy и matplotlib позволяет достичь максимальной прозрачности алгоритмов и гибкости в визуализации данных [5]. Кроме того, реализация ключевых вычислительных модулей на языке C# в рамках данной работы позволяет провести сравнительный анализ производительности и алгоритмической точности различных подходов к реализации матричных вычислений. Особенностью представленной работы является реализация полного цикла статистического анализа в рамках единого графического интерфейса: от первичной дескриптивной статистики и оценки тесноты связи по Пирсону до дисперсионного анализа (ANOVA) и построения прогнозных интервалов. Согласно исследованиям Хасти и Тибширани [10], именно комплексная верификация остатков регрессии и оценка значимости через F-критерий Фишера определяют прогностическую ценность модели в реальных задачах экстраполяции данных.
Цель исследования. Целью настоящей работы является демонстрация полного цикла статистического анализа — от первичной обработки данных до верификации модели и практического прогнозирования — с представлением всех промежуточных результатов и их содержательной интерпретации.
Материал и методы исследования. Методологической основой является метод наименьших квадратов (МНК) и аппарат математической статистики для оценки значимости коэффициентов. Программная реализация выполнена на языке Python с использованием библиотек scipy (статистические функции), numpy (матричные вычисления) и matplotlib (визуализация).
Результаты исследования и их обсуждение.Корреляционный и регрессионный анализ составляют фундаментальный аппарат статистического исследования взаимосвязей между переменными, позволяя не только оценить силу и направление зависимости, но и построить прогностическую модель. Методологической основой является комплекс математических методов, включающий вычисление коэффициента корреляции для оценки тесноты связи и построение регрессионной модели для её функционального описания.
Основным показателем линейной связи выступает коэффициент корреляции Пирсона, вычисляемый по формуле:
Этот коэффициент, принимающий значения от -1 до 1, позволяет количественно оценить силу и направление линейной зависимости между переменными X и Y. Для функционального описания этой зависимости строится линейная регрессионная модель вида:
yi = β0 + β1xi + εi, εi ∼ N(0,σ2)
Параметры которой оцениваются методом наименьших квадратов:
Качество построенной модели оценивается с помощью коэффициента детерминации R2, показывающего долю объяснённой дисперсии, и проверяется посредством дисперсионного анализа (ANOVA). Статистическая значимость результатов подтверждается с использованием t-тестов для коэффициентов и F-теста для модели в целом.
На основе этих теоретических положений было проведено эмпирическое исследование с использованием специализированного программного обеспечения, реализующего полный цикл статистического анализа от первичной обработки данных до прогнозирования и верификации модели.
На основе эмпирических данных, содержащих 9 пар наблюдений таблица 1, выполнено построение линейной регрессионной модели с последующей проверкой её адекватности и статистической значимости. Реализация выполнена на языке Python в рамках специализированного приложения с графическим интерфейсом. Результаты включают: расчёт коэффициента корреляции Пирсона, построение уравнения регрессии, дисперсионный анализ (ANOVA), проверку значимости коэффициентов, анализ остатков и прогнозирование с доверительными интервалами для X = 70, 80, 85.
Таблица 1
Таблица эмпирических данных
|
i |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
|
x |
45 |
33 |
54 |
43 |
43 |
45 |
38 |
42 |
39 |
|
y |
98 |
84 |
115 |
94 |
94 |
92 |
82 |
91 |
87 |
Программная реализация выполнена на языке Python с использованием объектно-ориентированного подхода рис. 1. Основной класс ModernRegressionApp рис. 2. инкапсулирует всю логику анализа, визуализации и взаимодействия с пользователем.
Рисунок 1 - Построение линейной регрессии с доверительными интервалам
Рисунок 2 - Логика анализа, визуализации и взаимодействия с пользователем
Использование объектно-ориентированной парадигмы позволяет чётко разделить ответственность между компонентами системы: управление данными, статистические вычисления, визуализация и взаимодействие с пользователем [5].
В программе реализован расчёт коэффициента корреляции Пирсона с проверкой статистической значимости рис. 3 и выводом результата расчёта рис. 4:
Рисунок 3 - Расчёт коэффициента корреляции Пирсона с проверкой статистической значимости
Рисунок 4 - Результаты выполнения кода
Полученный коэффициент корреляции r = 0.936 свидетельствует об очень сильной положительной линейной связи между переменными. Статистическая значимость (p < 0.0002) позволяет с высокой степенью уверенности отвергнуть нулевую гипотезу об отсутствии корреляции [6].
Алгоритм вычисления параметров линейной регрессии реализован следующим образом рис. 5, так же с выводом результата рис. 6:
Рисунок 5 -Алгоритм вычисления параметров линейной регрессии
Рисунок 6- Результаты выполнения кода
Построенная модель ŷ = 26.38 + 1.57x объясняет 87.6% дисперсии зависимой переменной, что свидетельствует о высоком качестве модели. Стандартные ошибки коэффициентов используются для построения доверительных интервалов, которые показывают диапазон, в котором с 95% вероятностью находятся истинные значения параметров [7].
Программа так же автоматически вычисляет таблицу дисперсионного анализа рис. 7, с выводом результатов рис. 8:
Рисунок 7 -Метод вычисления дисперсионного анализа
Рисунок 8 -Результаты выполнения кода
Значение F-статистики (49.63) существенно превышает критическое значение (5.59), что подтверждает статистическую значимость регрессионной модели в целом [8]. Это означает, что построенная модель значимо лучше описывает данные, чем модель с только свободным членом.
Программа выполняет комплексный анализ остатков регрессии рис. 9 с выводом результатов в соответствующем разделе результатов рис. 10. Он показывает, что их распределение не противоречит предположению о нормальности (асимметрия и эксцесс находятся в пределах нормы). Это важное условие для корректного применения t-тестов и F-тестов в регрессионном анализе [9].
Рисунок 9 -Комплексный анализ остатков регрессии
Рисунок 10 - Результаты выполнения кода
Программа реализует прогнозирование с вычислением доверительных и прогнозных интервалов (в данном случае для X = 70, 80, 85) рис. 10, и выводом их в раздел результатов рис. 11:
Рисунок 10 -прогнозирование с вычислением доверительных и прогнозных интервалов
Рисунок 11 -Результаты выполнения кода
Программа создаёт комплексные графики с отображением всех компонентов анализа рис. 12. Прогнозные значения получены для X = 70, 80, 85, что представляет собой экстраполяцию за пределы диапазона исходных данных (33 ≤ X ≤ 54). Прогнозные интервалы шире доверительных интервалов, что отражает дополнительную неопределённость, связанную с прогнозированием индивидуальных значений [10]. Для X = 85 прогнозный интервал составляет [135.60, 183.99], что указывает на существенную неопределённость экстраполяционных прогнозов.
Рисунок 12 - Комплексный график с отображением всех компонентов анализа
Программа включает автоматическую проверку ключевых предположений регрессионного анализа рис. 13:
- Линейность связи - проверяется визуально на графике и через коэффициент детерминации.
- Нормальность остатков - оценивается по коэффициентам асимметрии и эксцесса.
- Гомоскедастичность - проверяется визуальным анализом остатков
- Независимость остатков - предполагается для перекрёстных данных.
Программа автоматически генерирует предупреждения о методологических ограничениях.
Рисунок 13 -Предупреждения о методологических ограничениях
Разработанное прикладное программное обеспечение на языке Python представляет собой законченное решение для проведения комплексного статистического анализа. В отличие от стандартных вычислительных инструментов, данная система реализует замкнутый цикл обработки данных: от оценки тесноты связи до многофакторной верификации прогнозных моделей.
Выводы. В результате проделанной работы спроектирована и программно реализована система, обеспечивающая строгий математический подход к регрессионному моделированию. Полученные в ходе анализа данные подтвердили работоспособность алгоритмов верификации остатков и точность интервального прогнозирования. Использование разработанного ПО позволяет сократить время на обработку данных и повысить качество статистических выводов.
СПИСОК ЛИТЕРАТУРЫ:
Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. — М.: Юнити, 2018. — 1080 с.
Дрейпер Н., Смит Г. Прикладной регрессионный анализ. — М.: Диалектика, 2019. — 912 с.
Кремер Н.Ш. Теория вероятностей и математическая статистика. — М.: Юрайт, 2020. — 550 с.
Фёдорова М.П., Фёдоров А.Е. Статистический анализ данных. — СПб.: Питер, 2019. — 320 с.
McKinney W. Python for Data Analysis. — O'Reilly Media, 2022. — 588 p.
Орлов А.И. Эконометрика. — М.: Экзамен, 2018. — 576 с.
Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. — М.: Дело, 2017. — 504 с.
Доугерти К. Введение в эконометрику. — М.: ИНФРА-М, 2019. — 465 с.
Чеддок Р.Э. Основы статистики для менеджеров. — М.: Вильямс, 2018. — 720 с.
Хасти Т., Тибширани Р., Фридман Дж. Элементы статистического обучения. — М.: Диалектика, 2020. — 768 с.