ПРОВЕДЕНИЕ КОРРЕЛЯЦИОННОГО И РЕГРЕССИОННОГО АНАЛИЗА: АЛГОРИТМИЧЕСКАЯ РЕАЛИЗАЦИЯ И СТАТИСТИЧЕСКАЯ ВЕРИФИКАЦИЯ - Студенческий научный форум

XVIII Международная студенческая научная конференция Студенческий научный форум - 2026

ПРОВЕДЕНИЕ КОРРЕЛЯЦИОННОГО И РЕГРЕССИОННОГО АНАЛИЗА: АЛГОРИТМИЧЕСКАЯ РЕАЛИЗАЦИЯ И СТАТИСТИЧЕСКАЯ ВЕРИФИКАЦИЯ

Волошин В.О. 1, Ступницкий В.С. 1
1ФГБОУ «Мелитопольский государственный университет»
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Введение. В современной исследовательской практике и междисциплинарных научных изысканиях неуклонно возрастает значение автоматизированных систем статистического анализа. Современные инструменты анализа данных сегодня не просто производят арифметические вычисления, но обеспечивают комплексную визуализацию, многофакторную проверку статистических предположений и интеллектуальную интерпретацию полученных результатов [1, 4].Корреляционный и регрессионный анализ являются фундаментальными методами прикладной статистики, позволяющими выявлять структуру связей между переменными и строить прогностические модели в условиях неопределенности. Однако, как указывают Дрейпер и Смит [2], применение этих методов требует не только технического построения уравнения, но и строгой методологической верификации. Ключевым аспектом здесь выступает соблюдение условий классической линейной регрессионной модели (предпосылки Гаусса-Маркова), без проверки которых полученные оценки параметров могут оказаться смещенными или неэффективными [7, 8].

Актуальность данной работы обусловлена необходимостью создания доступного и методологически выверенного инструментария для исследователей. В то время как коммерческие пакеты (такие как SPSS или Statistica) обладают широким функционалом, разработка собственного программного обеспечения на языке Python с использованием библиотек numpy, scipy и matplotlib позволяет достичь максимальной прозрачности алгоритмов и гибкости в визуализации данных [5]. Кроме того, реализация ключевых вычислительных модулей на языке C# в рамках данной работы позволяет провести сравнительный анализ производительности и алгоритмической точности различных подходов к реализации матричных вычислений. Особенностью представленной работы является реализация полного цикла статистического анализа в рамках единого графического интерфейса: от первичной дескриптивной статистики и оценки тесноты связи по Пирсону до дисперсионного анализа (ANOVA) и построения прогнозных интервалов. Согласно исследованиям Хасти и Тибширани [10], именно комплексная верификация остатков регрессии и оценка значимости через F-критерий Фишера определяют прогностическую ценность модели в реальных задачах экстраполяции данных.

Цель исследования. Целью настоящей работы является демонстрация полного цикла статистического анализа — от первичной обработки данных до верификации модели и практического прогнозирования — с представлением всех промежуточных результатов и их содержательной интерпретации.

Материал и методы исследования. Методологической основой является метод наименьших квадратов (МНК) и аппарат математической статистики для оценки значимости коэффициентов. Программная реализация выполнена на языке Python с использованием библиотек scipy (статистические функции), numpy (матричные вычисления) и matplotlib (визуализация).

Результаты исследования и их обсуждение.Корреляционный и регрессионный анализ составляют фундаментальный аппарат статистического исследования взаимосвязей между переменными, позволяя не только оценить силу и направление зависимости, но и построить прогностическую модель. Методологической основой является комплекс математических методов, включающий вычисление коэффициента корреляции для оценки тесноты связи и построение регрессионной модели для её функционального описания.

Основным показателем линейной связи выступает коэффициент корреляции Пирсона, вычисляемый по формуле:

Этот коэффициент, принимающий значения от -1 до 1, позволяет количественно оценить силу и направление линейной зависимости между переменными X и Y. Для функционального описания этой зависимости строится линейная регрессионная модель вида:

yi = β0 + β1xi + εi, εi ∼ N(0,σ2)

Параметры которой оцениваются методом наименьших квадратов:

Качество построенной модели оценивается с помощью коэффициента детерминации R2, показывающего долю объяснённой дисперсии, и проверяется посредством дисперсионного анализа (ANOVA). Статистическая значимость результатов подтверждается с использованием t-тестов для коэффициентов и F-теста для модели в целом.

На основе этих теоретических положений было проведено эмпирическое исследование с использованием специализированного программного обеспечения, реализующего полный цикл статистического анализа от первичной обработки данных до прогнозирования и верификации модели.

На основе эмпирических данных, содержащих 9 пар наблюдений таблица 1, выполнено построение линейной регрессионной модели с последующей проверкой её адекватности и статистической значимости. Реализация выполнена на языке Python в рамках специализированного приложения с графическим интерфейсом. Результаты включают: расчёт коэффициента корреляции Пирсона, построение уравнения регрессии, дисперсионный анализ (ANOVA), проверку значимости коэффициентов, анализ остатков и прогнозирование с доверительными интервалами для X = 70, 80, 85.

Таблица 1

Таблица эмпирических данных

i

1

2

3

4

5

6

7

8

9

x

45

33

54

43

43

45

38

42

39

y

98

84

115

94

94

92

82

91

87

Программная реализация выполнена на языке Python с использованием объектно-ориентированного подхода рис. 1. Основной класс ModernRegressionApp рис. 2. инкапсулирует всю логику анализа, визуализации и взаимодействия с пользователем.

Рисунок 1 - Построение линейной регрессии с доверительными интервалам

Рисунок 2 - Логика анализа, визуализации и взаимодействия с пользователем

Использование объектно-ориентированной парадигмы позволяет чётко разделить ответственность между компонентами системы: управление данными, статистические вычисления, визуализация и взаимодействие с пользователем [5].

В программе реализован расчёт коэффициента корреляции Пирсона с проверкой статистической значимости рис. 3 и выводом результата расчёта рис. 4:

Рисунок 3 - Расчёт коэффициента корреляции Пирсона с проверкой статистической значимости

Рисунок 4 - Результаты выполнения кода

Полученный коэффициент корреляции r = 0.936 свидетельствует об очень сильной положительной линейной связи между переменными. Статистическая значимость (p < 0.0002) позволяет с высокой степенью уверенности отвергнуть нулевую гипотезу об отсутствии корреляции [6].

Алгоритм вычисления параметров линейной регрессии реализован следующим образом рис. 5, так же с выводом результата рис. 6:

Рисунок 5 -Алгоритм вычисления параметров линейной регрессии

Рисунок 6- Результаты выполнения кода

Построенная модель ŷ = 26.38 + 1.57x объясняет 87.6% дисперсии зависимой переменной, что свидетельствует о высоком качестве модели. Стандартные ошибки коэффициентов используются для построения доверительных интервалов, которые показывают диапазон, в котором с 95% вероятностью находятся истинные значения параметров [7].

Программа так же автоматически вычисляет таблицу дисперсионного анализа рис. 7, с выводом результатов рис. 8:

Рисунок 7 -Метод вычисления дисперсионного анализа

Рисунок 8 -Результаты выполнения кода

Значение F-статистики (49.63) существенно превышает критическое значение (5.59), что подтверждает статистическую значимость регрессионной модели в целом [8]. Это означает, что построенная модель значимо лучше описывает данные, чем модель с только свободным членом.

Программа выполняет комплексный анализ остатков регрессии рис. 9 с выводом результатов в соответствующем разделе результатов рис. 10. Он показывает, что их распределение не противоречит предположению о нормальности (асимметрия и эксцесс находятся в пределах нормы). Это важное условие для корректного применения t-тестов и F-тестов в регрессионном анализе [9].

Рисунок 9 -Комплексный анализ остатков регрессии

Рисунок 10 - Результаты выполнения кода

Программа реализует прогнозирование с вычислением доверительных и прогнозных интервалов (в данном случае для X = 70, 80, 85) рис. 10, и выводом их в раздел результатов рис. 11:

Рисунок 10 -прогнозирование с вычислением доверительных и прогнозных интервалов

Рисунок 11 -Результаты выполнения кода

Программа создаёт комплексные графики с отображением всех компонентов анализа рис. 12. Прогнозные значения получены для X = 70, 80, 85, что представляет собой экстраполяцию за пределы диапазона исходных данных (33 ≤ X ≤ 54). Прогнозные интервалы шире доверительных интервалов, что отражает дополнительную неопределённость, связанную с прогнозированием индивидуальных значений [10]. Для X = 85 прогнозный интервал составляет [135.60, 183.99], что указывает на существенную неопределённость экстраполяционных прогнозов.

Рисунок 12 - Комплексный график с отображением всех компонентов анализа

Программа включает автоматическую проверку ключевых предположений регрессионного анализа рис. 13:

- Линейность связи - проверяется визуально на графике и через коэффициент детерминации.

- Нормальность остатков - оценивается по коэффициентам асимметрии и эксцесса.

- Гомоскедастичность - проверяется визуальным анализом остатков

- Независимость остатков - предполагается для перекрёстных данных.

Программа автоматически генерирует предупреждения о методологических ограничениях.

Рисунок 13 -Предупреждения о методологических ограничениях

Разработанное прикладное программное обеспечение на языке Python представляет собой законченное решение для проведения комплексного статистического анализа. В отличие от стандартных вычислительных инструментов, данная система реализует замкнутый цикл обработки данных: от оценки тесноты связи до многофакторной верификации прогнозных моделей.

Выводы. В результате проделанной работы спроектирована и программно реализована система, обеспечивающая строгий математический подход к регрессионному моделированию. Полученные в ходе анализа данные подтвердили работоспособность алгоритмов верификации остатков и точность интервального прогнозирования. Использование разработанного ПО позволяет сократить время на обработку данных и повысить качество статистических выводов.

СПИСОК ЛИТЕРАТУРЫ:

  1. Айвазян С.А., Мхитарян В.С. Прикладная статистика и основы эконометрики. — М.: Юнити, 2018. — 1080 с.

  2. Дрейпер Н., Смит Г. Прикладной регрессионный анализ. — М.: Диалектика, 2019. — 912 с.

  3. Кремер Н.Ш. Теория вероятностей и математическая статистика. — М.: Юрайт, 2020. — 550 с.

  4. Фёдорова М.П., Фёдоров А.Е. Статистический анализ данных. — СПб.: Питер, 2019. — 320 с.

  5. McKinney W. Python for Data Analysis. — O'Reilly Media, 2022. — 588 p.

  6. Орлов А.И. Эконометрика. — М.: Экзамен, 2018. — 576 с.

  7. Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. — М.: Дело, 2017. — 504 с.

  8. Доугерти К. Введение в эконометрику. — М.: ИНФРА-М, 2019. — 465 с.

  9. Чеддок Р.Э. Основы статистики для менеджеров. — М.: Вильямс, 2018. — 720 с.

  10. Хасти Т., Тибширани Р., Фридман Дж. Элементы статистического обучения. — М.: Диалектика, 2020. — 768 с.

Просмотров работы: 8