Разработка программных модулей для анализа интервальных данных

Силенгинская Д.А. 1, Вихтенко Э.М. 1

1ТОГУ

Работа в формате PDF

1.2 MB

Диплом участника Диплом руководителя секции

Комментарии

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

Введение

Актуальность и значимость работы. Несмотря на то, что современные технологии позволяют проводить измерения с высокой точностью, достоверно определить истинное значение измеряемой величины не представляется возможным. Почти всегда, как правило, существует некоторая погрешность, обусловленная влиянием внешней среды, несовершенство приборов, человеческим фактором и другими причинами. То есть, величина представлена не одним числом (точечное значение), а неким интервалом значений.

Разумеется, погрешность измерений не является единственной причиной применения интервальных данных. Большое количество непрерывных переменных, таких как температура или время разумно представлять не точечными значениями, а определенными интервалами. Это дает возможность получения более адекватной и точной математической модели. Например, если в течение суток температура в определенной местности колебалась от +10 до +20 ⁰С, замена этих данных каким-либо точечным (например, средним) значением не может представить в полной мере объективную картину.

Поэтому часто возникает необходимость анализировать не точечные числовые значения, а интервалы возможных значений. Однако классические математические методы применимы только для точечных значений. Следовательно, необходимо использовать специализированные методы для анализа интервальных данных.

А так как статистические методы обработки данных находят все более широкое применение в самых разных сферах народного хозяйства, разработка данных инструментов представляется важной практической задачей.

Таким образом, целью данной работы является разработка программных модулей для обработки и анализа интервальных данных.

Реализация данной цели требует решения следующих задач:

- изучить методы интерполирования, регрессионного и корреляционного анализа точечных данных;

- на основе изученных методов разработать алгоритмы для обработки и анализа интервальных данных;

- разработать программные модули для интерполирования, проведения регрессионного и корреляционного анализа интервальных данных;

- провести анализ интервальных данных с помощью разработанных программных модулей.

Интервальный анализ

1. Основные понятия

Интервалом называют множество вещественных чисел, расположенных между двумя числами – границами интервала:

где и – нижняя и верхняя границы интервала.

Важнейшими характеристиками интервала, помимо его границ, также являются его середина (центр), ширина и радиус [1]:

С помощью интервалов можно описывать и моделировать неопределенности и погрешности. Рассмотрим основные методы регрессионного анализа для интервальных данных [2, 3].

1. Регрессионный анализ

Регрессионный анализ является одним из самых распространённых методов математического моделирования. Постановку задачи регрессионного анализа можно сформулировать следующим образом. Имеется таблица исходных данных, полученных в результате наблюдений или экспериментов. Один из столбцов этой таблицы соответствует исследуемому показателю. В остальных столбцах представлены факторы, от которых, как предполагается, он зависит. Показатель также называют зависимой переменной, а факторы – независимыми или объясняющими переменными. Обозначим показатель как , а факторы как , где . В случае интервального анализа каждое значение является интервальным: . Требуется найти функцию , которая наилучшим образом описывает взаимосвязь показателя и факторов. Функцию также называют уравнением регрессии [4-6].

Следовательно, целью регрессионного анализа является получение математической модели зависимости исследуемой величины от различных факторов. Полученная модель имеет множество применений. Она помогает лучше понять некоторое явление, смоделировав изменение его основных характеристик в различных условиях, выполнение которых сложно обеспечить в реальной жизни. Основываясь на модели, можно подтверждать или опровергать гипотезы о существовании причинно-следственных связей. С помощью уравнения регрессии можно предсказать значение показателя в ближайшем будущем, а также максимизировать или минимизировать его, подобрав оптимальные значения факторов, поддающихся влиянию.

Таким образом, регрессионный анализ используется для исследования, моделирования, оптимизации и прогнозирования различных объектов, процессов и явлений [7-9].

Каждая независимая переменная в уравнении регрессии имеет коэффициент, который описывает степень влияния данной переменной на исследуемый показатель. Чем больше абсолютная величина коэффициента, тем сильнее связь. Также значение имеет знак коэффициента, указывающий на характер этой связи [10].

Для построения математической модели необходимо вычислить коэффициенты регрессии. Рассмотрим основные методы нахождения коэффициентов для интервальных данных.

Метод центров

В методе центров для вычисления вектора коэффициентов используются центры интервалов зависимой и независимых переменных:

где , .

Полученные значения используются для оценки нижней и верхней границ:

Метод достаточно прост в применении. Сначала интервальные значения заменяются точечными, путем вычисления середины интервалов по формуле (2), а после используется стандартный способ нахождения коэффициентов для множественной линейной регрессии [11]. Однако у данного метода есть большой недостаток – зачастую нижняя граница может оказаться больше верхней, что недопустимо [12].

Метод минимакса

В отличии от предыдущего метода, в методе минимакса коэффициенты для оценки нижней и верхней границ вычисляются по отдельности:

Это позволяет более точно описать поведение зависимой переменной, по сравнению с предыдущим методом. Однако метод минимакса обладает тем же недостатком, что и метод центров. Также он не эффективен, если нет четкой зависимости между границами зависимой и независимых переменных.

Метод центров и радиусов

Данный метод является улучшением метода центров. Здесь, помимо центра, берется во внимание радиус интервалов. По формуле (5) вычисляется вектор коэффициентов для центров. Аналогичным образом вычисляется вектор коэффициентов радиусов (соответственно вместо и в формулу подставляются и ). Далее оцениваются центры и радиусы зависимой переменной:

На основании полученных оценок вычисляются границы:

Метод эффективен, если между радиусами зависимой и независимых переменных существует линейная зависимость.

Метод линейной модели

Данный метод учитывает как нижние, так и верхние границы независимых переменных, а также их радиусы для оценки границ зависимой переменной, что значительно повышает его гибкость:

где , ,

, .

Следует уточнить, что отрицательные значения коэффициентов и приводят к перевернутым границам интервалов ( ), при этом в методе не предусмотрен способ избежать этого, а применение модулей данных коэффициентов не позволяет получить адекватную модель.

Метод параметризованной модели

В отличии от предыдущих методов, где использовались такие конкретные точки, как центр, радиус и границы интервалов, данный метод выделяет наилучшие исходные точки из интервалов независимых переменных, на основе которых оцениваются нижняя и верхняя границы зависимой переменной по формулам (21-22):

1. Интерполяция

Задачу интерполяции можно сформулировать следующим образом. Дан набор точек и значений неизвестной функции в этих точках – , где . Значения функции в других точках неизвестны. Необходимо найти функцию , которая позволила бы оценить значение неизвестной функции в промежуточных точках. При этом, обязательным условием является то, что график искомой функции должен проходить через исходные точки, то есть . Функцию называют интерполирующей функцией, точки – узами интерполяции, а их совокупность – интерполяционной сеткой [13, 14].

Кусочно-линейная интерполяция

Простейшим способом интерполяции является кусочно-линейная интерполяция, когда между каждой пары известных соседних точек и проводится линейная функция. В таком случае интерполирующей функцией будет являться совокупность всех построенных отрезков.

Уравнение прямой, проходящей через две точки, имеет следующий вид:

Тогда интерполирующая функция будет иметь следующий вид:

где .

Преимуществами данного метода является его простота и легкость вычислений. Однако кусочно-линейная интерполяция не очень точна – ошибка пропорциональна квадрату расстояния между точками [15].

В других методах, таких как полиномиальная интерполяция и интерполяция кубическими сплайнами, ошибка пропорциональна более высоким степеням расстояния между точками. Также интерполирующие функции, полученные в результате применения данных методов, имеют более плавную форму.

Полиномиальная интерполяция

Полиномиальная интерполяция заключается в поиске полинома наименьшей степени, проходящего через набор исходных точек. Если количество точек обозначить как , то функция, проходящая через все эти точки – это полином степени :

Один из способов вычисления такого полинома предложил Ж. Л. Лагранж. Полином Лагранжа представляет собой линейную комбинацию вспомогательных функций , называемых базисными полиномами Лагранжа:

Таким образом, если , то , в противном случае – :

Достоинства полиномиальной интерполяции — простота реализации и плавная форма графика функции. Однако имеется и ряд недостатков. Например, малейшее изменение хотя бы одной точки приводит к изменению всей функции и необходимости повторять все вычисления заново [16, 17].

Другой недостаток – рост нежелательных колебаний с увеличением степени полинома [18].

Сплайновая интерполяция

Вместо того, чтобы подгонять один полином высокой степени под весь набор точек, можно провести полиномы меньшей степени между каждой парой соседних точек. Полученная функция называется сплайном.

Таким образом, функцию можно записать как множество кривых , где индекс кривой соответствует индексу интервала, на котором она проведена. В случае интерполяции кубическими сплайнами, представляет собой полином третьей степени:

где [19].

Для полиномов третьей степени получаем неизвестных. Соответственно, именно столько условий требуется для их нахождения.

Во-первых, значения полиномов в узлах интерполяции должны совпадать с заданными значениями:

где .

Подставляя формулу (29) в записанные выше выражения, получаем следующее:

Для упрощения дальнейших записей, введем понятие шага . Так, получаем условия:

Для каждой точки, не включая начальную и конечную, должно выполняться условие, что первые и вторые производные для левого и правого полиномов должны совпадать:

где .

По два таких условия на каждую из промежуточных точек дает еще условий.

Два последних необходимых условия называют граничными. Существуют разные способы их задания. Например, для «естественного сплайна» задают вторые производные в начальной и конечной точках равными нулю: [20].

Используя полученные выражения, можно выразить коэффициенты и через [21-22]:

И тогда получаем систему из уравнения, которую можно решить методом прогонки [23]:

где , (исходя из граничных условий).

Интерполяция сплайнами объединяет в себе преимущества двух предыдущих методов. Так, в отличии от полиномиальной интерполяции, ее использование не приводит к появлению множества нежелательных экстремумов между заданными значениями. При этом функция все еще имеет гладкую форму и приводит к меньшей ошибке, чем линейная интерполяция.

Интерполяция интервальных данных

Выше были рассмотрены различные методы интерполяции точечных данных. Теперь на их основании можно разработать различные варианты интерполяции интервальных данных, где на каждую точку приходится не одно точечное значение, а интервал –

Так, можно провести две отдельные кусочно-линейные функции через нижние и верхние границы интервалов соответственно. Аналогичным образом можно применить полиномиальную и сплайновую интерполяции.

Другой вариант – интерполировать не границы интервалов, а их центры, после чего получать интервальные значения, отступая вниз или вверх от построенной функции на некоторую величину . Таким образом мы можем значительно сократить число вычислений, однако появляется новая проблема – как определять величину отступа. В случае, когда все интервалы имеют одинаковую ширину, очевидно, что в качестве можно взять радиус интервалов, а когда ширина интервалов приблизительно одинаковая можно использовать усредненное значение радиуса. В других случаях, когда интервалы сильно различаются по ширине, целесообразно использовать интерполяцию границ интервалов, а не их центров.

1. Корреляционный анализ

Корреляция – это статистическая мера, описывающая взаимосвязь между переменными, то есть то, как одна переменная меняется относительно другой. Например, когда одна переменная увеличивается, другая тоже увеличивается (в случае положительной корреляции) или уменьшается (в случае отрицательной корреляции).

Корреляционный анализ – это метод статистического анализа данных, целью которого является оценка степени взаимосвязи двух переменных. Зачастую корреляционных анализ предшествует регрессионному анализу, помогая определить, какие факторы следует включить в уравнение множественной регрессии.

Наличие корреляции не означает, что между ними существует причинно-следственная связь. Это лишь показатель того, что изменения одной переменной сопровождаются изменениями другой. Однако, если две переменные коррелируют друг с другом, они могут быть как-то связаны, например, обе зависеть от некоторой третьей переменной. Так что после обнаружения коррелирующих переменных необходимы дополнительные исследования, прежде чем делать выводы о зависимости одной переменной от другой [24, 25].

Коэффициент корреляции – числовой показатель, которые выражают силу и направление корреляции между переменными. Существуют различные коэффициенты корреляции. Выбор какой коэффициент использовать зависит от ситуации, так как каждый из них подходит для определенных случаев.

Наиболее часто применяется коэффициент Пирсона, характеризующий силу линейной взаимосвязи двух переменных. Он принимает значение от -1 до 1, где значения близкие к -1 говорят о сильной отрицательной зависимости, близкие к 1 – о сильной положительной зависимости, близкие к 0 – об отсутствии линейной корреляции. Коэффициент корреляции Пирсона определяется по следующей формуле:

где – количество наблюдений, и – средние значения переменных и соответственно [26].

Однако описанная выше формула подходит только для точечных данных. Как же тогда определить корреляцию между переменными, представленными в виде набора интервалов их возможных значений, то есть, каждое наблюдение ?

Исходя из того, что работать с точечными значениями проще и методы их обработки уже существуют, то следует преобразовать интервальные данные в точечные. Конечно, каждый интервал представляет собой бесконечное множество точек в заданном диапазоне, но обрабатывать бесконечное число значений было бы не разумно. Вместо этого каждый интервал можно представить в виде ряда точек.

На рисунке 1 представлен пример, как одно интервальное наблюдение заменятся точечными значениями при :

Рисунок 1 – Преобразование интервальных значений в точечные

И, так как обе переменные интервальные и каждое наблюдение представляет собой не точку, а прямоугольник на плоскости, в итоге получаем точек на каждое наблюдение, или точек для всех исходных данных.

После подобного преобразования можно применять формулу коэффициента Пирсона для наших данных. Однако у данного способа есть ряд недостатков. Во-первых, чем больше число , тем больше вычислительных ресурсов тратится на вычисление коэффициента корреляции. Во-вторых, мы учитываем корреляцию не только между точками разных наблюдений, но и корреляцию между точками одного наблюдения. То есть итоговый результат становится сложнее интерпретировать. В-третьих, мы получаем точечное значение коэффициента. Логично предположить, что если данные заданы в виде интервалов, то и коэффициент тоже должен быть интервальным.

Например, можно применить формулу для коэффициента Пирсона к интервалам с использованием интервальных арифметических операций сложения, вычитания, умножения и деления:

Однако при этом не гарантируется, что полученные границы интервала коэффициента не превысят его допустимые значения.

Другой способ определить диапазон возможных значений коэффициента: выбрать по одной точке в каждом прямоугольнике, представляющем одно наблюдение, так, чтобы модуль коэффициента корреляции для них был минимальным (для нижней границы) или максимальным (для верней границы).

Для нахождения максимального коэффициента корреляции предлагается следующий алгоритм:

в качестве начальных точек берутся центры интервалов. Вычисляем для них коэффициент корреляции ;
с помощью метода наименьших квадратов [27] по формулам (47-48) находим коэффициенты прямой, проходящей наиболее близко к набору точек;
из каждого интервала выбираем ближайшую к прямой точку, получая новый набор точек. Вычисляем для них коэффициент корреляции ;
сравниваем коэффициенты корреляции для двух наборов точек. Если , то и переходим к шагу 2. В противном случае .

Ниже представлены формулы для нахождения коэффициентов прямой вида для второго шага алгоритма:

Для нахождения минимального коэффициента корреляции предлагается схожий алгоритм:

в качестве начальных точек берутся центры интервалов. Вычисляем для них коэффициент корреляции ;
с помощью метода наименьших квадратов находим прямую, проходящую наиболее близко к набору точек;
из каждого интервала выбираем наиболее удаленную от прямой точку, получая новый набор точек. Вычисляем для них коэффициент корреляции ;
сравниваем коэффициенты корреляции для двух наборов точек. Если , то и переходим к шагу 2. В противном случае .

Реализация программных модулей

Модуль для регрессионного анализа

На вход программе подается текстовый файл. В первой строке подаются два числа – количество независимых переменных и количество наблюдений . Далее в файле приводится сама таблица исходных данных – сначала границы интервалов независимых переменных, в конце строки – границы интервалов зависимой.

На основе исходных данных создаются четыре массива: матрицы левых и правых границ независимых переменных X_left и X_right размером на и два вектора граничных значений зависимой переменной Y_left и Y_right длины . Первый столбец матриц X_left и X_right соответствует свободному члену и заполнен единицами.

Сами методы регрессионного анализа, описанные ранее, представлены в программе в виде классов. Членами классов, помимо четырех массивов исходных данных, являются массив коэффициентов (или массивы коэффициентов, в случае метода минимакса, метода центров и радиусов и метода параметризованной модели) и оценки границ зависимой переменной, хранящиеся в векторах Y_left_C и Y_right_C.

Классы имеют одинаковый набор методов, отличающихся только реализацией. Каждый класс имеет:

конструктор, в котором происходит вычисление коэффициентов и оценок границ зависимой переменной;
метод printCoefs(), отвечающий за вывод коэффициентов;
метод printIntervals(), отвечающий за вывод оценок границ;
метод printEvals(), отвечающий за вывод показателей, на основании которых модели можно оценивать и сравнивать между собой.

Набор показателей включает в себя следующие метрики:

среднеквадратическая ошибка (Root Mean Square Error) для левой и правой границ интервалов, вычисляемая по формулам (49-50);
средняя абсолютная ошибка (Mean Absolute Error) для левой и правой границ интервалов, вычисляемая по формулам (51-52);
средняя величина относительной ошибки (Mean Magnitude of Relative Error), вычисляемая по формуле (53);
коэффициент детерминации R², вычисляемый по формулам (54-55).

Формулы для вычисления метрик представлены ниже:

Пример вывода программы представлен на рисунке 2.

Рисунок 2 – Пример вывода программы

Вычислительный эксперимент

Используем разработанное программное средство для регрессионного анализа интервальных данных. В качестве исходных данных для регрессионного анализа были выбраны средние за неделю значения температуры, количества осадков и вегетационного индекса NDVI за 2023 год. Данные были получены с помощью спутникового сервиса ВЕГА-Science [28]. Для применения вышеописанных методов собранные точечные данные были преобразованы в интервальные. Так, относительная погрешность измерения количества осадков не превышает 3-7% [29], поэтому нижняя и верхняя границы интервалов были получены путем уменьшения и увеличения значения на 7%. Аналогичные действия были проделаны для температуры и NDVI, погрешности которых составляют 0,5 °С и 0,005 соответственно [30, 31]. Данные представлены в таблице 1.

Таблица 1 – Исходные данные для регрессионного анализа

Номер недели	Температура, °С	Количество осадков, кг/м²	NDVI
17	[2.19, 3.19]	[0.269, 0.31]	[0.303, 0.313]
18	[7.61, 8.61]	[0.229, 0.264]	[0.333, 0.343]
19	[8.81, 9.81]	[0.631, 0.726]	[0.384, 0.394]
20	[10.99, 11.99]	[0.973, 1.12]	[0.454, 0.464]
21	[14.31, 15.31]	[0.322, 0.371]	[0.534, 0.544]
22	[10.64, 11.64]	[0.322, 0.371]	[0.601, 0.611]
23	[16.61, 17.61]	[0.415, 0.478]	[0.658, 0.668]
24	[16.45, 17.45]	[0.299, 0.344]	[0.7, 0.71]
25	[18.85, 19.85]	[0.585, 0.673]	[0.726, 0.736]
26	[21.71, 22,71]	[0.492, 0.566]	[0.748, 0.758]
27	[22.14, 23.14]	[0.017, 0.019]	[0.759, 0.769]
28	[18.41, 19.41]	[0.751, 0.864]	[0.769, 0.779]
29	[21.49, 22.49]	[0.681, 0.783]	[0.774, 0.784]
30	[21.39, 22.39]	[2.611, 3.004]	[0.773, 0.783]
31	[19.46, 20.46]	[0.086, 0.099]	[0.76, 0.77]
32	[19.02, 20.02]	[0.236, 0.271]	[0.737, 0.747]
33	[19.24, 20.24]	[1.711, 1.968]	[0.713, 0.723]
34	[16.04, 17.04]	[1.714, 1.972]	[0.681, 0.691]
35	[15.26, 16.26]	[0.478, 0.55]	[0.64, 0.65]
36	[12.79, 13.79]	[0.113, 0.13]	[0.603, 0.613]
38	[10.29, 11.29]	[0.721, 0.829]	[0.525, 0.535]
39	[9.11, 10.11]	[2.295, 2.641]	[0.471, 0.481]
40	[6.02, 7.02]	[0.731, 0.841]	[0.414, 0.424]
41	[7.15, 8.15]	[0.126, 0.145]	[0.372, 0.382]
42	[0.38, 1.38]	[0.322, 0.371]	[0.348, 0.358]
43	[-0.04, 0.96]	[0.179, 0.206]	[0.332, 0.342]

Второй набор интервальных данных является сгенерированным. Результаты оценки полученных моделей представлены в таблицах 2-3.

Таблица 2 – Оценка моделей реальных данных

Метод
Метод центров	0.0592	0.0616	0.0446	0.0616	0.1048
Метод минимакса	0.0591	0.0615	0.0451	0.0615	0.1047
Метод центров и радиусов	0.0595	0.0619	0.0442	0.0619	0.1051
Параметризованная модель	0.0707	0.0771	0.0538	0.056	0.1342

Таблица 3 – Оценка моделей сгенерированных данных

Метод
Метод центров	2.345	2.408	1.7	2.408	0.0118
Метод минимакса	2.284	2.402	1.732	2.402	0.0116
Метод центров и радиусов	2.4	2.28	1.781	2.28	0.0116
Линейная модель	1.06	0.93	0.841	0.931	0.0052
Параметризованная модель	1.04	0.92	0.838	0.916	0.0051

Можно заметить, что в первой таблице отсутствуют данные по линейной модели. Так как ширина всех интервалов одной из зависимых переменных равна единице, это приводит к матрице X с двумя одинаковыми столбцами, то есть, вырожденной матрице, из-за чего невозможно вычислить вектор коэффициентов. Это является еще одним недостатком данного метода.

В обоих случаях метод центров, метод минимакса и метод центров и радиусов показали почти одинаковые результаты. Линейная модель и параметризованная модель оказались в два раза точнее на втором наборе данных, чем первые три метода.

Исходя из полученных результатов, можно сделать вывод о том, что не существует однозначно лучшего метода регрессионного анализа интервальных данных, а выбор наиболее подходящего метода зависит от исходных данных.

Модуль для интерполяции

Для проведения интерполяции пользователю необходимо загрузить исходные данные, нажав на соответствующую кнопку и выбрав текстовый файл, каждая строка которого содержит три числа – узел интерполяции и соответствующий ему интервал .

Далее необходимо выбрать метод интерполяции, для чего представлены четыре радиокнопки: кусочно-линейная интерполяция, полиномиальная интерполяция границ интервалов, полиномиальная интерполяция центров интервалов и интерполяция кубическими сплайнами. По нажатию кнопки «Построить график» появится результат интерполяции.

Графический интерфейс разработанного программного средства представлен на рисунке 3.

Рисунок 3 – Графический интерфейс модуля для интерполяции

Вычислительный эксперимент

Для сравнения вышеописанных методов подобраны три тестовых набора данных. Данные представлены в таблице 4.

Таблица 4 – Исходные данные для интерполяции

X
-1.0	[0.45, 1.45]	1.0	[0.45, 1.44]	0.99	[-0.05, 0.95]	1.0
-0.8	[0.03, 1.03]		[0.03, 1.03]	1.00	[-0.47, 0.53]	1.0
-0.6	[-0.46, 0.54]		[-0.46, 0.55]	1.01	[-0.96, 0.04]	1.0
-0.4	[-0.37, 0.63]		[-0.37, 0.63]	1.00	[-0.77, 0.03]	0.8
-0.2	[0.18, 1.18]		[0.18, 1.19]	1.01	[-0.02, 0.38]	0.4
0.0	[0.5, 1.5]		[0.5, 1.5]	1.00	[0.2, 0.8]	0.6
0.2	[0.18, 1.18]		[0.18, 1.17]	0.99	[-0.02, 0.38]	0.4
0.4	[-0.37, 0.63]		[-0.37, 0.65]	1.02	[-0.87, 0.13]	1.0
0.6	[-0.46, 0.54]		[-0.46, 0.55]	1.01	[-0.96, 0.04]	1.0
0.8	[0.03, 1.03]		[0.03, 1.01]	0.98	[-0.17, 0.23]	0.4
1.0	[0.45, 1.45]		[0.45, 1.47]	1.02	[-0.05, 0.95]	1.0
1.2	[0.26, 1.26]		[0.26, 1.26]	1.00	[-0.14, 0.66]	0.8
1.4	[-0.31, 0.69]		[-0.31, 0.7]	1.01	[-0.81, 0.19]	1.0
1.6	[-0.56, 0.44]		[-0.56, 0.44]	1.00	[-1.06, -0.06]	1.0
1.8	[-0.18, 0.82]		[-0.18, 0.8]	0.98	[-0.68, 0.32]	1.0
2.0	[0.31, 1.31]		[0.31, 1.3]	0.99	[0.01, 0.61]	0.6

В первом наборе данных одинаковая ширина интервалов. На рисунке 4 представлены результаты интерполяции границ интервалов двумя кусочно-линейными функциями, двумя полиномами, кубическими сплайнами и интерполяции центров интервалов. Можно заметить, что в результате полиномиальной и сплайновой интерполяции границ, а также интерполяции центров интервалов, получены идентичные графики функций, однако последний метод потребовал значительно меньше вычислений.

Во втором наборе данных интервалы имеют различную ширину, однако отличия незначительны. Результаты интерполяции представлены на рисунке 5. На примере второго набора данных видны недостатки полиномиальной интерполяции границ: в начальных точках верхнего полинома наблюдается нежелательный скачок, а в конце он пересекает полином нижней границы, что недопустимо. С помощью центрального полинома второго недостатка удалось избежать.

В третьем наборе данных ширина интервалов сильно разнится. На рисунке 6 представлены результаты интерполяции.

Рисунок 4 – Интерполяция интервальных данных с одинаковой шириной интервалов

Рисунок 5 – Интерполяция интервальных данных с слегка различающейся шириной интервалов

Рисунок 6 – Интерполяция интервальных данных с различной шириной интервалов

Последний пример еще более ярко демонстрирует все недостатки полиномиальной интерполяции: снова наблюдаются большие скачки вблизи граничных значений и нижняя граница, превышающая верхнюю, при чем в этом примере последнее происходит несколько раз. Применение интерполяции к центральным значениям позволило получить более адекватный график, однако из-за изменяющейся ширины и применения усредненного радиуса заметно, что верхняя и нижние границы не проходят через исходные данные. Так же, как и в прошлый раз, наилучший результат продемонстрирован сплайновой интерполяцией.

На основании полученных результатов можно сделать вывод, что интерполяция кубическими сплайнами является наиболее предпочтительным методом интерполяции интервальных данных, в то время как методы, основанные на полиноме Лагранжа, обладают рядом недостатков, ограничивающих их применение.

Модуль для корреляционного анализа

Интерфейс разработанного программного модуля включает в себя следующие элементы:

кнопку для загрузки исходных интервальных данных;
кнопку для произведения расчета точечного и интервального коэффициентов корреляции;
счетчик для выбора числа точек на каждый интервал для расчета точечного коэффициента корреляции;
текстовое поле для вывода результатов расчетов;
поле для вывода графического представления исходных данных с отображением точек, соответствующих нижней и верхней границам интервального коэффициента корреляции.

Графический интерфейс разработанного программного модуля представлен на рисунке 7.

Рисунок 7 – Графический интерфейс модуля для корреляционного анализа

Вычислительный эксперимент

В качестве исходных данных были выбраны временные ряды NDVI и температуры Хабаровска с 2014 по 2024 год с 15 по 45 неделю года. Для каждой недели были выбраны минимальное и максимальное значение показателя за 10 лет. Тем самым были получены интервальные значения, представленные в таблице 5.

Таблица 5 – Исходные данные для корреляционного анализа

Неделя	Температура, ℃ (минимальная)	Температура, ℃ (максимальная)	NDVI (минимальный)	NDVI (максимальный)
15	-1.998	5.782	0.257	0.297
16	1.654	7.671	0.221	0.306
17	-0.137	13.442	0.247	0.333
18	3.844	10.614	0.287	0.367
19	5.039	11.945	0.352	0.451
20	5.906	14.094	0.406	0.564
21	9.862	14.911	0.487	0.646
22	8.842	19.074	0.533	0.681
23	11.861	19.414	0.586	0.729
24	10.929	19.169	0.637	0.768
25	11.543	18.906	0.687	0.791
26	15.142	22.785	0.725	0.798
27	12.872	25.89	0.754	0.807
28	15.149	22.523	0.768	0.813
29	18.158	24.976	0.759	0.811
30	16.498	28.329	0.742	0.794
31	18.765	21.751	0.731	0.784
32	14.455	19.345	0.72	0.765
33	14.874	20.564	0.692	0.743
34	14.053	19.695	0.646	0.722
35	10.829	18.151	0.6	0.701
36	11.924	16.669	0.572	0.691
37	10.522	14.138	0.546	0.673
38	7.288	14.964	0.517	0.632
39	6.524	10.811	0.469	0.568
40	2.118	9.192	0.406	0.5
41	0.523	7.385	0.367	0.425
42	-2.571	3.475	0.332	0.37
43	-4.064	2.561	0.314	0.342
44	-8.191	0.763	0.296	0.337
45	-11.496	-2.972	0.277	0.33

В результате было получено точечное значение коэффициента корреляции Пирсона . Интервальное значение коэффициента корреляции Пирсона . Графическое представление результатов изображено на рисунке 8.

Рисунок 8 – Результат корреляционного анализа

Полученный интервальный коэффициент корреляции имеет достаточно большой разброс, что затрудняет его применение на практике. Следовательно, требуется его дальнейшая обработка.

Коэффициент корреляции является случайной величиной, характеристики которой можно вычислить. Для начала составим выборку из 1000 случайных точек внутри каждого интервала и вычислим коэффициент корреляции для каждого набора. Получаем выборку значений коэффициента корреляции.

Построим гистограмму плотности распределения. Число интервалов гистограммы определим по правилу Стёрджеса:

где – размер выборки.

Для получаем 11 интервалов. На рисунке 9 представлена полученная гистограмма.

Рисунок 9 – Гистограмма плотности распределения коэффициента корреляции

На основании полученной гистограммы можно сделать предположение о нормальности распределения коэффициента корреляции. Вычислим математическое ожидание, дисперсию и среднеквадратичное отклонение коэффициента:

где – число значений -го интервала гистограммы, – середина -го интервала гистограммы.

Для данных, имеющих нормальное распределение имеет место правило трех сигм [32]. Применяя его, можно установить, что с вероятностью 95% коэффициент корреляции лежит в пределах [0.82,0.94], с вероятностью 99,7% – в пределах [0.79,0.97]. Таким образом, можно уверенно говорить о наличии сильной корреляции.

Заключение

В результате данной работы изучены основы интервального анализа и методы регрессионного анализа интервальных данных, разработано программное средство, предназначенное для проведения регрессионного анализа интервальных данных, с помощью которого был проведен регрессионный анализ интервальных данных о температуре, количестве осадков и вегетационном индексе NDVI Хабаровского края. Изучены методы интерполирования точечных данных, среди которых: кусочно-линейная интерполяция, полиномиальная интерполяция Лагранжа и интерполяция кубическими сплайнами. На основе изученных методов разработаны методы для интерполяции интервальных данных. Разработано программное средство для интерполирования интервальных данных, с помощью которого проведена интерполяция тестовых наборов интервальных данных. На основании полученных результатов проведено сравнение разработанных методов. Разработаны методы корреляционного анализа интервальных данных, как для получения точечного коэффициента корреляции, так и интервального. Разработано программное средство для корреляционного анализа интервальных данных, с помощью которого проведен корреляционный анализ интервальных данных о температуре и NDVI Хабаровска.

Список использованных источников

Кирфотт Б. Стандартизация обозначений в интервальном анализе / Кирфотт Б., Накао М., Ноймайер А., Румп З., Шарый С. П., ван Хентенрик П. // Вычислительные технологии. – 2010. – Т. 15, № 1. – С. 7-13.
Баженов А. Н. Обработка и анализ интервальных данных / А. Н. Баженов, С. И. Жилин, С. И. Кумков, С. П. Шарый – 1-е изд. – Ижевск: Институт компьютерных исследований, 2024 – 356 c.
Шарый С. П. Задача восстановления зависимостей по данным с интервальной неопределённостью / Шарый С. П. // Заводская лаборатория. Диагностика материалов. – 2020. – Т. 86, № 1. – С. 62-74.
Шаныгин С. И. Корреляционный и регрессионный анализ : учебник для вузов / С. И. Шаныгин – 2-е изд. – Москва: Юрайт, 2025 – 70 c.
Кремер Н. Ш. Регрессионный анализ : учебник и практикум для вузов / Н. Ш. Кремер, Б. А. Путко – 4-е изд. – Москва: Юрайт, 2025 – 180 c.
Ларионова И. А. Статистика: введение в регрессионный анализ. Временные ряды : учебное пособие / И. А. Ларионова – 1-е изд. – Москва: Издательский Дом МИСиС, 2016 – 74 c.
Магнус Я. Р. Эконометрика. Начальный курс / Я. Р. Магнус, П. К. Катышев, П. К. Пересецкий – 6-е изд. – Москва: Дело, 2004 – 576 c.
Кремер Н. Ш. Эконометрика : учебник и практикум для вузов / Н. Ш. Кремер, Б. А. Путко – 4-е изд. – Москва: Юрайт, 2025 – 308 c.
Горлач Б. А. Математическое моделирование. Построение моделей и численная реализация / Б. А. Горлач, В. Г. Шахов – 2-е изд. – Санкт-Петербург: Лань, 2018 – 292 c.
Дрейпер Н. Прикладной регрессионный анализ / Дрейпер Н., Смит Г. – 3-е изд. – Москва: Диалектика, 2016 – 911 c.
Фетисов Ю. М. Многомерный корреляционно-регрессионный анализ / Ю. М. Фетисов – 1-е изд. – Воронеж: Издательский дом ВГУ, 2015 – 88 c.
Kabir Sh. A Review and Next Steps for Interval Regression / Kabir Sh., Wagner Ch., Ellerby Z // IEEE Transactions on Artificial Intelligence. – 2024. – Т.5, № 5. – С. 3-22.
Агапова Е. Г. Численные методы : учебное пособие / Е. Г. Агапова – 1-е изд. – Хабаровск: Издательство ТОГУ, 2019 – 108 c.
Пименов В. Г. Численные методы. Часть 1 / В. Г. Пименов – 2-е изд. – Москва: Юрайт, 2017 – 111 c.
Волков Е. А. Численные методы / Волков Е. А. – 6-е изд. – Санкт-Петербург: Лань, 2021 – 252 c.
Иродова И. П. Алгоритмы теории приближения: учебно-методическое пособие / И. П. Иродова – 1-е изд. – Ярославль: ЯрГу, 2019 – 40 c.
Гудович А. Н. Интерполяция алгебраическими многочленами. Многочлен Лагранжа / А. Н. Гудович – 1-е изд. – Воронеж: Издательско-полиграфический центр Воронежского государственного университета, 2012 – 21 c.
Бахвалов Н.С. Численные методы / Н. С. Бахвалов, Н. П. Жидков, Г. М. Кобельков – 7-е изд. – Москва: БИНОМ. Лаборатория знаний, 2011 – 636 c.
Трофимов В. П. Интерполяция алгебраическими многочленами. Сплайн-интерполяция / В. П. Трофимов, А. П. Карпова, М. Н. Небольсина – 1-е изд. – Воронеж: Издательско-полиграфический центр Воронежского государственного университета, 2012 – 42 c.
Амосов А. А. Вычислительные методы / А. А. Амосов, Ю. А. Дубинский, Н. В. Копченова – 5-е изд. – Санкт-Петербург: Лань, 2023 – 672 c.
Buchanan R. Cubic Spline Interpolation / Buchanan R. [Электронный ресурс] // Cubic Spline Interpolation - MATH 375, Numerical Analysis – Режим доступа : https://sites.millersville.edu/rbuchanan/math375/CubicSpline.pdf (дата обращения: 16.03.2025).
Revesz P. Cubic Spline Interpolation by Solving a Recurrence Equation Instead of a Tridiagonal Matrix / Revesz P. // Mathematical Methods in Science and Engineering. – Lincoln:University of Nebraska-Lincoln, 2014. – С. 21-23.
Марчук Г. И. Методы вычислительной математики. Учебное пособие / Г. И. Марчук – 4-е изд. – Санкт-Петербург: Лань, 2021 – 608 c.
Елисеева И. И. Общая теория статистики / И. И. Елисеева, М. М. Юзбашев – 4-е изд. – Москва: Финансы и Статистика, 2002 – 480 c.
Хрущева И. В. Основы математической статистики и теории случайных процессов : учебное пособие / И. В. Хрущева, В. И. Щербаков, Д. С. Леванова – 3-е изд. – Санкт-Петербург: Лань, 2022 – 336 c.
Кулаичев А. П. Методы и средства комплексного анализа данных / Кулаичев А. П. – 1-е изд. – Москва: ИНФРА-М, 2016 – 511 c.
Пименов В. Г. Численные методы. Часть 2 / В. Г. Пименов, А. Б. Ложников – 2-е изд. – Екатеринбург: Издательство Уральского университета, 2017 – 106 c.
Спутниковый сервис ВЕГА-Science [Электронный ресурс] – Режим доступа : http://sci-vega.ru/ (дата обращения: 21.10.2024).
Руководство по гидрологической практике. Том 1. / Гидрология: от измерений до гидрологической информации – 6-е изд. – Всемирная Метеорологическая Организация, 2008 – 314 c.
Карнацевич И. В. Температура воздуха, её измерения и информационные дефекты / И. В. Карнацевич // Омский научный вестник. – 2010. – № 1(94). – С. 251-256.
Алексанин А. И. Влияние условий наблюдения на точность расчёта вегетационного индекса растительности NDVI по данным дистанционного зондирования Земли / А. И. Алексанин, А. Н. Тимофеев // Современные проблемы дистанционного зондирования Земли из космоса. – 2023. – Т. 20, № 1. – С. 133-143.
Гмурман В. Е. Теория вероятностей и математическая статистика / Гмурман В. Е. – Москва: Высш. шк. – 1999. – 479 с.

Просмотров работы: 4

Код для цитирования:

XVIII Международная студенческая научная конференция Студенческий научный форум - 2026

Разработка программных модулей для анализа интервальных данных

Студенческий научный форум - 2026
XVIII Международная студенческая научная конференция