Возрастающая популярность таких сервисов, как электронная почта, электронная цифровая подпись, электронные версии газет и журналов, значительно снизила нагрузку на ФГУП «Почта России» в плане доставки письменной корреспонденции (письма, телеграммы, печатная продукция). Однако рост благосостояния граждан РФ и развитие сети интернет-магазинов привели к увеличению объёма штучных грузов (посылок, бандеролей), перевозимых средствами почтовых операторов, и в первую очередь, средствами ФГУП «Почта России». Результатами этого становятся повышенные требования, предъявляемые к срокам доставки штучных грузов. В связи с этим является актуальным вопрос оптимальности сети маршрутов ФГУП «Почта России» по расстоянию и времени доставки штучных грузов.
Регрессионный анализ с применением метода наименьших квадратов
Рассмотрим две дискретные переменные x = (x1, x2, .., xn), y = (y1, y2, ..., yn).
Полагая, что y это функция x, т.е. y=f(x), мы можем определить линию регрессии, [1]. Математическое уравнение, которое оценивает линию простой линейной регрессии:
(1) |
где: a – свободный член (пересечение) линии оценки: это значение y, когда x=0; b – угловой коэффициент.
Наиболее простым методом определения коэффициентов a и b является метод наименьших квадратов (МНК) (рис. 1).
Рисунок 1 – Линия линейной регрессии с изображенными остатками (вертикальные пунктирные линии) для каждой точки.
Линию регрессии выбирают так, чтобы сумма квадратов остатков была минимальной. Для этой цели можно воспользоваться встроенной функцией в одном из пакетов инженерных вычислений (MatLab, MatCad и др., а также EXCEL).
Применение линейной регрессии для оценки эффективности доставки штучных грузов ФГУП «Почта России»
Основой для исследования является документ «Контрольные сроки пересылки посылок нестандартных и нестандартных негабаритных между городами федерального значения, административными центрами субъектов Российской Федерации» [2], находящийся в открытом доступе на официальном сайте ФГУП «Почта России».
Для каждой пары городов в таблице приведены два срока – минимальный и максимальный; при этом в каждом случае два этих срока имеют разницу в два дня. Очевидно, что можно усреднить данные сроки
(2) |
без потери информации.
Таблица «Контрольные сроки пересылки…» не даёт полного представления об эффективности перевозки посылок, поскольку не содержит сведений о расстоянии между городами.
Добавим необходимые сведения из таблицы «Расстояние между городами России» [3].
Следующим шагом создадим общую таблицу-список, куда включим все маршруты: «пункт отправления», «пункт назначения», «протяжённость маршрута», «время пересылки посылки» (рис. 2).
Рисунок 2 – Фрагмент таблицы-списка с информацией о маршрутах перевозки посылок
Проведём анализ полученных данных с использованием линейной регрессии (табл. 1). С этого воспользуемся инструментом «Анализ данных», входящим в пакет Microsoft Excel 2010.
Таблица 1 – Анализ данных с использованием линейной регрессии
Регрессионная статистика |
|
Множественный R |
0,8997 |
R-квадрат |
0,809 |
Нормированный R-квадрат |
0,809 |
Стандартная ошибка |
1,52 |
Наблюдения |
3081 |
Коэффициенты |
|
Свободный член |
1,899 |
Угловой коэффициент |
0,001 |
При линейной регрессии коэффициент корреляции Пирсона rxy численно равен множественному R [4]:
(3) |
Значение rxy находится в промежутке 0,7..0,9, т.е. значения расстояния между городами и среднего времени доставки имеют сильную (высокую) тесноту связи по шкале Чеддока [4].
Коэффициенты y-пересечения и переменной x1 дают возможность построить график линейной регрессии вида (1), где a = 1,899; b = 0,001:
(4) |
Создадим диаграмму рассеивания, в которой по оси абсцисс отложим расстояние между пунктом отправления и пунктом назначения, а по оси ординат – соответствующее среднее время перевозки посылки по маршруту.
Добавим полученную прямую (4) на график (рис. 3).
Рисунок 3 – Диаграмма рассеяния (синие маркеры) и линейная регрессия (красная линия)
Данная визуализация позволяет оценить относительную эффективность перевозки посылок: маршруты, которым соответствуют маркеры, располагающиеся выше графика линейной регрессии, можно признать менее эффективными по отношению к маршрутам, маркеры которых располагаются ниже графика линейной регрессии.
Для маркеров, лежащих выше графика линейной регрессии, справедливо следующее правило: чем дальше от графика линейной регрессии располагается маркер, тем менее эффективен маршрут, соответствующий данному маркеру.
Для маркеров, лежащих ниже графика линейной регрессии, справедливо следующее правило: чем дальше от графика линейной регрессии располагается маркер, тем более эффективен маршрут, соответствующий данному маркеру.
Работа с дополнительными атрибутами
Добавим в полученную таблицу следующие атрибуты (рис. 4):
– «ФО-1» и «ФО-2» – номера федеральных округов, в которых находятся пункт отправления и пункт назначения соответственно (1 – Центральный, 2 – Северо-Западный, 3 – Южный, 4 – Северо-Кавказский, 5 – Приволжский, 6 – Уральский, 7 – Сибирский, 8 – Дальневосточный);
– «Аэропорт» – значение атрибута равно единице в том и только в том случае, если как в пункте отправления, так и в пункте назначения имеются действующие аэропорты;
– «АСЦ» – значение атрибута равно единице в том и только в том случае, если как пункт отправления, так и пункт назначения входят в зону обслуживания Московского или Санкт-Петербургского автоматизированного сортировочного центра;
– «Скорость» – значение атрибута вычисляется как «расстояние между населёнными пунктами» / «среднее время доставки».
Рисунок 4 – Фрагмент таблица-список с дополненной информацией о маршрутах перевозки посылок
Использование фильтрации данных в таблице на рис. 4 позволяет оценить вклад различных параметров и факторов в эффективность перевозок.
Например, оставим маркеры для маршрутов с атрибутом «АСЦ», равным единице.
Рисунок 5 – Диаграмма рассеивания для маршрутов с атрибутом «АСЦ», равным единице
Из графика на рис. 5 следует, что в случаях, когда пункт отправления и пункт назначения входят в зону обслуживания одного из АСЦ, среднее время доставки = 2…3 дня. Притом маршруты, среднее время доставки для которых составляет двое суток, все являются эффективными, а вот маршруты со средним сроком доставки, равным трём суткам, в большинстве своём не являются эффективными.
Фильтрация табличных данных по атрибутам «ФО-1» и «ФО-2» позволяет оценить эффективность перевозок внутри федеральных округов, либо между двумя определёнными федеральными округами.
На рис. 6 представлен график внутренних перевозок между населёнными пунктами Дальневосточного ФО, свидетельствующий о неэффективности перевозок на большинстве маршрутов.
Рисунок 6 – Диаграмма рассеивания для внутренних перевозок между городами Дальневосточного ФО
Пакет TIBCO Spotfire Cloud также предоставляет эффективные средства для визуализации [5].
Рассмотрим диаграмму вида «Treemap» (рис. 7), на которой расположены города России по среднему значению скорости перевозки посылок на маршрутах, где данный город является пунктом отправления или назначения.
Рисунок 7 – Диаграмма вида «Treemap» городов России в зависимости от среднего значения скорости перевозки
Города упорядочены от минимального значения средней скорости (правый нижний угол) до максимального (левый верхний). Минимальное значение соответствует Назрани (13,72 км/сутки), максимальное – Владивостоку (34,98 км/сутки).
Выводы
Регрессионный анализ с применением метода наименьших квадратов позволяет построить линию регрессии, физический смысл которой заключается в усреднении всех значений на диаграмме рассеивания. При этом для значений, лежащих выше графика линейной регрессии, справедливо следующее правило: чем дальше от графика линейной регрессии располагается маркер, тем менее эффективен маршрут, соответствующий данному маркеру. Для значений, лежащих ниже графика линейной регрессии, справедливо следующее правило: чем дальше от графика линейной регрессии располагается маркер, тем более эффективен маршрут, соответствующий данному маркеру.
Поочерёдное включение фильтров различных табличных данных (при сохранении первоначальной линии регрессии) позволяет оценить эффективность маршрутов в пределах одного или нескольких федеральных округов, либо маршрутов, пункты отправления и назначения в которых обладают определённым признаком (наличие аэропорта, принадлежность к зоне обслуживания одного из АСЦ).
Добавление дополнительных атрибутов (признаков) в таблицу данных расширяет число возможных комбинаций фильтрации данных и позволяет проводить анализ эффективности маршрутов по большему числу атрибутов.
Список использованной литературы и источников
1. Основы линейной регрессии [Электронный ресурс]. – Режим доступа: http://statistica.ru/theory/osnovy-lineynoy-regressii/. Дата обращения: 22.01.2017.
Б. Контрольные сроки пересылки посылок нестандартных и нестандартных негабаритных между городами федерального значения, административными центрами субъектов Российской Федерации [Электронный ресурс]. – Режим доступа: https://www.pochta.ru/documents/10231/164282774/Контрольные+сроки+по+пересылке+посылок%282016%29.pdf/d3bfee38-9058-4612-a7f0-b1d88f3d7781. Дата обращения: 28.10.2016.
В. Расстояния между городами России [Электронный ресурс]. – Режим доступа: https://www.avtodispetcher.ru/distance/table/c172-rossiya/. Дата обращения: 28.10.2016.
Г. Курс «Data Mining». Лекция 8. Основы анализа данных [Электронный ресурс] / И. Чубукова / Национальный Открытый Университет "ИНТУИТ". – Режим доступа: http://www.intuit.ru/studies/courses/6/6/lecture/172. Дата обращения: 28.10.2016.
Д. TIBCO Spotfire. Instantly Visualize, Interact with, and Share Data. [Электронный ресурс]. Режим доступа: http://spotfire.tibco.com/discover-spotfire/what-does-spotfire-do/data-discovery-and-visualization. Дата обращения: 25.12.2016.