ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ ДОСТАВКИ ШТУЧНЫХ ГРУЗОВ ФГУП «ПОЧТА РОССИИ» МЕТОДАМИ DATA MINING - Студенческий научный форум

IX Международная студенческая научная конференция Студенческий научный форум - 2017

ИССЛЕДОВАНИЕ ЭФФЕКТИВНОСТИ ДОСТАВКИ ШТУЧНЫХ ГРУЗОВ ФГУП «ПОЧТА РОССИИ» МЕТОДАМИ DATA MINING

Безумнов Д.Н. 1
1Московский Технический Университет Связи и Информатики
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
Введение

Возрастающая популярность таких сервисов, как электронная почта, электронная цифровая подпись, электронные версии газет и журналов, значительно снизила нагрузку на ФГУП «Почта России» в плане доставки письменной корреспонденции (письма, телеграммы, печатная продукция). Однако рост благосостояния граждан РФ и развитие сети интернет-магазинов привели к увеличению объёма штучных грузов (посылок, бандеролей), перевозимых средствами почтовых операторов, и в первую очередь, средствами ФГУП «Почта России». Результатами этого становятся повышенные требования, предъявляемые к срокам доставки штучных грузов. В связи с этим является актуальным вопрос оптимальности сети маршрутов ФГУП «Почта России» по расстоянию и времени доставки штучных грузов.

Регрессионный анализ с применением метода наименьших квадратов

Рассмотрим две дискретные переменные x = (x1, x2, .., xn), y = (y1, y2, ..., yn).

Полагая, что y это функция x, т.е. y=f(x), мы можем определить линию регрессии, [1]. Математическое уравнение, которое оценивает линию простой линейной регрессии:

   

(1)

где: a – свободный член (пересечение) линии оценки: это значение y, когда x=0; b – угловой коэффициент.

Наиболее простым методом определения коэффициентов a и b является метод наименьших квадратов (МНК) (рис. 1).

Рисунок 1 – Линия линейной регрессии с изображенными остатками (вертикальные пунктирные линии) для каждой точки.

Линию регрессии выбирают так, чтобы сумма квадратов остатков была минимальной. Для этой цели можно воспользоваться встроенной функцией в одном из пакетов инженерных вычислений (MatLab, MatCad и др., а также EXCEL).

Применение линейной регрессии для оценки эффективности доставки штучных грузов ФГУП «Почта России»

Основой для исследования является документ «Контрольные сроки пересылки посылок нестандартных и нестандартных негабаритных между городами федерального значения, административными центрами субъектов Российской Федерации» [2], находящийся в открытом доступе на официальном сайте ФГУП «Почта России».

Для каждой пары городов в таблице приведены два срока – минимальный и максимальный; при этом в каждом случае два этих срока имеют разницу в два дня. Очевидно, что можно усреднить данные сроки

   

(2)

без потери информации.

Таблица «Контрольные сроки пересылки…» не даёт полного представления об эффективности перевозки посылок, поскольку не содержит сведений о расстоянии между городами.

Добавим необходимые сведения из таблицы «Расстояние между городами России» [3].

Следующим шагом создадим общую таблицу-список, куда включим все маршруты: «пункт отправления», «пункт назначения», «протяжённость маршрута», «время пересылки посылки» (рис. 2).

Рисунок 2 – Фрагмент таблицы-списка с информацией о маршрутах перевозки посылок

Проведём анализ полученных данных с использованием линейной регрессии (табл. 1). С этого воспользуемся инструментом «Анализ данных», входящим в пакет Microsoft Excel 2010.

Таблица 1 – Анализ данных с использованием линейной регрессии

Регрессионная статистика

Множественный R

0,8997

R-квадрат

0,809

Нормированный R-квадрат

0,809

Стандартная ошибка

1,52

Наблюдения

3081

 

Коэффициенты

Свободный член

1,899

Угловой коэффициент

0,001

При линейной регрессии коэффициент корреляции Пирсона rxy численно равен множественному R [4]:

   

(3)

Значение rxy находится в промежутке 0,7..0,9, т.е. значения расстояния между городами и среднего времени доставки имеют сильную (высокую) тесноту связи по шкале Чеддока [4].

Коэффициенты y-пересечения и переменной x1 дают возможность построить график линейной регрессии вида (1), где a = 1,899; b = 0,001:

   

(4)

Создадим диаграмму рассеивания, в которой по оси абсцисс отложим расстояние между пунктом отправления и пунктом назначения, а по оси ординат – соответствующее среднее время перевозки посылки по маршруту.

Добавим полученную прямую (4) на график (рис. 3).

Рисунок 3 – Диаграмма рассеяния (синие маркеры) и линейная регрессия (красная линия)

Данная визуализация позволяет оценить относительную эффективность перевозки посылок: маршруты, которым соответствуют маркеры, располагающиеся выше графика линейной регрессии, можно признать менее эффективными по отношению к маршрутам, маркеры которых располагаются ниже графика линейной регрессии.

Для маркеров, лежащих выше графика линейной регрессии, справедливо следующее правило: чем дальше от графика линейной регрессии располагается маркер, тем менее эффективен маршрут, соответствующий данному маркеру.

Для маркеров, лежащих ниже графика линейной регрессии, справедливо следующее правило: чем дальше от графика линейной регрессии располагается маркер, тем более эффективен маршрут, соответствующий данному маркеру.

Работа с дополнительными атрибутами

Добавим в полученную таблицу следующие атрибуты (рис. 4):

– «ФО-1» и «ФО-2» – номера федеральных округов, в которых находятся пункт отправления и пункт назначения соответственно (1 – Центральный, 2 – Северо-Западный, 3 – Южный, 4 – Северо-Кавказский, 5 – Приволжский, 6 – Уральский, 7 – Сибирский, 8 – Дальневосточный);

– «Аэропорт» – значение атрибута равно единице в том и только в том случае, если как в пункте отправления, так и в пункте назначения имеются действующие аэропорты;

– «АСЦ» – значение атрибута равно единице в том и только в том случае, если как пункт отправления, так и пункт назначения входят в зону обслуживания Московского или Санкт-Петербургского автоматизированного сортировочного центра;

– «Скорость» – значение атрибута вычисляется как «расстояние между населёнными пунктами» / «среднее время доставки».

Рисунок 4 – Фрагмент таблица-список с дополненной информацией о маршрутах перевозки посылок

Использование фильтрации данных в таблице на рис. 4 позволяет оценить вклад различных параметров и факторов в эффективность перевозок.

Например, оставим маркеры для маршрутов с атрибутом «АСЦ», равным единице.

Рисунок 5 – Диаграмма рассеивания для маршрутов с атрибутом «АСЦ», равным единице

Из графика на рис. 5 следует, что в случаях, когда пункт отправления и пункт назначения входят в зону обслуживания одного из АСЦ, среднее время доставки = 2…3 дня. Притом маршруты, среднее время доставки для которых составляет двое суток, все являются эффективными, а вот маршруты со средним сроком доставки, равным трём суткам, в большинстве своём не являются эффективными.

Фильтрация табличных данных по атрибутам «ФО-1» и «ФО-2» позволяет оценить эффективность перевозок внутри федеральных округов, либо между двумя определёнными федеральными округами.

На рис. 6 представлен график внутренних перевозок между населёнными пунктами Дальневосточного ФО, свидетельствующий о неэффективности перевозок на большинстве маршрутов.

Рисунок 6 – Диаграмма рассеивания для внутренних перевозок между городами Дальневосточного ФО

Пакет TIBCO Spotfire Cloud также предоставляет эффективные средства для визуализации [5].

Рассмотрим диаграмму вида «Treemap» (рис. 7), на которой расположены города России по среднему значению скорости перевозки посылок на маршрутах, где данный город является пунктом отправления или назначения.

Рисунок 7 – Диаграмма вида «Treemap» городов России в зависимости от среднего значения скорости перевозки

Города упорядочены от минимального значения средней скорости (правый нижний угол) до максимального (левый верхний). Минимальное значение соответствует Назрани (13,72 км/сутки), максимальное – Владивостоку (34,98 км/сутки).

Выводы

Регрессионный анализ с применением метода наименьших квадратов позволяет построить линию регрессии, физический смысл которой заключается в усреднении всех значений на диаграмме рассеивания. При этом для значений, лежащих выше графика линейной регрессии, справедливо следующее правило: чем дальше от графика линейной регрессии располагается маркер, тем менее эффективен маршрут, соответствующий данному маркеру. Для значений, лежащих ниже графика линейной регрессии, справедливо следующее правило: чем дальше от графика линейной регрессии располагается маркер, тем более эффективен маршрут, соответствующий данному маркеру.

Поочерёдное включение фильтров различных табличных данных (при сохранении первоначальной линии регрессии) позволяет оценить эффективность маршрутов в пределах одного или нескольких федеральных округов, либо маршрутов, пункты отправления и назначения в которых обладают определённым признаком (наличие аэропорта, принадлежность к зоне обслуживания одного из АСЦ).

Добавление дополнительных атрибутов (признаков) в таблицу данных расширяет число возможных комбинаций фильтрации данных и позволяет проводить анализ эффективности маршрутов по большему числу атрибутов.

Список использованной литературы и источников

1. Основы линейной регрессии [Электронный ресурс]. – Режим доступа: http://statistica.ru/theory/osnovy-lineynoy-regressii/. Дата обращения: 22.01.2017.

Б. Контрольные сроки пересылки посылок нестандартных и нестандартных негабаритных между городами федерального значения, административными центрами субъектов Российской Федерации [Электронный ресурс]. – Режим доступа: https://www.pochta.ru/documents/10231/164282774/Контрольные+сроки+по+пересылке+посылок%282016%29.pdf/d3bfee38-9058-4612-a7f0-b1d88f3d7781. Дата обращения: 28.10.2016.

В. Расстояния между городами России [Электронный ресурс]. – Режим доступа: https://www.avtodispetcher.ru/distance/table/c172-rossiya/. Дата обращения: 28.10.2016.

Г. Курс «Data Mining». Лекция 8. Основы анализа данных [Электронный ресурс] / И. Чубукова / Национальный Открытый Университет "ИНТУИТ". – Режим доступа: http://www.intuit.ru/studies/courses/6/6/lecture/172. Дата обращения: 28.10.2016.

Д. TIBCO Spotfire. Instantly Visualize, Interact with, and Share Data. [Электронный ресурс]. Режим доступа: http://spotfire.tibco.com/discover-spotfire/what-does-spotfire-do/data-discovery-and-visualization. Дата обращения: 25.12.2016.

Просмотров работы: 307