Кластерный анализ социально-экономического развития региона с помощью пакета STATISTICA.

Чукарина М.В. 1

1Донской Государственный Технический Университет

Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

При анализе и прогнозировании социально-экономического развития часто возникает проблема многомерности их описания. Кластерный анализ является одним из методов многомерной статистики, который наиболее ярко отражает черты многомерности в процедуре классификации объектов. Название «кластерный анализ» происходит от английского слова «cluster» — гроздь, скопление. Впервые определил предмет кластерного анализа и дал его описание исследователь Трион (Тгуоn) в 1939 г. Функционал кластерного анализа — упорядочивание объектов в сравнительно однородные группы (кластеры).

Кластерный анализ – одно из направлений статистического исследования социально-экономических процессов, которые связаны с изучением массовых явлений.

Цели кластеризации:

Понимание анализируемых данных путём выявления кластерной структуры. Разбиение выборки на группы схожих объектов позволяет упростить дальнейшую обработку данных и принятия решений, применяя к каждому кластеру свой метод анализа.

Сжатие данных. Если исходная выборка избыточно большая, то можно сократить её, оставив по одному наиболее типичному представителю от каждого кластера.

Обнаружение новизны. Выделяются нетипичные объекты, которые не удаётся присоединить ни к одному из кластеров.

Преимущества кластерного анализа:

Даёт возможность производить раздробление объектов не по одному признаку, а по целому набору.

При прогнозировании конъюнктуры, где показатели принимают разнообразный вид, даёт свободное использование традиционных эконометрических подходов.

Анализ кластеров даёт возможность рассматривать достаточно большой объём и резко сокращать, сжимать большие массивы социально-экономической информации, придавать им компактный и наглядный вид.

Позволяет давать оценку экономическому развитию мобильно и не проводя сложных математических вычислений.

Недостатки и ограничения кластерного анализа:

При сведении исходного массива данных к более компактному виду могут возникнуть некоторые искажения.

Потеря индивидуальных черт отдельных объектов за счёт замены их данными обобщённых значений и параметров кластера.

При проведении группирования объектов очень часто не берётся во внимание возможность отсутствия в приведённой совокупности каких-либо данных кластеров.

Постановка задачи:

Ростовская область - одна из наиболее крупных областей в Российской Федерации. В ее составе находятся 12 городских округов и 43 муниципальных района. Ростов-на-Дону – областной центр, один из наиболее перспективных городов. Неравномерность развития инфраструктуры, широкого спектра рабочих мест и крупных предприятий на периферийных территориях области во многом определяет актуальность выбранной темы.

Необходимо провести кластерный анализ городов Ростовской области по основным социально-экономическим показателям. В результате работы мы получим несколько кластеров, включающих в себя города, схожие по статистическим данным, с помощью этого можно будет наглядно изучить, на каких участках максимально развито то или иное направление.

Решение:

В этой работе представлено разбиение 8 территориальных единиц Ростовской области на основе 7 социально-экономических показателей в период с 2016 по 2018 год. Целью кластерного анализа является прогнозирование развития данных показателей сразу в нескольких районах области.

Выбранные показатели для кластерного исследования:

1 – Индекс промышленного производства, ед.

2 – Количество прибыльных крупных и средних предприятий и организаций, ед.

3 – Оборот розничной торговли по всем каналам реализации на душу населения, руб.

4 – Плотность населения на 1 января 2018 года, человек на 1 кв. метр.

5 – Инвестиции в основной капитал на душу населения, руб.

6 – Уровень официально зарегистрированной безработицы, %.

7 – Общая площадь жилых помещений, приходящаяся в среднем на 1 жителя, м².

Составляем таблицу имеющихся данных ( в таблице приведены либо средние, либо приближённые значения по территориальной единице)

	1	2	3	4	5	6	7
г. Азов	113	12	138135	1,7155	37811,6	0,6	22
г. Гуково	82	8	78619,8	1,1867	16662,1	1,3	26
г. Зверево	102	3	80762,3	2,1876	50439,7	1	25,6
г. Каменск-Шахтинский	122	22	309187,4	2,6412	19374,3	0,7	24
г. Шахты	67	329	458937	1,9425	44572,5	0,5	23,1
г. Аксай	131	14	238431,2	63,0213	195369,8	0,8	27
г. Белая Калитва	129	15	110094	112,1433	35793,5	0,8	24,5
г. Цимлянск	97	9	94001	92,3034	27739,4	1,1	26,3

Рис.1 Таблица исходных данных

Создаём новый документ (Create New Document): В меню Файл/Новый…

В появившемся окне диалога набираем количество переменных – 7 (количество показателей анализа), число регистров – 8 (количество анализируемых городов)./Ок.

В появившейся таблице вводим исходные данные, которые представлены в пункте [1].

Стандартизируем данные, так как они имеют разную размерность:

• Выделить столбцы;

• Правой кнопкой мыши по названию любого столбца переменной вызвать контекстное меню

•Выбратькоманду Fill/Standardize Block/Standardize Columns. Стандартизация данных проводится по формуле

Вызываем диалог кластерного анализа: Меню Статистика/Многомерные исследовательские методы/ Анализ кластера.

В появившемся окне диалога выбираем иерархические агломеративные методы Joining (tree clustering).

Рис.2 Вид окна выбора метода классификации

Выбираем переменные

Кнопка Variables

В открывшемся окне диалога выбрать все переменные (можно нажать кнопку Select All)

Нажать кнопку Ок.

Кнопка Amalgamation schedule выводит последовательность объединения в кластеры в виде таблицы.

Кнопка Horizontal hierarchical tree plot выводит дендограмму в горизонтальном виде. Для того чтобы определить оптимальное расстояние, на которое следует разбить наши территории на кластеры, необходимо определить шаг. Иначе говоря, необходимо правило связи для двух или несколько кластеров. Самым доступным инструментом для выбора количества классов в STATISTICA является график и таблица объединения объектов.

Рис.3 Горизонтальная дендрограмма результатов

Кнопка Vertical icicle plot выводит дендограмму в вертикальном виде. Такой вид иногда более наглядно удобен для составления вывода кластерного анализа.

Рис. 4 Вертикальная дендрограмма результатов

Таким образом, на уровне 0,3:

1 кластер: г. Аксай;

2 кластер: г. Зверево;

3 кластер: г. Шахты, г. Каменск-Шахтинский, г. Гуково, г. Белая Калитва, г. Цимлянск, г. Азов.

Вывод: С помощью пакета Statistica мы провели кластерный анализ данных городов Ростовской области по социально-экономическим параметрам и объединили исследуемые объекты и признаки на группы (кластеры), определив схожие черты в каждой из них.

Данные графика показывают, что анализируемые нами города можно разбить на 3 кластера, основываясь на их социально-экономических показателях. В качестве методов стимулирования периферийных территорий следует отметить:

Усиленный контроль областного руководства к данным периферийным территориям;

Поиск более эффективных способов управления периферийными регионами;

Создание градообразующих предприятий, новых рабочих мест;

Борьба с оттоком населения из периферии путем повышения привлекательности регионов, улучшения условий досуга, туризма.

Информация для анализа была взята с сайта http://rostov.gks.ru/wps/wcm/connect/rosstat_ts/rostov/ru/ .

Просмотров работы: 72

Код для цитирования:

XI Международная студенческая научная конференция Студенческий научный форум - 2019

Кластерный анализ социально-экономического развития региона с помощью пакета STATISTICA.

Студенческий научный форум - 2019
XI Международная студенческая научная конференция