КЛАСТЕРНЫЙ АНАЛИЗ. ПРИМЕНЕНИЕ В ПАКЕТЕ STATISTICA - Студенческий научный форум

X Международная студенческая научная конференция Студенческий научный форум - 2018

КЛАСТЕРНЫЙ АНАЛИЗ. ПРИМЕНЕНИЕ В ПАКЕТЕ STATISTICA

Чукарина М.В. 1, Тимофеева А.А. 2
1Днской Государственный Технический Университет
2Донской государственный технический университет
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF
Современные математические методы и развитость информационных технологий позволяют с повышенной точностью прогнозировать исходы игр в спорте (футболе, баскетболе, и других).

Следует сразу оговориться, что под точным прогнозом подразумевается не однозначное совпадение предсказаний исходов игр (победа или ничья какой-либо команды) с реальными результатами, а статистическое соответствие между вероятностями всех исходов, которые возможны и частотами этих самых исходов среди массы всех определённых спортивных результатов.

В общем случае, кластеризация – набор математических методов, направленных на формирование относительно «отдаленных» друг от друга групп «близких» между собой объектов по информации о расстояниях или связях (мерах близости) между ними. Ведущее назначение кластерного анализа – раздробление множества исследуемых объектов и признаков на схожие по чертам, однородные в соответствующем понимании группы или кластеры. Методы, использующиеся для кластеризации делятся на иерархические: метод ближней связи; метод средней связи Кинга; метод Уорда и неиерархические: метод k-средних Мак-Куина.

Преимущества кластерного анализа:

№1: даёт возможность производить раздробление объектов не по одному признаку, а по целому набору.

№2: при прогнозировании конъюнктуры, где показатели принимают разнообразный вид, даёт свободное использование традиционных эконометрических подходов.

№3: анализ кластеров даёт возможность рассматривать достаточно большой объём и резко сокращать, сжимать большие массивы социально-экономической информации, придавать им компактный и наглядный вид.

№4: позволяет давать оценку экономическому развитию мобильно и не проводя сложных математических вычислений.

Недостатки и ограничения кластерного анализа:

№1: при сведении исходного массива данных к более компактному виду могут возникнуть некоторые искажения.

№2: потеря индивидуальных черт отдельных объектов за счёт замены их данными обобщённых значений и параметров кластера.

№3: при проведении группирования объектов очень часто не берётся во внимание возможность отсутствия в приведённой совокупности каких-либо данных кластеров.

Постановка задачи: спрогнозировать результаты игр сборной Российской Федерации на Чемпионате Мира 2018 по футболу, используя пакет Statistica.

Решение. Составляем таблицу имеющихся данных.

Создаём новый документ (Create New Document): В меню Файл/Новый…

В появившемся окне диалога набираем количество переменных – 6, число регистров – 16 (количество футболистов)./Ок.

В появившейся таблице вводим исходные данные.

Стандартизируем данные, так как они имеют разную размерность:

  • Выделить столбцы;

  • Правой кнопкой мыши по названию любого столбца переменной вызвать контекстное меню

  • Выбрать команду Fill/Standardize Block/Standardize Columns

Стандартизируем данные.

Вызываем диалог кластерного анализа: Меню Статистика/Многомерные исследовательские методы/ Анализ кластера.

В появившемся окне диалога выбираем иерархические агломеративные методы Joining (tree clustering).

Выбираем переменные

  • Кнопка Variables

  • В открывшемся окне диалога выбрать все переменные (можно нажать кнопку Select All)

  • Нажать кнопку Ок.

Кнопка Distance matrix выводит матрицу расстояний(с учётом выбранной метрики).

Кнопка Amalgamation schedule выводит последовательность объединения в кластеры в виде таблицы.

Кнопка Horizontal hierarchical tree plot выводит дендограмму в горизонтальном виде.

Таким образом,

При уровне 0,05

  • 1 кластер: Антон Заболотный, Константин Рауш, Дмитрий Тарасов, Марио Фернандес

  • 2 кластер: Евгений Чернов

  • 3 кластер: Далер Кузяев, Антон Миранчук

  • 4 кластер: Дмитрий Полоз, Александр Ерохин

  • 5 кластер: Александр Головин

  • 6 кластер: Магомед Оздоев

  • 7 кластер: Фёдор Смолов

  • 8 кластер: Александр Кокорин

  • 9 кластер: Алан Дзагоев

  • 10 кластер: Александр Самедов

При уровне 0,10:

  • 1 кластер: Антон Заболотный, Константин Рауш, Дмитрий Тарасов, Марио Фернандес, Евгений Чернов, Далер Кузяев, Антон Миранчук, Дмитрий Полоз, Александр Ерохин, Александр Головин, Магомед Оздоев, Алексей Миранчук

  • 2 кластер: Фёдор Смолов

  • 3 кластер: Александр Кокорин

  • 4 кластер: Алан Дзагоев

  • 5 кластер: Александр Самедов

  • При уровне 0,20:

  • 1 кластер: Антон Заболотный, Константин Рауш, Дмитрий Тарасов, Марио Фернандес, Евгений Чернов, Далер Кузяев, Антон Миранчук, Дмитрий Полоз, Александр Ерохин, Александр Головин, Магомед Оздоев, Алексей Миранчук, Фёдор Смолов

  • 2 кластер: Александр Кокорин, Алан Дзагоев, Александр Самедов

Итак, с помощью пакета Statistica с лёгкостью можно провести анализ наших данных и сделать необходимые выводы. Зная сроки, которые игроки состоят в сборной и статистику забитых голов, мы можем с некоторой вероятностью предсказать результаты игр Чемпионата Мира по футболу 2018. Но нельзя исключать человеческий фактор, решения тренера о замене игроков в действующем составе сборной и т.д., так как это может полностью изменить результаты.

Просмотров работы: 171