Следует сразу оговориться, что под точным прогнозом подразумевается не однозначное совпадение предсказаний исходов игр (победа или ничья какой-либо команды) с реальными результатами, а статистическое соответствие между вероятностями всех исходов, которые возможны и частотами этих самых исходов среди массы всех определённых спортивных результатов.
В общем случае, кластеризация – набор математических методов, направленных на формирование относительно «отдаленных» друг от друга групп «близких» между собой объектов по информации о расстояниях или связях (мерах близости) между ними. Ведущее назначение кластерного анализа – раздробление множества исследуемых объектов и признаков на схожие по чертам, однородные в соответствующем понимании группы или кластеры. Методы, использующиеся для кластеризации делятся на иерархические: метод ближней связи; метод средней связи Кинга; метод Уорда и неиерархические: метод k-средних Мак-Куина.
Преимущества кластерного анализа:
№1: даёт возможность производить раздробление объектов не по одному признаку, а по целому набору.
№2: при прогнозировании конъюнктуры, где показатели принимают разнообразный вид, даёт свободное использование традиционных эконометрических подходов.
№3: анализ кластеров даёт возможность рассматривать достаточно большой объём и резко сокращать, сжимать большие массивы социально-экономической информации, придавать им компактный и наглядный вид.
№4: позволяет давать оценку экономическому развитию мобильно и не проводя сложных математических вычислений.
Недостатки и ограничения кластерного анализа:
№1: при сведении исходного массива данных к более компактному виду могут возникнуть некоторые искажения.
№2: потеря индивидуальных черт отдельных объектов за счёт замены их данными обобщённых значений и параметров кластера.
№3: при проведении группирования объектов очень часто не берётся во внимание возможность отсутствия в приведённой совокупности каких-либо данных кластеров.
Постановка задачи: спрогнозировать результаты игр сборной Российской Федерации на Чемпионате Мира 2018 по футболу, используя пакет Statistica.
Решение. Составляем таблицу имеющихся данных.
Создаём новый документ (Create New Document): В меню Файл/Новый…
В появившемся окне диалога набираем количество переменных – 6, число регистров – 16 (количество футболистов)./Ок.
В появившейся таблице вводим исходные данные.
Стандартизируем данные, так как они имеют разную размерность:
Выделить столбцы;
Правой кнопкой мыши по названию любого столбца переменной вызвать контекстное меню
Выбрать команду Fill/Standardize Block/Standardize Columns
Стандартизируем данные.
Вызываем диалог кластерного анализа: Меню Статистика/Многомерные исследовательские методы/ Анализ кластера.
В появившемся окне диалога выбираем иерархические агломеративные методы Joining (tree clustering).
Выбираем переменные
Кнопка Variables
В открывшемся окне диалога выбрать все переменные (можно нажать кнопку Select All)
Нажать кнопку Ок.
Кнопка Distance matrix выводит матрицу расстояний(с учётом выбранной метрики).
Кнопка Amalgamation schedule выводит последовательность объединения в кластеры в виде таблицы.
Кнопка Horizontal hierarchical tree plot выводит дендограмму в горизонтальном виде.
Таким образом,
При уровне 0,05
1 кластер: Антон Заболотный, Константин Рауш, Дмитрий Тарасов, Марио Фернандес
2 кластер: Евгений Чернов
3 кластер: Далер Кузяев, Антон Миранчук
4 кластер: Дмитрий Полоз, Александр Ерохин
5 кластер: Александр Головин
6 кластер: Магомед Оздоев
7 кластер: Фёдор Смолов
8 кластер: Александр Кокорин
9 кластер: Алан Дзагоев
10 кластер: Александр Самедов
При уровне 0,10:
1 кластер: Антон Заболотный, Константин Рауш, Дмитрий Тарасов, Марио Фернандес, Евгений Чернов, Далер Кузяев, Антон Миранчук, Дмитрий Полоз, Александр Ерохин, Александр Головин, Магомед Оздоев, Алексей Миранчук
2 кластер: Фёдор Смолов
3 кластер: Александр Кокорин
4 кластер: Алан Дзагоев
5 кластер: Александр Самедов
При уровне 0,20:
1 кластер: Антон Заболотный, Константин Рауш, Дмитрий Тарасов, Марио Фернандес, Евгений Чернов, Далер Кузяев, Антон Миранчук, Дмитрий Полоз, Александр Ерохин, Александр Головин, Магомед Оздоев, Алексей Миранчук, Фёдор Смолов
2 кластер: Александр Кокорин, Алан Дзагоев, Александр Самедов
Итак, с помощью пакета Statistica с лёгкостью можно провести анализ наших данных и сделать необходимые выводы. Зная сроки, которые игроки состоят в сборной и статистику забитых голов, мы можем с некоторой вероятностью предсказать результаты игр Чемпионата Мира по футболу 2018. Но нельзя исключать человеческий фактор, решения тренера о замене игроков в действующем составе сборной и т.д., так как это может полностью изменить результаты.