Основное понятие факторного анализа (фактор) определяется следующим образом: факторы - гипотетические непосредственно не измеряемые, скрытые (латентные) переменные в той или иной мере связанные с измеряемыми характеристиками – проявлениями этих факторов.
Идея факторного анализа основана на предположении, что имеется ряд величин, не известных исследователю, которые заставляют проявляться различные соотношения между переменными. То есть структура связей между pанализируемыми признаками x(1),…, x(p) может быть объяснена тем, что все эти переменные зависят (линейно или как-то еще) от меньшего числа других, непосредственно не измеряемых факторов f (1),…, f (m) (m < p), которые принято называть общими. Такая взаимозависимость может быть расценена как своего рода базис взаимосвязи между рассматриваемыми переменными. Таким образом, факторный анализ (в широком смысле) – совокупность моделей и методов, ориентированных на выявление, конструирование и анализ внутренних факторов по информации об их “внешних” проявлениях. В узком смысле под факторным анализом понимают методы выявления гипотетических (ненаблюдаемых) факторов, призванных объяснить корреляционную матрицу количественных наблюдаемых переменных.
Большинство моделей конструируется так, чтобы общие факторы оказались некоррелированными. При этом в общем случае не постулируется возможность однозначного восстановления значений каждого из наблюдаемых признаков x(j) по соответствующим значениям общих факторов f (1),…, f (m): допускается, что любой из исходных признаков x(j) зависит также и от некоторой своей остаточной случайной компоненты e(j ) - характерного фактора, который и обуславливает статистический характер связи между x(j) с одной стороны и f(1),…, f (m) с другой.
Конечная цель статистического исследования, проводимого с привлечением факторного анализа, как правило, состоит в выявлении и интерпретации латентных общих факторов с одновременным стремлением минимизировать их число и степень зависимости x(j) от своих характерных факторов e(j ). Как и в любой модельной схеме, эта цель может быть достигнута лишь приближенно. Принято считать статистический анализ такого рода успешным, если большое число переменных удалось объяснить малым числом факторов. Являются ли факторы причинами или просто агрегированными теоретическими конструкциями – зависит от интерпретации модели.
Рассмотрим основные этапы проведения факторного анализа в системе STATISTICA на следующем примере. Исходными показателями послужили свойства личности, оцененные в тесте WINKLO:
A – Замкнутость - открытость в общении
B – Логический интеллект
C – Неуравновешенность – контроль эмоциональных реакций
E – Подчинённость – доминантность при поведении в группе
F – Бедность – Богатство эмоциональных реакций человека
G – Низкая – высокая дисциплинированность
H – Сдержанность – активность в контактах с людьми
I – Эмоциональная чувствительность
Рассмотрим этап определения метода выделения факторов (рис. 1).
Рисунок 1. Диалоговое окно "Определить метода выделения факторов "
Верхняя часть окна является информационной: здесь сообщается, что пропущенные значения обработаны методом Casewise. Обработано 35 случаев и 35 случаев приняты для дальнейших вычислений. Корреляционная матрица вычислена для 8 переменных.
Группа опций, объединенных под заголовком Extraction method (Методы выделения факторов) – позволяет выбрать метод обработки:
Principal components (метод главных компонент) – позволяет выделить компоненты, работая с первоначальной матрицей корреляций.
Communalities=multiple R (общности как множественный R-квадрат) – на диагонали матрицы корреляций будут находиться оценки квадрата коэффициента множественной корреляции-R2 (соответствующей переменной со всеми другими переменными).
Iteratedcommunalities(MINRES)(метод минимальных остатков) – выполняется в два этапа. Сначала оценки квадрата коэффициента множественной корреляции-R2 используются для определения общностей, как в предыдущем методе. После первоначального выделения факторов метод корректирует их нагрузки с помощью метода наименьших квадратов с целью минимизировать остаточные суммы квадратов.
Maximum likelihood factors (метод максимального правдоподобия) – в этом методе считается заранее известным число факторов (оно устанавливается в поле ввода максимального числа факторов). STATISTICA оценит нагрузки и общности, которые максимизируют вероятность наблюдаемой в таком случае матрицы корреляций. В диалоговом окне результатов анализа доступен χ-квадрат тест для проверки справедливости принятой гипотезы о числе общих факторов.
Centroid method (центроидный метод) – основан на геометрическом подходе.
Principal axis method (метод главных осей) – основан на итеративной процедуре вычисления общностей по текущим собственным значениям и собственным векторам. Итерации продолжаются до тех пор, пока не превышено максимальное число итераций или минимальное изменение в общностях больше, чем это определено в соответствующем поле.
Max. no. of factors (Максимальное число факторов). Заданное в этом поле число определяет, сколько факторов может быть выделено при работе рассмотренных выше методов. Это поле работает вместе с полем Min. eigenvalue (Минимальное собственное значение). Часто при заполнении этого поля руководствуются критерием Кайзера, который рекомендует использовать лишь те факторы, для которых собственные значения не меньше 1.
Остальные поля доступны только при выбранном методе Centroid method (Центроидный метод) или Principal axis method (Метод главных осей), и определяют необходимые для успешного выполнения последовательных итераций параметры минимального изменения в общностях и максимального числа итераций.
Перейдем к результатам факторного анализа (рис. 2).
Рисунок 2. Диалоговое окно «Результаты факторного анализа»
В верхней части окна Результаты факторного анализа дается информационное
сообщение:
Number of variables (число анализируемых переменных) – 8;
Method (метод анализа) – главные компоненты;
log(10) determination of correlation matrix (десятичный логарифм детерминанта
корреляционной матрицы) – -1,1508;
Number of Factor extraction (число выделенных факторов) – 3;
Eigenvalues (собственные значения) – 2,57006; 1,53173; 1,25476.
В нижней части окна находятся подразделы, позволяющие всесторонне просмотреть результаты анализа численно и графически.
Plot of loadings, 2D и Plot of loadings, 3D (Графики нагрузок) – эти опции построят графики факторных нагрузок в проекции на плоскость любых двух выбранных факторов и в проекции в пространство трех выбранных факторов (для чего необходимо наличие как минимум трех выделенных факторов).
Summary. Factor loadings (Факторные нагрузки). Эта опция вызывает таблицу с текущими факторными нагрузками (рис. 3), т.е. вычисленными для данного метода вращения факторов, который указан справа от соответствующей кнопки. В этой таблице факторам соответствуют столбцы, а переменным – строки и для каждого фактора указывается нагрузка каждой исходной переменной, показывающая относительную величину проекции переменной на факторную координатную ось. Факторные нагрузки могут интерпретироваться как корреляции между соответствующими переменными и факторами – чем выше нагрузка по модулю, тем больше близость фактора к исходной переменной. В сгенерированной таблице для облегчения трактовки будут выделены факторные нагрузки по абсолютной величине больше 0,7.
Рисунок 3. Факторные нагрузки
Применим процедуру вращения. Цель вращения – получение простой структуры, при которой большинство наблюдений находится вблизи осей координат.
В раскрывающемся меню можно выбрать различные повороты оси. Окно предлагает несколько возможностей оценить и найти нужный поворот следующими методами:
Varimax – Варимакс;
Biquartimax – Биквартимакс;
Quartimax – Квартимакс;
Equamax – Эквимакс.
Дополнительный термин в названии методов – normalized (нормализованные) – указывает на то, что факторные нагрузки в процедуре нормализуются, т.е. делятся на корень квадратный из соответствующей дисперсии. Термин raw (исходные) показывает, что вращаемые нагрузки не нормализованы.
Инициируем кнопку Varimax normalized (Варимакс нормализованный).
Рисунок 4. Факторные нагрузки после вращения
Факторы чаще интерпретируют по нагрузкам. Первый фактор теснее всего связан с C, H, I, второй фактор – F и G, третий фактор – с E. Переменные A и B слабо связаны с выделенными факторами. Таким образом, произведена классификация переменных на четыре группы.
Для решения вопроса, сколькими факторами следует ограничиться, в программном пакете STATISTICA существует критерий Scree plot (рис. 5).
Рисунок 5. «График каменистой осыпи»
В точках с координатами 1, 2 и 3 осыпание замедляется наиболее существенно, следовательно, теоретически можно ограничиваться двумя факторами.
Выводы. Исследование показало, что для выбранных данных можно выделить три основных фактора:
Первый наиболее тесно связан с переменными «Неуравновешенность – контроль эмоциональных реакций», «Сдержанность – активность в контактах с людьми», «Эмоциональная чувствительность»;
Второй – с «Бедность – Богатство эмоциональных реакций человека» и «Низкая – высокая дисциплинированность»;
Третий – с «Подчинённость – доминантность при поведении в группе».
Данный результат можно объяснить тем, что эти факторы покрывают эмоциональные свойства личности (первый фактор), дисциплинированность (второй фактор) и поведение в группе (третий фактор). Оставшиеся свойства либо имеют высокую корреляцию с уже рассмотренными («Замкнутость - открытость в общении») , либо имеют малый вклад в описание личностных свойств («Логический интеллект»).
Список литературы:
Буреева Н.Н. Многомерный статистический анализ с использованием ППП “STATISTICA”. Учебно-методический материал по программе повышения квалификации «Применение программных средств в научных исследованиях и преподавании математики и механики». – Нижний Новгород, 2007. – 112с.