ПРИМЕНЕНИЕ DATA MINING В ИССЛЕДОВАНИИ СВОЙСТВ ЛИЧНОСТИ ПО ДАННЫМ ТЕСТА WINKLO - Студенческий научный форум

VI Международная студенческая научная конференция Студенческий научный форум - 2014

ПРИМЕНЕНИЕ DATA MINING В ИССЛЕДОВАНИИ СВОЙСТВ ЛИЧНОСТИ ПО ДАННЫМ ТЕСТА WINKLO

Поданёва Д.С. 1
1Национальный исследовательский Томский политехнический университет
 Комментарии
Текст работы размещён без изображений и формул.
Полная версия работы доступна во вкладке "Файлы работы" в формате PDF

DATA MINING

Процесс извлечения знаний на начальных этапах проектирования интеллектуальных экспертных систем - один из наиболее сложных и трудоемких, и он не всегда заканчивается успешно, поскольку базы данных в слабоструктурируемых предметных областях содержат неполную, нечеткую, разнотипную и противоречивую информацию. Поэтому одним из перспективных подходов к решению обозначенных проблем является использование интеллектуальных методов Data Mining – современные воплощения основных идей искусственного интеллекта, – основными задачами которых являются поиск функциональных зависимостей и логических закономерностей в накопленной информации, построение моделей и правил, объясняющих найденные закономерности.

Основу методов Data Mining составляют всевозможные методы классификации, моделирования и прогнозирования, основанные на применении деревьев решений, искусственных нейронных сетей, генетических алгоритмов, эволюционного программирования, ассоциативной памяти, нечёткой логики. К методам Data Mining нередко относят статистические методы (дескриптивный анализ, корреляционный и регрессионный анализ, факторный анализ, дисперсионный анализ, компонентный анализ, дискриминантный анализ, анализ временных рядов, анализ выживаемости, анализ связей). Такие методы, однако, предполагают некоторые априорные представления об анализируемых данных, что несколько расходится с целями Data Mining (обнаружение ранее неизвестных нетривиальных и практически полезных знаний).

Первоначально задача ставится следующим образом:

• имеется достаточно крупная база данных;

• предполагается, что в базе данных находятся некие «скрытые знания».

• Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных. В текущих условия глобальной конкуренции именно найденные закономерности (знания) могут быть источником дополнительного конкурентного преимущества.

Что означает «скрытые знания»? Это должны быть обязательно знания:

• ранее не известные — то есть такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения);

• нетривиальные — то есть такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик);

• практически полезные — то есть такие знания, которые представляют ценность для исследователя или потребителя;

• доступные для интерпретации — то есть такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.

Эти требования во многом определяют суть методов Data mining и то, в каком виде и в каком соотношении в технологии Data mining используются системы управления базами данных, статистические методы анализа и методы искусственного интеллекта.

Методы Data mining имеет смысл применять только для достаточно больших баз данных. В каждой конкретной области исследований существует свой критерий «великости» базы данных.

Задачи, решаемые методами Data Mining, принято разделять на описательные и предсказательные.

В описательных задачах самое главное – это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.

К описательным задачам относятся:

• поиск ассоциативных правил или паттернов (образцов);

• группировка объектов, кластерный анализ;

• построение регрессионной модели.

• К предсказательным задачам относятся:

• классификация объектов (для заранее заданных классов);

• регрессионный анализ, анализ временных рядов.

Сферы применения Data Mining стали настолько обширны, что находят свое применения практически в любой отрасли: розничная торговля, банковское дело, телекоммуникации, страхование, другие приложения в бизнесе, медицина, молекулярная генетика и генная инженерия, прикладная химия, и т. д.

Описание пакета WizWhy

Алгоритмы ограниченного перебора были предложены в середине 60-х годов М. М. Бонгардом для поиска логических закономерностей в данных. С тех пор они продемонстрировали свою эффективность при решении множества задач из самых различных областей.

Эти алгоритмы вычисляют частоты комбинаций простых логических событий в подгруппах данных. Примеры простых логических событий: X = a; X < a; X > a; a < X < b и др., где X — какой либо параметр, “a” и “b” — константы. Ограничением служит длина комбинации простых логических событий. На основании анализа вычисленных частот делается заключение о полезности той или иной комбинации для установления ассоциации в данных, для классификации, прогнозирования и пр.

Наиболее ярким современным представителем этого подхода является система WizWhy предприятия WizSoft . Хотя автор системы Абрахам Мейдан не раскрывает специфику алгоритма, положенного в основу работы WizWhy, по результатам тщательного тестирования системы были сделаны выводы о наличии здесь ограниченного перебора (изучались результаты, зависимости времени их получения от числа анализируемых параметров и др.).

Автор WizWhy утверждает, что его система обнаруживает все логические правила вида "если…то…" для поступающих данных. На самом деле это, конечно, не так. Во-первых, максимальная длина комбинации в правиле "если…то…" в системе WizWhy равна 6, и, во-вторых, с самого начала работы алгоритма производится эвристический поиск простых логических событий, на которых потом строится весь дальнейший анализ. Поняв эти особенности WizWhy, нетрудно было предложить простейшую тестовую задачу, которую система не смогла вообще решить. Другой момент — система выдает решение за приемлемое время только для сравнительно небольшой размерности данных (не более 20).

Тем не менее, система WizWhy является на сегодняшний день одним из лидеров на рынке продуктов добычи данных, что совсем не лишено оснований. Система постоянно демонстрирует более высокие показатели при решении практических задач, чем все остальные алгоритмы.

Выявление логических закономерностей с помощью пакета WizWhy

Наличие в экспериментальном материале количественных, порядковых и качественных признаков, необходимость их совместного анализа обусловило выбор в качестве инструментария для построения продукционных моделей методов Data Mining.

Метод ограниченного перебора впервые был предложен в середине 60-х годов ХХ века М.М.Бонгардом. С тех пор подобные алгоритмы продемонстрировали свою эффективность при решении множества задач из самых различных областей. На основании анализа вычисленных частот делается заключение о полезности той или иной комбинации (комбинация есть конъюнкция элементарных событий, представляющих собой попадание значений признаков в определенные интервалы) для классификации, распознавания и прогнозирования.

В качестве инструментария для построения логических правил методом ограниченного перебора выбрана система WizWhy. Рассмотрим основные этапы проведения data minig в системе WizWhy на следующем примере. Исходными показателями послужили свойства личности, оцененные в тесте WINKLO:

L – Доверчивость – подозрительность по отношению к другим людям в общении

M – Практичный – мечтательный стиль мышления

N – Простота – изощрённость поведения в обществе

O – Уверенность – неуверенность в себе

Q1 – Консерватизм – стремление к новому

Q2 – Конформность – неконформность

Q3 – Низкий – высокий самоконтроль

Q4 – Расслабленность – напряжённость

Найдем зависимости между данными параметрами и полом опрашиваемого.

WIZWHY REPORT

WizWhy Version 3.08 Demo

PARAMETERS OF THE RULES AND DATA

Total number of records: 42

Minimum probability of the:

1) if-then rules: 0.820

2) if-then-not rules: 0.400

Minimum number of cases in a rule: 10

The Demo version is limited to 1000 records.

Dependent Variable: Gender

Predicted Value (analyzed as Boolean): Male

Number of rules 12

Prediction error costs:

The cost of a miss: 1

The cost of a false alarm: 1

Average probability of the predicted value is 0.714

ANALYSIS OF THE RULES EXPLANATORY POWER

Decision point: Predict Male when conclusive probability is more than 0.572

Number of misses: 3

Number of false alarms: 4

Total number of errors: 7

Total cost of errors: 7

Success rate when predicting Male : 0.871

Success rate when predicting NOT Male : 0.727

Number of records with no relevant rules : 0

Average cost (per record): 0.167

Expected average cost (per record) : 0.286

Improvement Factor : 1.714

IF-THEN RULES:

1) If Q1 is 0.00 ... 7.00 (average = 5.79 )

and Q4 is 6.00 ... 8.00 (average = 6.37 )

Then

Gender is not Male

Rule's probability: 0.526

The rule exists in 10 records.

Significance Level: Error probability < 0.01

Positive Examples (records' serial numbers):

1, 6, 10, 11, 12, 13, 15, 17, 19, 42

Negative Examples (records' serial numbers):

20, 21, 22, 23, 24, 30, 31, 32, 34

Если результат по критерию «Консерватизм – стремление к новому» находится в интервале от 0 до 7, и при этом результат по критерию «Расслабленность – напряжённость» находится в интервале от 6 до 8, то пол оцениваемого – женский (позитивные примеры - 1, 6, 10, 11, 12, 13, 15, 17, 19, 42 негативные – 20, 21, 22, 23, 24, 30, 31, 32, 34).

2) If Q4 is 6.00 ... 8.00 (average = 6.32 )

Then

Gender is not Male

Rule's probability: 0.440

The rule exists in 11 records.

Significance Level: Error probability < 0.01

Positive Examples (records' serial numbers):

1, 6, 8, 10, 11, 12, 13, 15, 17, 19

Negative Examples (records' serial numbers):

7, 18, 20, 21, 22, 23, 24, 27, 30, 31

Если результат по критерию «Расслабленность – напряжённость» находится в интервале от 6 до 8, то пол оцениваемого – женский (позитивные примеры - 1, 6, 8, 10, 11, 12, 13, 15, 17, 19, негативные – 7, 18, 20, 21, 22, 23, 24, 27, 30, 31).

3) If Q3 is 7.00 ... 10.00 (average = 8.40 )

and Q4 is 2.00 ... 5.00 (average = 3.70 )

Then

Gender is Male

Rule's probability: 1.000

The rule exists in 10 records.

Significance Level: Error probability < 0.1

Positive Examples (records' serial numbers):

2, 3, 5, 9, 25, 26, 28, 37, 39, 41

Если результат по критерию «Низкий – высокий самоконтроль» находится в интервале от 7 до 10, и при этом результат по критерию «Расслабленность – напряжённость» находится в интервале от 2 до 5, то пол оцениваемого – мужской (позитивные примеры - 2, 3, 5, 9, 25, 26, 28, 37, 39, 41 негативных нет).

4) If Q4 is 2.00 ... 5.00 (average = 4.07 )

Then

Gender is Male

Rule's probability: 0.929

The rule exists in 13 records.

Significance Level: Error probability < 0.1

Positive Examples (records' serial numbers):

2, 3, 4, 5, 9, 25, 26, 28, 33, 37

Negative Examples (records' serial numbers):

14

Если результат по критерию «Расслабленность – напряжённость» находится в интервале от 2 до 5, то пол оцениваемого – мужской (позитивные примеры - 2, 3, 4, 5, 9, 25, 26, 28, 33, 37, негативные – 14).

5) If O is 1.00 ... 5.00 (average = 3.85 )

Then

Gender is Male

Rule's probability: 0.923

The rule exists in 12 records.

Significance Level: Error probability < 0.1

Positive Examples (records' serial numbers):

2, 4, 5, 18, 22, 24, 25, 26, 27, 33

Negative Examples (records' serial numbers):

12

Если результат по критерию «Уверенность – неуверенность в себе» находится в интервале от 1 до 5, то пол оцениваемого – мужской (позитивные примеры - 2, 4, 5, 18, 22, 24, 25, 26, 27, 33, негативные – 12).

6) If Q1 is 8.00 ... 11.00 (average = 9.47 )

Then

Gender is Male

Rule's probability: 0.882

The rule exists in 15 records.

Significance Level: Error probability < 0.1

Positive Examples (records' serial numbers):

3, 4, 7, 9, 18, 27, 28, 29, 33, 35

Negative Examples (records' serial numbers):

8, 14

Если результат по критерию «Консерватизм – стремление к новому» находится в интервале от 8 до 11, то пол оцениваемого – мужской (позитивные примеры - 3, 4, 7, 9, 18, 27, 28, 29, 33, 35, негативные – 8, 14).

7) If Q1 is 0.00 ... 7.00 (average = 5.68 )

Then

Gender is not Male

Rule's probability: 0.400

The rule exists in 10 records.

Significance Level: Error probability < 0.1

Positive Examples (records' serial numbers):

1, 6, 10, 11, 12, 13, 15, 17, 19, 42

Negative Examples (records' serial numbers):

2, 5, 16, 20, 21, 22, 23, 24, 25, 26

Если результат по критерию «Консерватизм – стремление к новому» находится в интервале от 0 до 7, то пол оцениваемого – женский (позитивные примеры - 1, 6, 10, 11, 12, 13, 15, 17, 19, 42, негативные – 2, 5, 16, 20, 21, 22, 23, 24, 25, 26).

8) If L is 2.00 ... 5.00 (average = 3.88 )

Then

Gender is Male

Rule's probability: 0.875

The rule exists in 14 records.

Significance Level: Error probability < 0.1

Positive Examples (records' serial numbers):

2, 5, 9, 22, 23, 25, 26, 27, 28, 29

Negative Examples (records' serial numbers):

8, 17

Если результат по критерию «Доверчивость – подозрительность по отношению к другим людям в общении» находится в интервале от 2 до 5, то пол оцениваемого – мужской (позитивные примеры - 2, 5, 9, 22, 23, 25, 26, 27, 28, 29, негативные – 8, 17).

9) If Q3 is 0.00 ... 5.00 (average = 3.53 )

Then

Gender is Male

Rule's probability: 0.867

The rule exists in 13 records.

Significance Level: Error probability < 0.2

Positive Examples (records' serial numbers):

4, 7, 16, 18, 20, 22, 23, 24, 31, 33

Negative Examples (records' serial numbers):

1, 12

Если результат по критерию «Низкий – высокий самоконтроль» находится в интервале от 0 до 5, то пол оцениваемого – мужской (позитивные примеры - 4, 7, 16, 18, 20, 22, 23, 24, 31, 33, негативные – 1, 12).

10) If Q3 is 7.00 ... 10.00 (average = 8.13 )

Then

Gender is Male

Rule's probability: 0.867

The rule exists in 13 records.

Significance Level: Error probability < 0.2

Positive Examples (records' serial numbers):

2, 3, 5, 9, 25, 26, 28, 29, 30, 35

Negative Examples (records' serial numbers):

8, 17

Если результат по критерию «Низкий – высокий самоконтроль» находится в интервале от 7 до 10, то пол оцениваемого – мужской (позитивные примеры - 2, 3, 5, 9, 25, 26, 28, 29, 30, 35, негативные – 8, 17).

11) If O is 8.00 ... 12.00 (average = 9.08 )

Then

Gender is Male

Rule's probability: 0.833

The rule exists in 10 records.

Significance Level: Error probability < 0.3

Positive Examples (records' serial numbers):

3, 7, 16, 20, 30, 31, 36, 39, 40, 41

Negative Examples (records' serial numbers):

1, 14

Если результат по критерию «Уверенность – неуверенность в себе» находится в интервале от 8 до 12, то пол оцениваемого – мужской (позитивные примеры - 3, 7, 16, 20, 30, 31, 36, 39, 40, 41, негативные – 1, 14).

TrendReport:

Графики, отображающие правила, представлены на рис. 1-8. Колонки, превышающие синюю линию, являются наиболее достоверными правилами.

Рис. 1. График, отображающий правила для критерия «Доверчивость – подозрительность по отношению к другим людям в общении»

Рис. 2. График, отображающий правила для критерия «Практичный – мечтательный стиль мышления»

Рис. 3. График, отображающий правила для критерия «Простота – изощрённость поведения в обществе»

Рис. 4. График, отображающий правила для критерия «Уверенность – неуверенность в себе»

Рис. 5. График, отображающий правила для критерия «Консерватизм – стремление к новому»

Рис. 6. График, отображающий правила для критерия «Конформность – неконформность»

Рис. 7. График, отображающий правила для критерия «Низкий – высокий самоконтроль»

Рис. 8. График, отображающий правила для критерия «Расслабленность – напряжённость»

Заключение

В ходе данной работы были изучены возможности статистического пакета WizWhy, с помощью пакета проведен поиск закономерностей в оценках критериев студентов.

Поиск выявил 11 закономерностей, которые показывают, что в среднем юноши имеют более высокий самоконтроль, более консервативны и уверенны в себе, а также более доверчивы. Девушки, в свою очередь, более расслаблены, чем юноши.

Список литературы:

  1. Дюк В. А. Компьютерная психодиагностика. – СПб.: Братство, 1994. – 364 с.

  2. Сидоренко Е. В. Математические методы в психологии. – СПб.: Изд-во Социально-психологический центр, 1996. – 346 с.

Просмотров работы: 2279