ДИСКРИМИНАНТНЫЙ АНАЛИЗ
Цели
Выбор метода прогнозирования
Выбор метода прогнозирования
Выбор метода прогнозирования
Выбор метода прогнозирования
Шкалы наименований
Дискриминантный анализ
Дискриминантный анализ
Основная задача
Основная задача
Ограничения
Представление данных
Основная идея
Основная идея
Пример для двух групп
Основная идея
Основная идея
Основная идея
Основная идея
Основная идея
Пример для двух групп
Пример для двух групп
Пример для двух групп
Пример для двух групп
Модуль дискриминантного анализа
Модуль дискриминантного анализа
Модуль дискриминантного анализа
Модуль дискриминантного анализа
Получаем результаты (Quick):
Variables in the Model:
Variables in the Model:
Variables in the Model:
Variables in the Model:
Результаты анализа (Advanced)
Distances between groups
Distances between groups
Результаты анализа (Advanced)
Canonical Analysis:
Canonical Analysis (Advanced):
Canonical Analysis (Advanced):
Canonical Analysis (Advanced):
Canonical Analysis (Advanced):
Canonical Analysis (Advanced):
Canonical Analysis (Advanced):
Canonical Analysis (Advanced):
Canonical Analysis (Advanced):
Пример для двух групп
Canonical Analysis (Canonical Scores):
Canonical Analysis (Canonical Scores):
Результаты анализа (Classification):
Результаты анализа (Classification):
Результаты анализа(Classification):
Результаты анализа:
Результаты анализа (Classification):
Результаты анализа (Classification):
Результаты анализа (Classification):
Результаты анализа (Classification):
Пример для двух групп
Пример для трех групп
Пример для трех групп
Пример для трех групп
Пример для трех групп
Пример для трех групп
Пример для трех групп
Пример для трех групп
Пример для трех групп
Пример для трех групп
Пример для трех групп
Результаты анализа
Как делать прогноз?
Как делать прогноз?
Как делать прогноз?
Пример (реальный)
Пример
Пример (результаты)
Пример (результаты)
Пример (результаты –гм!)
Пример (результаты –гм!)
Пример (результаты –гм!)
Пример (результаты –гм!)
Пример
Пример
Полезная литература
Дискриминантный анализ
1.27M
Категория: МатематикаМатематика

Дискриминантный анализ

1. ДИСКРИМИНАНТНЫЙ АНАЛИЗ

Cтат. методы в
психологии
(Радчикова Н.П.)
Trisha Klass Illinois State University

2. Цели

В каких случаях применяется
дискриминантный анализ
Как применить дискриминантный анализ
Как интерпретировать результаты
дискриминантного анализа

3. Выбор метода прогнозирования

Вид
зависимости
Линейная
Зависимая
переменная
Независимые
переменные
Шкала
интервалов
или равных
отношений
1 переменная
(шкала
интервалов
или равных
отношений)
Несколько
любых
переменных*
Шкала
интервалов
или равных
отношений
Шкала
порядка или
наименований
Несколько
любых
переменных*
Метод
Простая линейная
регрессия
Множественная
линейная
регрессия
Дискриминантный
анализ

4. Выбор метода прогнозирования

Вид
зависимости
Линейная
Зависимая
переменная
Независимые
переменные
Шкала
интервалов
или равных
отношений
1 переменная
(шкала
интервалов
или равных
отношений)
Несколько
любых
переменных*
Шкала
интервалов
или равных
отношений
Шкала
порядка или
наименований
Несколько
любых
переменных*
Метод
Простая
Простая линейная
линейная
регрессия
регрессия
Множественная
линейная
регрессия
Дискриминантный
анализ

5. Выбор метода прогнозирования

Вид
зависимости
Линейная
Зависимая
переменная
Независимые
переменные
Шкала
интервалов
или равных
отношений
1 переменная
(шкала
интервалов
или равных
отношений)
Несколько
любых
переменных*
Шкала
интервалов
или равных
отношений
Шкала
порядка или
наименований
Несколько
любых
переменных*
Метод
Простая линейная
регрессия
Множественная
Множественная
линейная
линейная
регрессия
регрессия
Дискриминантный
анализ

6. Выбор метода прогнозирования

Вид
зависимости
Линейная
Зависимая
переменная
Независимые
переменные
Шкала
интервалов
или равных
отношений
1 переменная
(шкала
интервалов
или равных
отношений)
Несколько
любых
переменных*
Шкала
интервалов
или равных
отношений
Шкала
порядка или
наименований
Несколько
любых
переменных*
Метод
Простая линейная
регрессия
Множественная
линейная
регрессия
Дискри-
Дискриминантный
минантный
анализ
анализ

7. Шкалы наименований

Мы уже знаем, что можно использовать
дихотомические шкалы.
А что делать, если попалась шкала
наименований?
Не спешите расстраиваться! Надо ее
просто перекодировать!

8. Дискриминантный анализ

Альтернатива множественного
регрессионного анализа для случая,
когда зависимая переменная
качественная (категориальная).

9. Дискриминантный анализ

Основная цель:
Выявление структуры исследуемого
множества объектов
(структура – набор основных
факторов (шкал), по которым
различаются и могут быть описаны
объекты)

10. Основная задача

По значениям дискриминантных
переменных для объектов получить
значения классифицирующей
переменной, то есть определить
классы, в которые попадают эти
объекты.

11. Основная задача

На основании некоторых признаков
(независимых переменных) объект или
индивидуум может быть причислен к
одной из двух (или к одной из
нескольких) заранее заданных групп.

12. Ограничения

В случае дискриминантного анализа
предполагается, что
• зависимая переменная одна и
представлена в шкале наименований
• независимых переменных несколько

13. Представление данных

группа
Х1
Х2

Гр1
23
2,5
123
Гр1
21
1,7
131



Гр2
24
1,5
148
Гр2
21
2,1
133





Х34


14. Основная идея

Дискриминантная функция
z=b1 x1+b2 x2+b3 x3+…+bn xn+b0

15. Основная идея

Наша цель:
Определить коэффициенты b,
чтобы по значениям
дискриминантной функции можно
было с максимальной четкостью
провести разделение по группам.

16. Пример для двух групп

группа
Х1
Х2

Гр1
23
2,5
123
Гр1
21
1,7
131



Гр2
24
1,5
148
Гр2
21
2,1
133





Х34


17. Основная идея

Строим дискриминантную функцию
z=b1 x1+b2 x2+b3 x3+…+bn xn+b0,
такую, что разница между средними
значениями z1 и z2, полученными на
множествах значений НП для разных
групп максимальна.

18. Основная идея

z1 - z2 максимум
Фишер показал, что
b=S-1 (x1-x2),
где S – ковариационная матрица

19. Основная идея

Классификация происходит посредством
определения величины zГР
zГР = (z1 - z2 )/2
zГР

20. Основная идея

Предположив, что z1 – большее их двух
средних, получаем правило:
Случай относится к группе 1, если zi - zГР >0
Случай относится к группе 2, если zi - zГР 0

21. Основная идея

z1 и z2 называются центроидами
групп

22. Пример для двух групп

Данные
GENDER – пол испытуемого;
EDUC – образование испытуемого
(количество лет, которые бедняга потратил на
учебу);
JCAT – вид профессиональной деятельности
(1 – клерк, 2- охранник, 3 – менеджер);
SALARY – зарплата в настоящий момент;

23. Пример для двух групп

Данные
SAL_BEG – начальная зарплата на этой
работе;
JTIME – трудовой стаж на данном рабочем
месте (число месяцев);
PREVEX – предыдущий опыт – стаж до
поступления на данную работу;
MINORITY – принадлежит ли испытуемый к
национальному меньшинству (0 – нет, 1 – да).

24. Пример для двух групп

Попробуем предсказать,
принадлежит ли человек к
национальному меньшинству на
основании его зарплаты и
образования

25. Пример для двух групп

•Что мы получим в результате
применения дискриминантного
анализа?
•Как это интерпретировать?

26. Модуль дискриминантного анализа

Discriminant Analysis
Statistics
Multivariate Exploratory Techniques
Discriminant Analysis

27. Модуль дискриминантного анализа

28. Модуль дискриминантного анализа

29. Модуль дискриминантного анализа

30. Получаем результаты (Quick):

Анализ
переменных,
использующихся
в модели

31. Variables in the Model:

Лямбда Уилкса для
модели с исключенной
данной переменной.
Изменяется от 0
(совершенное
различение) до 1
(никакого различия)

32. Variables in the Model:

Эта лямбда связана
с вкладом данной
переменной в
различительную
силу модели

33. Variables in the Model:

Статистика
дисперсионного
анализа,
показывающая вклад
данной переменной в
общее «дело»
различения групп.

34. Variables in the Model:

Толерантность
– измеряет
избыточность
данной
переменной.
Толерантность 0,34 означает, что
переменная на 66% объясняет то, что и
другие переменные модели

35. Результаты анализа (Advanced)

Расстояния между
группами

36. Distances between groups

Расстояние Махаланобиса
между группами

37. Distances between groups

Значение дисперсионного анализа и
соответствующий уровень значимости для
оценки расстояния между группами

38. Результаты анализа (Advanced)

Канонический анализ
и графики

39. Canonical Analysis:

40. Canonical Analysis (Advanced):

41. Canonical Analysis (Advanced):

Коэффициенты
дискриминантной
функции

42. Canonical Analysis (Advanced):

z=0,043*educ+0,044*salary+
+0,030*sal_beg-2,605

43. Canonical Analysis (Advanced):

z=0,124*educ+0,720*salary+
+0,230*sal_beg

44. Canonical Analysis (Advanced):

45. Canonical Analysis (Advanced):

Корреляция переменных с
дискриминантной фукцией

46. Canonical Analysis (Advanced):

Центроиды групп
(ненормированные)

47. Canonical Analysis (Advanced):

zГР=(0,096-0,342)/2

48. Пример для двух групп

zГР=(0,096-0,342)/2 = -0,123
цветной
белый
-0,123

49. Canonical Analysis (Canonical Scores):

Значения
дискриминантной
функции для каждого
случая

50. Canonical Analysis (Canonical Scores):

51. Результаты анализа (Classification):

Функции
классификации

52. Результаты анализа (Classification):

Значения этих функций вычисляются для
каждой группы и служат для прямой
классификации. Случай попадает в группу,
для которой у него получается наибольшее
значение

53. Результаты анализа(Classification):

Априорные вероятности попасть к данную
группу (по умолчанию вычисляются исходя
из размеров группы)

54. Результаты анализа:

Это очень полезная
матрица!

55. Результаты анализа (Classification):

Очень важный показатель! Процент
правильно предсказанных значений

56. Результаты анализа (Classification):

57. Результаты анализа (Classification):

58. Результаты анализа (Classification):

59. Пример для двух групп

60. Пример для трех групп

Посмотрим, можем ли мы
предсказать, на какой должности
работает человек по его зарплате,
образованию и принадлежности к
национальному меньшинству.

61. Пример для трех групп

В этом случае одной
дискриминантной функцией не
обойдешься!
Их будет две.

62. Пример для трех групп

Группа 3
Группа 2
Группа 1

63. Пример для трех групп

Classification Matrix (empl_data.sta)
Rows: Observed classifications
Columns: Predicted classifications
Percent G_1:1
G_2:2
G_3:3
Correct
p=,76582 p=,05696 p=,17722
G_1:1
97,79614
355
6
2
G_2:2
25,92593
20
7
0
G_3:3
78,57143
18
0
66
Total
90,29536
393
13
68

64. Пример для трех групп

Discriminant Function Analysis Summary (empl_data.sta)
No. of vars in model: 4; Grouping: JCAT (3 grps)
Wilks' Lambda: ,25680 approx. F (8,936)=113,88 p<0,0000
Wilks'
Partial
F-remove
Lambda Lambda (2,468)
p-level
Toler.
EDUC
0,290012 0,885496 30,25871 4,38E-13 0,805286
SALARY 0,324602 0,791136 61,77707 1,55E-24 0,731865
SAL_BEG 0,299848 0,85645 39,22078 1,79E-16 0,765182
MINORITY 0,264071 0,972483 6,62129 0,00146 0,996228
1-Toler.
(R-Sqr.)
0,194714
0,268135
0,234818
0,003772

65. Пример для трех групп

Chi-Square Tests with Successive Roots Removed (empl_data.sta)
EigenCanonicl Wilks'
value
R
Lambda Chi-Sqr. df
p-level
0
2,388448 0,839571 0,256805 638,2568
8
0
1
0,149202 0,36032 0,870169 65,29217
3 4,49E-14

66. Пример для трех групп

67. Пример для трех групп

Теперь можно посмотреть
красивый график

68. Пример для трех групп

69. Пример для трех групп

70. Результаты анализа

Мы можем
1) оценить, насколько НП определяют ЗП
(т.е оценить нашу модель)
2) делать предсказания (по значениям НП
определять, в какую группу попадет
объект или индивид)

71. Как делать прогноз?

72. Как делать прогноз?

73. Как делать прогноз?

74. Пример (реальный)

Проект: Можно ли предсказать тип
преступника (насильственный,
корыстный или корыстнонасильственный) по результатам
тестов Кеттела и ЛеонгардаШмишека?

75. Пример

1) дискриминантный анализ по всем
переменным.
2) прямой пошаговый дискриминантный
анализ.
Получились совершенно потрясающие
результаты:

76. Пример (результаты)

77. Пример (результаты)

Chi-Square Tests with Successive Roots Removed (issled.sta)
Eigen-
Canonicl Wilks'
value
R
Lambda Chi-Sqr. df
0 19,02697 0,974714 0,003411 96,57309
1 13,63901 0,965241 0,068311 45,62273
p-level
42
20
0
0,00091

78. Пример (результаты –гм!)

Standardized Coefficients (issled.sta)
for Canonical Variables
Correlations Variables - Canonical Roots
Factor Structure Matrix (issled.sta)
(Pooled-within-groups correlations)
F3
A
F4
H
EKZ
F
Root 1
0,11
0,08
-0,11
0,08
-0,02
0
Root 2
0,19
0,21
0,07
0,13
-0,01
0,02
Q3
0,04
0
Q1
0,01
0,11
TREV
DEM
VOZB
O
PED
MD
ZASTR
N
B
M
L
EMOT
CIKL
0,03
0,06
0,03
-0,03
0,03
0,05
0
0,05
0,03
-0,11
0,04
-0,04
0
-0,03
0,08
-0,08
0,07
0,01
-0,08
0
0,11
-0,01
0,01
-0,03
-0,02
0,01
F3
A
F4
H
EKZ
F
Q3
Q1
TREV
DEM
VOZB
O
PED
MD
ZASTR
N
B
M
L
EMOT
CIKL
Root 1
0,47
-1
-1,34
3,88
1,04
0,12
-1,33
0,75
1,94
-0,63
-0,46
-3,32
-5,26
6,32
3,09
4,6
0,69
-3,13
-1,7
2,29
-1,16
Root 2
0,27
2,96
2,94
0,31
-1,15
-1,02
1,64
-1,49
0,29
1,79
-1,06
1,82
-0,11
-0,85
-0,6
-1,4
-0,49
-0,14
0,79
-0,64
0,54

79. Пример (результаты –гм!)

Analysis of Variance (issled.sta)
Marked effects are significant at p < ,05000
df
df
Effect
MD
A
B
C
E
F
G
H
I
L
M
N
O
Q1
Q2
Q3
Q4
F1
F2
F3
F4
DEM
ZASTR
PED
VOZB
GIPERT
DISTIMN
TREV
EKZ
EMOT
CIKL
Error
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
F
27
27
27
27
27
27
27
27
27
27
27
27
27
27
27
27
27
27
27
27
27
27
27
27
27
27
27
27
27
27
27
p
1,63
9,32
0,19
2,15
2,06
0,07
0,04
4,82
0,16
0,65
2,85
2,66
1,2
2,26
0,42
0,4
4,82
5,83
1,56
10,2
4,18
1,99
0
0,19
1,45
3
1,61
0,33
0,18
0,52
0,02
0,2139
0,0008
0,8242
0,1364
0,1472
0,9309
0,9574
0,0163
0,852
0,5321
0,0753
0,0886
0,3174
0,1237
0,6634
0,6747
0,0162
0,0078
0,2278
0,0005
0,0262
0,1559
1
0,8253
0,2531
0,0664
0,2192
0,723
0,8392
0,5993
0,9825

80. Пример (результаты –гм!)

81. Пример (результаты –гм!)

Classification Matrix (issled.sta)
Rows: Observed classifications
Columns: Predicted classifications
kn
n
k
Total
Percent
kn
Correct
p=,33333 p=,33333 p=,33333
6
3
1
1
9
0
0
2
8
7
14
9
60
90
80
76,66666
n
k

82. Пример

Classification Matrix (issled.sta)
Rows: Observed classifications
Columns: Predicted classifications
kn
n
k
Total
Percent
kn
Correct
p=,33333 p=,33333 p=,33333
8
1
1
1
9
0
0
1
9
9
11
10
80
90
90
86,66666
n
k

83. Пример

Factor Structure Matrix (issled.sta)
Correlations Variables - Canonical Roots
(Pooled-within-groups correlations)
A
H
N
Q4
F1
F3
F4
GIPERT
Root 1
-0,51
-0,37
-0,27
0,08
-0,41
-0,54
0,03
-0,29
Root 2
-0,17
0,02
-0,05
-0,8
-0,09
0,05
-0,76
0,08

84. Полезная литература

ПРОГРАММА STATISTICA
Боровиков В. Программа STATISTICA для студентов и
инженеров. - Компьютер Пресс: Москва, 2001.
Электронный учебник по программе (StatSoft)
ПРОГРАММА SPSS
Наследов А.Д. Математические методы психологического
исследования. Анализ и интерпретация данных. – СПб. –
Речь. – 2004.
Бююль А., Цефель П. SPSS: Искусство обработки
информации. – СПб, «ЛиаСофтЮп». –2001.

85.

К практическому занятию по регрессионному анализу
надо прочитать:
•Нестеренко А.И. и др. Прогноз тревожности
у студенток на основании их типологических
различий// ПЖ, 2003, т.24, № 6, с. 37-46

86. Дискриминантный анализ

СПАСИБО
ЗА ВНИМАНИЕ!
English     Русский Правила