Похожие презентации:
Таблицы сопряженности
1. Таблицы сопряженности
Cтат. методы впсихологии
(Радчикова Н.П.)
Trisha Klass Illinois State University
2. Цели
Вспомнить, что такое таблицысопряженности
Вспомнить, какую статистику
можно для них считать
3.
ТАБЛИЦЫ СОПРЯЖЕННОСТИТаблицы сопряженности это
совместное распределение двух
переменных.
Строки таблицы образуются
значениями одной переменной.
Столбцы таблицы образуются
значениями второй переменной.
4.
ТАБЛИЦЫ СОПРЯЖЕННОСТИВ клетке таблицы (на пересечении
строки и столбца) указывается частота
совместного появления соответствующих
значений.
Суммы частот по строке или по столбцу
называются маргинальными частотами.
Распределения маргинальных частот
представляют собой одномерное
распределение переменных.
5.
Проводим исследование:X – семейное положение – НП
Y – занятость - ЗП
Собранные данные выглядят примерно так:
Испытуемый
1. Анна К.
2. Галина Б.
3. Татьяна В.
…
Занятость
Работает
Работает
Не работает
…
Семейное положение
Замужем
Разведена
Не замужем
…
Таким образом представленные данные
не дают нам много информации.
6.
Можно их сгруппировать в виде таблиц:по занятости:
Занятость
Работает
Не работает
Всего
Частота
98
102
200
Проценты
49.0
51.0
100
и по семейному положению:
Семейное положение
Замужем
Никогда не была замужем
Разведена
Вдова
Всего
Частота
35
125
15
25
200
Проценты
17.5
62.5
7.5
12.5
100
7.
А можно и по двум переменным сразу:Семейное положение (X)
Занятость Не Зам. Развед. Вдова Всего
(Y)
зам.
Работает
21 60
11
6 По98столбцам
Не работает 14
обычно
65
4
19 102
Всего
По строкам
35 125
15
25 приводится
200
обычно идет
зависимая
переменная
Эта замечательная
независимая
переменная
таблица и называется
таблицей сопряженности
8.
Проценты в таблице сопряженностиможно считать тремя способами:
по столбцам, т.е. по независимой переменной
Занятость
(Y)
Работает
Не работает
Всего
Семейное положение (X)
Не зам. Зам. Развед. Вдова
60%
40%
100%
48%
52%
100%
73.3%
26.7%
100%
24%
76%
100%
9.
по строкам, т.е. по зависимой переменнойЗанятость
(Y)
Работает
Не работает
Семейное положение (X)
Не зам. Зам.
Развед. Вдова
Всего
21.4%
13.7%
100%
100%
61.2%
63.7%
11.2%
3.8%
18.6%
6.1%
10.
по всей таблице сразу:Занятость
(Y)
Работает
Не работает
Семейное положение (X)
Не зам. Зам.
Развед. Вдова
10.5%
7%
30%
32.5%
5.5%
2%
3%
9.5
100%
11.
ТАБЛИЦЫСОПРЯЖЕННОСТИ
для шкал
наименований
для шкал
порядка
12.
ТАБЛИЦЫСОПРЯЖЕННОСТИ
для шкал наименований
для шкал порядка
2 Пирсона,
коэффициент сопряженности С,
V Крамера,
Ф
2 МакНемара,
критерий Фишера
критерий Ятса (Yates)
...
для таблиц 2х2
+
Кендалла,
Гамма (G),
Спирмена,
d Соммера
13.
ТАБЛИЦЫСОПРЯЖЕННОСТИ
для шкал
наименований
для шкал
порядка
14.
СТАТИСТИЧЕСКИЕ КРИТЕРИИДЛЯ ТАБЛИЦ СОПРЯЖЕННОСТИ
Проверяют, есть ли зависимость в
распределении одной переменной
от распределения по другой
переменной.
15.
Межгрупповаясхема
2 Пирсона
Интраиндивидуальная
схема
2 МакНемара
16.
2 ПирсонаПример: мы хотим проверить, правда ли,
что мужчины больше любят собак,
а женщины - кошек
17.
Было опрошено 550 человек. Результаты опросапредставлены в таблице:
Любимое животное (Y)
Собака
Кошка
всего
Пол (X)
муж
жен
125
225
75
125
200
350
всего
350
200
550
Мы можем проверить, зависит ли
предпочтение домашнего животного
(распределение по переменной Y) от пола
18.
Подсчет критерия 2(
Пирсона)
k
(f o f e )
i 1
fe
2
f o - эмпирическая частота,
f e - теоретическая частота,
k=r*c,
r- число строк в таблице,
c –число столбцов в таблице,
df=(r-1)(c-1).
2
19.
Как определить теоретическуючастоту?
Для выделенной ячейки:
Пол (X)быть
Следовательно, вероятность
Любимое животное
(Y) муж
жен
всего
мужчиной
и предпочитать
собак
равна
Собака
Кошка (200/550
всего
125
225
)*(350/550).
75
125
200
350
350
200
550
Умножив
все это на количество
Вероятность
испытуемых
(550), получим теоретическую
оказаться
Вероятность
мужчиной
частоту для выделенной клетки:
предпочитать собак
равна 200/550.
равна 350/550.
(200/550 )*(350/550)*550=127,3.
20.
Подсчитав таким образомтеоретические частоты для всех
клеток, находим
2=0,18; р=0,67
Следовательно, предпочтение
домашнего животного не зависит от
пола: мужчины и женщины
одинаково любят собак.
21.
Ограничения критерия 2Если
теоретическая
частота
2
пропорционален
размеру
Наблюдения должны быть
клетокЕсли
маленькая,
то
выборки.
увеличить
независимы. Поэтому нельзя
вычисления
могут
быть
не
размер
выборки
в
2
раза,
то
использовать одного и того и
точны. Сейчас общепринятым
жезначение
испытуемого
несколько
2
возрастет
в 2когда
раза.
является правило, что
раз.
Поэтому
не рекомендуется
df>1 теоретическая
частота
применять
2 для
больших
должна быть
равна
или больше
5 по крайней мере в 80%
выборок.
клеток.
22.
2 МакНемара (McNemar)Увы! Только для таблиц 2*2.
Тот критерий применяется, чтобы определить,
произошли ли изменения после какого-либо
условия. Данные обычно представляются в виде
таблицы:
до
I
II
после
II
I
A
B
C
D
Получается,
что A+D –
это число
изменений
23.
Подсчет критерия 2(МакНемара)
( A D)
A D
2
2
Ограничения:
A+D должно быть не меньше 10!
24.
Пример: в телестудии проводятся дебаты, нужна лисмертная казнь. Зрители, сидящие в зале,
опрашиваются до начала дебатов и в конце передачи.
до
Против смертной
казни
За сметную казнь
после дебатов
За смертную
Против смертной
казнь
казни
13
28
27
7
2=1,25; p=0,26. Следовательно, можно сделать
вывод, что приглашенные ораторы были одинаково
успешны в отстаивании своих точек зрения: мнения
зрителей существенно не изменились
25.
Что делать, если таблица большейразмерности, а схема –
интраиндивидуальная?
Для случая, когда условий больше (до
дебатов, после дебатов, через год после
дебатов…), можно использовать
Q-критерий Кочрена (Кохрена),
но только если данные представлены как
дихотомические переменные
(да/нет, за/против,…)
26.
Что делать, если таблица большейразмерности, схема – интраиндивидуальная, а
данные не дихотомические?
Не проводить
такие
исследования!
27.
МЕРЫ ЗАВИСИМОСТИДЛЯ ТАБЛИЦ
СОПРЯЖЕННОСТИ
28.
Меры зависимостидля шкал наименований
Все эти меры не имеют знака
и не показывают
направление отношений.
В программе STATISTICA можно посчитать
три таких меры
29.
Коэффициент fупотребляется в основном с
таблицами 2х2
меняется от 0 (когда переменные
независимы) до 1 (когда они
абсолютно зависимы)
f
N
2
30.
Коэффициент сопряженностиС (или Ф)
разработан для использования с квадратными
таблицами размера больше, чем 2х2
меняется от 0 (когда переменные независимы)
до
(k 1) k
, где k - число строк (столбцов)
2
C
2
N
31.
V Крамераможно употреблять для любых таблиц квадратных и прямоугольных
меняется от 0 (когда переменные
независимы) до 1 (когда они абсолютно
зависимы)
2
V
N Minimum (r 1, c 1)
где c – число строк,
r – число столбцов таблицы.
32.
ТАБЛИЦЫСОПРЯЖЕННОСТИ
для шкал
наименований
для шкал
порядка
33.
В таблице сопряженности можнопредставлять и порядковые данные.
Обычно они перечисляются слева направо
(от меньшего к большему) и сверху вниз (от
большего к меньшему):
низкий
высокий
средний
низкий
средний
высокий
34.
Возраст (X)Доход (Y)
высокий
средний
низкий
молодой немолодой старый
A
D
D
B
B
C
Согласованная пара - это пара, где
оба члена ранжированы в одном
порядке по двум направлениям.
35.
Возраст (X)Доход (Y)
высокий
средний
низкий
молодой немолодой старый
A
А
D
B
B
C
Несогласованная пара - это пара, где
оба члена ранжированы в противоположном порядке по двум
направлениям.
36.
Возраст (X)Доход (Y)
высокий
средний
низкий
молодой немолодой старый
A
D
D
B
C
C
Связанная пара - это пара, где оба
члена ранжированы одинаково по
крайней мере по одному направлению.
37.
Возраст (X)Доход (Y)
молодой немолодой старый
высокий
20
20
6
2
средний
5
30
30
2
низкий
1
4
10
10
Если в таблице преобладают
несогласованные пары, то зависимость
между переменными отрицательная.
38.
Возраст (X)Доход (Y)
молодой немолодой старый
высокий
1
6
10
10
средний
5
30
30
2
низкий
20
20
4
2
Если в таблице преобладают
согласованные пары, то зависимость
между переменными положительная.
39.
Меры зависимостиC D
G
C D
C D
dyx
C D Ty
C D
(C D Ty )(C D Tx )
С- число согласованных пар,
D - число несогласованных пар,
Tx - число пар, связанных по Х
Ty = число пар, связанных по У
40.
Меры зависимостидля шкал порядка имеют знак
Кендалла всегда меньше 1,
если таблица не квадратная
41.
STATISTICA не знает, какаяшкала была использована:
определить подходящий критерий
или меру зависимости полностью ваша проблема
(и ответственность)
42. Представление данных
Посчитать статистику для таблицсопряженности можно в модуле
Basic Statistics/ Tables and Banners
43. Представление данных
Исходные данные:звезда
принятый …
1-й класс
10
36
…
4-й класс
12
42
…
…
44. Представление данных
45. Представление данных
46. Представление данных
Для таблиц размером 2x2 есть еще модуль вNonparametrics/Distrib.
47. Представление данных
Остается только ввести цифры…48. Представление данных
И получаем всю статистику!49. Самостоятельная работа
К следующему занятию прочитать:Савина и Ванг. Выбор и принятие
решений: риск и социальный контекст//
ПЖ, ….
(есть в электронном виде)
50.
Можнопередохнуть!