Таблицы сопряженности
Цели
Представление данных
Представление данных
Представление данных
Представление данных
Представление данных
Представление данных
Представление данных
Самостоятельная работа
729.50K
Категория: МатематикаМатематика

Таблицы сопряженности

1. Таблицы сопряженности

Cтат. методы в
психологии
(Радчикова Н.П.)
Trisha Klass Illinois State University

2. Цели

Вспомнить, что такое таблицы
сопряженности
Вспомнить, какую статистику
можно для них считать

3.

ТАБЛИЦЫ СОПРЯЖЕННОСТИ
Таблицы сопряженности это
совместное распределение двух
переменных.
Строки таблицы образуются
значениями одной переменной.
Столбцы таблицы образуются
значениями второй переменной.

4.

ТАБЛИЦЫ СОПРЯЖЕННОСТИ
В клетке таблицы (на пересечении
строки и столбца) указывается частота
совместного появления соответствующих
значений.
Суммы частот по строке или по столбцу
называются маргинальными частотами.
Распределения маргинальных частот
представляют собой одномерное
распределение переменных.

5.

Проводим исследование:
X – семейное положение – НП
Y – занятость - ЗП
Собранные данные выглядят примерно так:
Испытуемый
1. Анна К.
2. Галина Б.
3. Татьяна В.

Занятость
Работает
Работает
Не работает

Семейное положение
Замужем
Разведена
Не замужем

Таким образом представленные данные
не дают нам много информации.

6.

Можно их сгруппировать в виде таблиц:
по занятости:
Занятость
Работает
Не работает
Всего
Частота
98
102
200
Проценты
49.0
51.0
100
и по семейному положению:
Семейное положение
Замужем
Никогда не была замужем
Разведена
Вдова
Всего
Частота
35
125
15
25
200
Проценты
17.5
62.5
7.5
12.5
100

7.

А можно и по двум переменным сразу:
Семейное положение (X)
Занятость Не Зам. Развед. Вдова Всего
(Y)
зам.
Работает
21 60
11
6 По98столбцам
Не работает 14
обычно
65
4
19 102
Всего
По строкам
35 125
15
25 приводится
200
обычно идет
зависимая
переменная
Эта замечательная
независимая
переменная
таблица и называется
таблицей сопряженности

8.

Проценты в таблице сопряженности
можно считать тремя способами:
по столбцам, т.е. по независимой переменной
Занятость
(Y)
Работает
Не работает
Всего
Семейное положение (X)
Не зам. Зам. Развед. Вдова
60%
40%
100%
48%
52%
100%
73.3%
26.7%
100%
24%
76%
100%

9.

по строкам, т.е. по зависимой переменной
Занятость
(Y)
Работает
Не работает
Семейное положение (X)
Не зам. Зам.
Развед. Вдова
Всего
21.4%
13.7%
100%
100%
61.2%
63.7%
11.2%
3.8%
18.6%
6.1%

10.

по всей таблице сразу:
Занятость
(Y)
Работает
Не работает
Семейное положение (X)
Не зам. Зам.
Развед. Вдова
10.5%
7%
30%
32.5%
5.5%
2%
3%
9.5
100%

11.

ТАБЛИЦЫ
СОПРЯЖЕННОСТИ
для шкал
наименований
для шкал
порядка

12.

ТАБЛИЦЫ
СОПРЯЖЕННОСТИ
для шкал наименований
для шкал порядка
2 Пирсона,
коэффициент сопряженности С,
V Крамера,
Ф
2 МакНемара,
критерий Фишера
критерий Ятса (Yates)
...
для таблиц 2х2
+
Кендалла,
Гамма (G),
Спирмена,
d Соммера

13.

ТАБЛИЦЫ
СОПРЯЖЕННОСТИ
для шкал
наименований
для шкал
порядка

14.

СТАТИСТИЧЕСКИЕ КРИТЕРИИ
ДЛЯ ТАБЛИЦ СОПРЯЖЕННОСТИ
Проверяют, есть ли зависимость в
распределении одной переменной
от распределения по другой
переменной.

15.

Межгрупповая
схема
2 Пирсона
Интраиндивидуальная
схема
2 МакНемара

16.

2 Пирсона
Пример: мы хотим проверить, правда ли,
что мужчины больше любят собак,
а женщины - кошек

17.

Было опрошено 550 человек. Результаты опроса
представлены в таблице:
Любимое животное (Y)
Собака
Кошка
всего
Пол (X)
муж
жен
125
225
75
125
200
350
всего
350
200
550
Мы можем проверить, зависит ли
предпочтение домашнего животного
(распределение по переменной Y) от пола

18.

Подсчет критерия 2
(
Пирсона)
k
(f o f e )
i 1
fe
2
f o - эмпирическая частота,
f e - теоретическая частота,
k=r*c,
r- число строк в таблице,
c –число столбцов в таблице,
df=(r-1)(c-1).
2

19.

Как определить теоретическую
частоту?
Для выделенной ячейки:
Пол (X)быть
Следовательно, вероятность
Любимое животное
(Y) муж
жен
всего
мужчиной
и предпочитать
собак
равна
Собака
Кошка (200/550
всего
125
225
)*(350/550).
75
125
200
350
350
200
550
Умножив
все это на количество
Вероятность
испытуемых
(550), получим теоретическую
оказаться
Вероятность
мужчиной
частоту для выделенной клетки:
предпочитать собак
равна 200/550.
равна 350/550.
(200/550 )*(350/550)*550=127,3.

20.

Подсчитав таким образом
теоретические частоты для всех
клеток, находим
2=0,18; р=0,67
Следовательно, предпочтение
домашнего животного не зависит от
пола: мужчины и женщины
одинаково любят собак.

21.

Ограничения критерия 2
Если
теоретическая
частота
2
пропорционален
размеру
Наблюдения должны быть
клетокЕсли
маленькая,
то
выборки.
увеличить
независимы. Поэтому нельзя
вычисления
могут
быть
не
размер
выборки
в
2
раза,
то
использовать одного и того и
точны. Сейчас общепринятым
жезначение
испытуемого
несколько
2
возрастет
в 2когда
раза.
является правило, что
раз.
Поэтому
не рекомендуется
df>1 теоретическая
частота
применять
2 для
больших
должна быть
равна
или больше
5 по крайней мере в 80%
выборок.
клеток.

22.

2 МакНемара (McNemar)
Увы! Только для таблиц 2*2.
Тот критерий применяется, чтобы определить,
произошли ли изменения после какого-либо
условия. Данные обычно представляются в виде
таблицы:
до
I
II
после
II
I
A
B
C
D
Получается,
что A+D –
это число
изменений

23.

Подсчет критерия 2
(МакНемара)
( A D)
A D
2
2
Ограничения:
A+D должно быть не меньше 10!

24.

Пример: в телестудии проводятся дебаты, нужна ли
смертная казнь. Зрители, сидящие в зале,
опрашиваются до начала дебатов и в конце передачи.
до
Против смертной
казни
За сметную казнь
после дебатов
За смертную
Против смертной
казнь
казни
13
28
27
7
2=1,25; p=0,26. Следовательно, можно сделать
вывод, что приглашенные ораторы были одинаково
успешны в отстаивании своих точек зрения: мнения
зрителей существенно не изменились

25.

Что делать, если таблица большей
размерности, а схема –
интраиндивидуальная?
Для случая, когда условий больше (до
дебатов, после дебатов, через год после
дебатов…), можно использовать
Q-критерий Кочрена (Кохрена),
но только если данные представлены как
дихотомические переменные
(да/нет, за/против,…)

26.

Что делать, если таблица большей
размерности, схема – интраиндивидуальная, а
данные не дихотомические?
Не проводить
такие
исследования!

27.

МЕРЫ ЗАВИСИМОСТИ
ДЛЯ ТАБЛИЦ
СОПРЯЖЕННОСТИ

28.

Меры зависимости
для шкал наименований
Все эти меры не имеют знака
и не показывают
направление отношений.
В программе STATISTICA можно посчитать
три таких меры

29.

Коэффициент f
употребляется в основном с
таблицами 2х2
меняется от 0 (когда переменные
независимы) до 1 (когда они
абсолютно зависимы)
f
N
2

30.

Коэффициент сопряженности
С (или Ф)
разработан для использования с квадратными
таблицами размера больше, чем 2х2
меняется от 0 (когда переменные независимы)
до
(k 1) k
, где k - число строк (столбцов)
2
C
2
N

31.

V Крамера
можно употреблять для любых таблиц квадратных и прямоугольных
меняется от 0 (когда переменные
независимы) до 1 (когда они абсолютно
зависимы)
2
V
N Minimum (r 1, c 1)
где c – число строк,
r – число столбцов таблицы.

32.

ТАБЛИЦЫ
СОПРЯЖЕННОСТИ
для шкал
наименований
для шкал
порядка

33.

В таблице сопряженности можно
представлять и порядковые данные.
Обычно они перечисляются слева направо
(от меньшего к большему) и сверху вниз (от
большего к меньшему):
низкий
высокий
средний
низкий
средний
высокий

34.

Возраст (X)
Доход (Y)
высокий
средний
низкий
молодой немолодой старый
A
D
D
B
B
C
Согласованная пара - это пара, где
оба члена ранжированы в одном
порядке по двум направлениям.

35.

Возраст (X)
Доход (Y)
высокий
средний
низкий
молодой немолодой старый
A
А
D
B
B
C
Несогласованная пара - это пара, где
оба члена ранжированы в противоположном порядке по двум
направлениям.

36.

Возраст (X)
Доход (Y)
высокий
средний
низкий
молодой немолодой старый
A
D
D
B
C
C
Связанная пара - это пара, где оба
члена ранжированы одинаково по
крайней мере по одному направлению.

37.

Возраст (X)
Доход (Y)
молодой немолодой старый
высокий
20
20
6
2
средний
5
30
30
2
низкий
1
4
10
10
Если в таблице преобладают
несогласованные пары, то зависимость
между переменными отрицательная.

38.

Возраст (X)
Доход (Y)
молодой немолодой старый
высокий
1
6
10
10
средний
5
30
30
2
низкий
20
20
4
2
Если в таблице преобладают
согласованные пары, то зависимость
между переменными положительная.

39.

Меры зависимости
C D
G
C D
C D
dyx
C D Ty
C D
(C D Ty )(C D Tx )
С- число согласованных пар,
D - число несогласованных пар,
Tx - число пар, связанных по Х
Ty = число пар, связанных по У

40.

Меры зависимости
для шкал порядка имеют знак
Кендалла всегда меньше 1,
если таблица не квадратная

41.

STATISTICA не знает, какая
шкала была использована:
определить подходящий критерий
или меру зависимости полностью ваша проблема
(и ответственность)

42. Представление данных

Посчитать статистику для таблиц
сопряженности можно в модуле
Basic Statistics/ Tables and Banners

43. Представление данных

Исходные данные:
звезда
принятый …
1-й класс
10
36

4-й класс
12
42


44. Представление данных

45. Представление данных

46. Представление данных

Для таблиц размером 2x2 есть еще модуль в
Nonparametrics/Distrib.

47. Представление данных

Остается только ввести цифры…

48. Представление данных

И получаем всю статистику!

49. Самостоятельная работа

К следующему занятию прочитать:
Савина и Ванг. Выбор и принятие
решений: риск и социальный контекст//
ПЖ, ….
(есть в электронном виде)

50.

Можно
передохнуть!
English     Русский Правила