376.88K
Категория: МатематикаМатематика

Корреляционный анализ. Часть 1. Лекция 5

1.

Корреляционный анализ. Часть 1
Лекция 5

2.

План
Основные понятия
Оценка доверительными интервалами
Параметрические критерии

3.

Основные понятия
Цель – выявление корреляции (взаимосвязи) между
факторами
Инструментарий – коэффициенты корреляции и
проверка гипотез

4.

Проверка гипотез
Необходимо:
Выборка Х
H0 гипотеза о ее распределении (например)
H1 гипотеза - альтернативная гипотеза
Статистика Т
Алгоритм:
Выдвигается нулевая гипотеза о распределении выборки
Рассчитывается статистика Т для выборки Х
Определяется достигаемый уровень значимости р-value
Достигаемый уровень значимости сравнивается с уровнем
значимости α=0,05. Если p-value больше α, то принимается
нулевая гипотеза
Достигаемый уровень значимости - это вероятность получить такое
же значение статистики, как в эксперименте, или еще более
экстремальное, при справедливости нулевой гипотезы

5.

Ошибки I и II рода
H0 верна
H0 не верна
H0 принята
Принята верная H0
Гипотеза
Ошибка II рода
H0 отвергнута
Ошибка I рода
Отвергнута не верная H0
гипотеза

6.

Оценка доверительными интервалами
Есть две выборки для которых нужно оценить их
различие по данному параметру
Вычисляем среднее в обеих частях и доверительные
интервалы на заданном уровне доверия
Если доверительные интервалы не пересекаются, то
различие между выборками статистически значимое

7.

Доверительные интервалы
Доверительный интервал для среднего
Z-интервал. Должна быть известна дисперсия
Xn z
1
2
n
t-интервал. Вместо дисперсии используем выборочную
дисперсию
Xn t
S
1
2
n

8.

Пример
Известна смертность в городах Юга и Севера США.
Нужно выявить есть ли статистически значимое
отличие в смертности этих регионов.

9.

Решение
Среднее значение смертности по городам Юга = 1376
Дисперсия по смертности по городам Юга = 27
Верхняя граница 95% доверительного интервала: 1376+2*27= 1430
Нижняя граница 95% доверительного интервала: 1376-2*27 = 1322
Интервал: 1322; 1430
Среднее значение смертности по городам Севера = 1633
Дисперсия по смертности по городам Севера = 17
Верхняя граница 95% доверительного интервала: 1633+2*17= 1667
Нижняя граница 95% доверительного интервала: 1633-2*17 = 1599
Интервал: 1599; 1667
Вывод: Интервалы не пересекаются и можно с 95% вероятностью
утверждать, что смертность в городах Юга и Севера различается

10.

Оценка доверительными интервалами
Основа – взять параметр и по нему разделить выборку
на две части.
Оценить различаются ли эти части с точки зрения
статистики
Вычисляем среднее в обеих частях и доверительные
интервалы на заданном уровне доверия
Если доверительные интервалы не пересекаются, то
параметр коррелирует с целевой переменной

11.

Пример
Есть данные по анамнезу матерей, детей рожденных с
помощью ЭКО. При этом известны количества случаев
рождения детей с заболеваниями слезных протоков.
Нужно установить связан ли фактор наличия
заболевания у ребенка с наличием заболеваний у
матери.

12.

Решение
Разделяем выборку на 2 части – женщины с
заболеваниями в анамнезе и без них
Для каждой части выборки считаем доверительные
интервалы вероятности рождения ребенка с
заболеваниями слезных протоков

13.

Доверительные интервалы
Для бинарной выборки используют доверительный
интервал для доли:
ˆp z
1
2
ˆp( 1 ˆp )
n
p̂ - вероятность успеха (в примере – наличие заболевания у
ребенка)
Если доля очень мала, или наоборот, очень велика, то
используют доверительный интервал Уилсона:
ˆp( 1 ˆp ) z 2
1
z2
ˆp
z
2
2
2n
n
z
4n
1
n

14.

Решение
95% доверительный интервал для женщин без
заболеваний
[0,00001; 0,00051]
95% доверительный интервал для женщин с
заболеваниями
[0,00071;0,00551]
Вывод: поскольку доверительные интервалы не
пресекаются, то с 95% вероятностью можно
утверждать, что наличие заболеваний у матери влияет
на вероятность возникновения заболевания слезных
проток у ребенка

15.

Параметрические критерии
В гипотезе выдвигается предположение о значении
параметра распределения выборки
Семейство критериев Стьюдента
позволяет проверять гипотезы о математических
ожиданиях нормальных распределений

16.

Одновыборочные критерии Стьюдента
Z-критерий
2
X
~
N
(
,
), известна
Выборка Xn = (X1, …. Xn) ;
Нулевая гипотеза
Альтернатива:
H0:μ μ 0
H1:μ μ 0
X 0
Статистика:
Z( X )
Нулевое распределение:
Z( X n ) ~ N( , 2 )
n
/ n

17.

H1: μ<μ0

18.

H1: μ>μ0

19.

H1:μ≠μ0

20.

Одновыборочные критерии Стьюдента
t-критерий
2
X
~
N
(
,
), неизвестна
Выборка Xn = (X1, …. Xn) ;
Нулевая гипотеза
Альтернатива:
H0:μ μ 0
H1:μ μ 0
X 0
Статистика:
T( X )
Нулевое распределение:
T( X n ) ~ St( n 1 )
n
S/ n

21.

Достигаемый уровень значимости
FSt ( n 1 ) ( t ), H1 : 0
p 1 FSt ( n 1 ) ( t ), H1 : 0
2( 1 FSt ( n 1 ) ( t ), H1 : 0

22.

Пример
Средний вес детей при рождении составляет 3300 г.
В то же время, если мать ребёнка живёт за чертой
бедности, то средний вес таких детей — 2800 г. Вес при
рождении — это очень важный показатель здоровья
ребенка. Так, только 7% детей рождаются с весом меньше
2.5 кг, однако на них приходится 70% детских смертей.
С целью увеличить вес тех детей, чьи матери живут за
чертой бедности, разработана экспериментальная
программа ведения беременности. Чтобы проверить ее
эффективность, проводится эксперимент. В нем
принимают участие 25 женщин, живущих за чертой
бедности. У всех них рождаются дети, и их средний вес
составляет 3075 г.
Для того, чтобы ответить на вопрос, эффективна ли
программа, используется критерий Стьюдента.

23.

Решение
Выдвигается нулевая гипотеза о том, что программа
неэффективна:
H 0 : 2800
Альтернатива:
t-критерий :
H1 : 2800
p 7.1 10 13
Вывод : программа дает эффект на уровне доверия
0,05

24.

Решение
Выдвигается нулевая гипотеза о том, что программа
неэффективна:
H 0 : 2800
Альтернатива:
t-критерий :
H1 : 2800
p 3.55 10 13
Вывод : программа дает эффект на уровне доверия
0,05. Средний вес детей увеличивается на 275 г.

25.

Двухвыборочные критерии Стьюдента.
Независимые выборки
Z-критерий :
Выборки
X1n1 X11 ,..., X1n1
X n2 2 X 21 ,..., X 2 n 2
X1 ~ N( 1 , 12 ), X 2 ~ N( 2 , 22 ),
Нулевая гипотеза
Альтернатива
Статистика
1 , 2 известны
1 2
1 2
Z( X1n1 , X n2 2 )
X1 X 2
12 22
n1 n 2

26.

Двухвыборочные критерии Стьюдента
t-критерий :
Выборки
X1n1 X11 ,..., X1n1
X n2 2 X 21 ,..., X 2 n 2
X1 ~ N( 1 , 12 ), X 2 ~ N( 2 , 22 ),
1 , 2 неизвестны
Нулевая гипотеза 1 2
Альтернатива
1 2
Статистика
n
n
T( X1 1 , X 2 2 )
Нулевое распределение
X1 X 2
S12 S 22
n1 n 2
T( X1n1 , X n2 2 ) ~ St( )

27.

Особенности
Точного нулевого распределения нет
Используется аппроксимация, которая достаточна
точна, если объемы выборок равны или если нет,
выборка большего объема имеет большую дисперсию

28.

Пример
В 1974 году число респондентов, работающих
неполный рабочий день, составляло 108. В 2014 году
— 196. Для каждого из опрошенных известно
количество рабочих часов за неделю,
предшествующую опросу. Используя эти данные,
требуется понять, изменилось ли за прошедшие 40 лет
среднее время работы у работающих неполный день.

29.

Решение
Нулевая гипотеза о том, что средняя продолжительность
рабочей недели у людей, которые работают не полный
рабочий день, не изменилась за прошедшие 40 лет:
H0 : 1 2
Альтернативная гипотеза двусторонняя, среднее время
работы изменилось:
H1 : 1 2
P-value р=0,02707
Доверительный 95% интервал [0:29; 4:85] ч
Вывод: люди в среднем стали работать больше, и
доверительный интервал прироста этого времени
составляет от получаса до 5 часов

30.

Двухвыборочные критерии Стьюдента
t-критерий :
Выборки
X 1n1 X 11 ,..., X 1n1
X n2 2 X 21 ,..., X 2 n 2
X 1 ~ N( 1 , 12 ), X 2 ~ N( 2 , 22 ),
Нулевая гипотеза 1 2
1 2
Альтернатива
X1 X 2
T( X1n , X n2 )
Статистика
S
1
2
n
2
1 n
2
S
D i D , D i X1i X 2i
n 1 i 1
Нулевое распределение
T( X1n1 , X n2 2 ) ~ St( n 1 )

31.

Пример
Проводится исследование метода лечения синдрома
дефицита внимания и гиперактивности (СДВГ) у
умственно отсталых детей. В эксперименте участвуют
24 ребенка. Каждый из них неделю принимает
плацебо, а неделю препарат метилфенидат. По
окончании каждой недели каждый ребенок проходит
тест на способность к подавлению импульсивных
поведенческих реакций.
Определить значимо ли изменение

32.

Результаты эксперимента по сравнению действия
плацебо и препарата метилфенидат на
умственноотсталых детей с синдромом дефицита
внимания и гиперактивности

33.

Решение
нулевая гипотеза — это неэффективность лечения
(способность к подавлению импульсивных
поведенческих реакций не изменилась):
H0 : 1 2
Двухсторонняя альтернатива:
H1 : 1 2
P-value: p=0.00377
Выводы: изменения значимы и составили 4,95 пунктов
с 95% доверительным интервалом [1:78; 8:14]

34.

Проверка нормальности. Критерий хи-квадрат

35.

Проверка нормальности. Q-Q график

36.

Проверка нормальности. Критерий ШапироУилка

37.

Гипотезы о долях (для распределения
Бернулли)
Z-критерий для доли
X n ( X1 ,..., X n ), X ~ Ber( p )
Выборка
Нулевая гипотеза H0 : p p 0
Альтернатива
H1 : p p 0
Статистика
Z( X n )
ˆp p 0
p 0 (1 p0 )
n
, ˆp X n
Нулевое распределение Z( X n ) ~ N( 0,1 )

38.

Пример
В 70-х годах известный педиатр и автор книг по
воспитанию детей Бенджамин Спок был арестован за
участие в антивоенной демонстрации в Бостоне. Его дело
должен был рассматривать суд присяжных. Отбор
присяжных — это сложная многоступенчатая процедура.
На очередном этапе остаётся 300 человек, из которых
отбираются финальные 12. В процессе Бенджамина Спока
среди этих 300 только 90 были женщинами, и адвокаты
подали протест. Поскольку в те времена воспитанием
детей занимались в основном женщины, Бенджамин Спок
среди них был более популярен, поэтому адвокаты
заподозрили, что обвинение специально пытается сделать
финальный состав присяжных менее благосклонным к
подсудимому

39.

Решение
Нулевая гипотеза – отбор беспристрастный
H0 : p 0.5
Альтернатива – двухсторонняя
p-value
p 4.6 10 12
Точечная оценка вероятности попадания женщин в
выборку составляет 0,3. 95% интервал для этой
вероятности: [0,248; 0,352]

40.

Гипотезы о долях
Z-критерий для доли для двух независимых выборок
X1n ( X1 ,..., X n ), X1 ~ Ber( p )
Выборки
X n2 ( X1 ,..., X n ), X 2 ~ Ber( p )
Нулевая гипотеза H0 : p1 p2
Альтернатива
H1 : p1 p 2
Статистика
Z( X )
n
ˆp1 ˆp 2
ˆp1 n 1 ˆp 2 n 2
,P
n1 n 2
1
1
P( 1 P )
n1 n 2
Нулевое распределение Z( X n ) ~ N( 0,1 )

41.

Таблица сопряженности
Х1
Х2
1
a
b
0
c
d
Ʃ
n1
n2
a
ˆp 1
n1
ˆp 2
b
n2

42.

Пример
1600 гражданам Великобритании с правом голоса
задают вопрос: одобряют ли они деятельность
премьер-министра. 944 человека говорят, что
одобряют. Через 6 месяцев опрос повторяется. На этот
раз из 1600 опрошенных 880 говорят, что
поддерживают премьер-министра. Чтобы понять,
изменился ли рейтинг премьер-министра, нужно
использовать статистический критерий.

43.

Таблица сопряженности
I
II
+
944
880
-
656
720
Ʃ
1600
1600

44.

Решение
Нулевая гипотеза – рейтинг не изменился
Альтернатива двухсторонняя
Р=0,022
Вывод: Рейтинг упал на 4 %, 95% доверительный
интервал — [0,6; 7,4]%

45.

Гипотезы о долях
Z-критерий для доли для двух связных выборок
X1n ( X1 ,..., X n ), X1 ~ Ber( p )
Выборки
X n2 ( X1 ,..., X n ), X 2 ~ Ber( p )
Нулевая гипотеза H0 : p1 p2
Альтернатива
H1 : p1 p 2
Статистика
Z( X n )
f g
(f g)
f g
n
2
,
Нулевое распределение Z( X n ) ~ N( 0,1 )

46.

Таблица сопряженности
1
0
Ʃ
1
e
f
e+f
0
g
h
g+h
Ʃ
e+g
f+h
n

47.

Пример
Тот же про премьер министра
+
Ʃ
P-value
+
794
150
Ʃ
944
86
880
570
720
656
1600
p 2.8 10
5
Вывод: рейтинг упал на 4%. 95-% доверительный
интервал : [2,1; 5,8]%.

48.

Тест
Для выявления корреляции вещественных
параметров используется…
Таблицу сопряженности нужно составлять для
выявления корреляции …
Что содержится в ячейках таблице сопряженности?

49.

Ответы
Z-критерий или t-критерий
Бинарных величин
Количество объектов
English     Русский Правила