Похожие презентации:
Множественная линейная регрессия
1.
ЕВРАЗИЙСКИЙ ТЕХНОЛОГИЧЕСКИЙ УНИВЕРСИТЕТData-аналитика (Обработка и анализ данных)
Множественная линейная регрессия
Полегенько Ирина Геннадьевна
кандидат технических наук
ассоциированный профессор
2.
1. Линейная модельмножественной регрессии
Если любая парная регрессия
статистически незначима, то следует искать
зависимость объясняемой переменной
либо от другого фактора, либо от
нескольких факторов.
В последнем случае задача решается с
помощью множественного регрессионного
анализа.
3.
Множественный регрессионный анализ является обобщением парного,однако здесь появляются новые проблемы, из которых следует выделить две.
Первая из них связана со спецификацией модели, которая теперь
включает в себя отбор факторов и выбор вида уравнения.
При отборе факторов необходимо ответить на вопрос: какие факторы
существенно влияют на , а какие – несущественно, и последние не следует
включить в регрессию.
4.
Вторая проблема связана сисследованием влияния конкретной
независимой переменной на признак , y
т.е. разграничения её воздействия от
влияния других независимых переменных.
5.
yБудем далее считать, что факторы
x1 , x 2 ,..., x p
отобраны правильно, а в качестве уравнения
связи с признаком
выбрана наиболее
y
употребляемая и простая линейная модель
множественной регрессии
y 0 1 x1 2 x 2 ... p x p
6.
Для построения модели требуютсяисходные статистические данные в виде
следующей многомерной выборки ( n 6 p ):
nxyy ppn12
222
n2nn
11
112
21
Номер
измерен
ия
1
2
…
n
Переменные
y
y1
y2
x1
x11
x12
x2
x21
x22
…
…
…
yn
x1n
x2 n
…
…
…
…
…
xp
x p1
x p2
…
x pn
7.
Тогда наблюдаемые значения переменныхдолжны удовлетворять уравнению
yi 0 1 x1i 2 x2i ... p x pi i , i 1, n ,
(1)
где
значение признака в
м
i
yi
наблюдении,
значение yго фактора
в
j составляющая
x ji случайная
i в
м наблюдении,
м наблюдении. i
i
8.
Оценкой уравнения (1) по выборкеявляется выборочное уравнение
регрессии
~
y b0 b1 x1 b2 x 2 ... b p x p
.
(2)
9.
В дальнейшем удобнее использоватьматричные обозначения. Поэтому
введем в рассмотрение следующие
матрицы и векторы:
1 x11 x21 x p1
0
b0
1
y1
1
1 x12 x22 x p 2
1
b1
x1
y2
2
Y , X
, , , b , x
y
1 x x x
b
x
pn
n
n
1n 2n
p
p
p
10.
Тогда уравнение регрессии (1) вматричной форме запишется
Y X ,
а выборочное уравнение (2) примет
вид
~
y b x.
.
Отсюда нетрудно получить
.
Y Xb e,
где
e Y Xb.
11.
bЧтобы получить оценку вектора методом
наименьших квадратов, дополнительно к
предпосылкам МНК для парной регрессии 1°
-5° здесь требуется выполнение ещё одного
условия:
6°. Столбцы матрицы должны быть
X
линейно-независимы, т.е. ранг матрицы
должен быть равен (числу столбцов).
X
p 1
12.
При выполнении указанных предпосылок(1° - 6°) искомый вектор определяется из
системы нормальных уравнений в матричной форме:
X
Xb
X
Y . является
Решением этого уравнения
МНК - оценка
b X X X Y .
1
(4)
13.
2. Ранжирование факторовЕсли бы все объясняющие
xj
переменные
в уравнении (2) измерялись в одних и
тех же единицах, например, в кг,
то непосредственно сопоставляя абсолют
bj
значения коэффициентов регрессии
можно было ранжировать факторы x j
по силе их воздействия на признак y.
Чем больше b j , тем сильнее факторx j
влияет на y.
14.
Однако в общем случае переменные x jимеют различные единицы измерения и
такое ранжирование невозможно
(ошибочно). В этом случае прибегают к
нормированию коэффициентов
регрессии – вычислению
стандартизованных коэффициентов
регрессии a j по следующей формуле
xj
a j bj
, j 1, p,
(5)
y
15.
где x j , y средние квадратическиеотклонения переменных x j , y
соответственно.
Коэффициент a j показывает, на сколько в
среднем y изменится переменная y ,
если соответствующий фактор x j
увеличится на одно x j при неизменном
среднем уровне других факторов модели.
16.
Имея значения a j , можно построитьуравнение множественной регрессии в
стандартизованном масштабе
t y a1t x1 a2t x2 ... a pt x p ,
где
ty
y ,y
y
txj
xj xj
j 1, p
,
x
стандартизованные переменные, для
которых средние значения равны нулю
( t y t x 0), а средние квадратические
отклонения равны единице ( t t 1 ).
j
j
y
xj
(6)
17.
Чем больше модуль a j , тем сильнеевлияние фактора x j на признак y , т.е.
по значениям a j
можно выполнить
непосредственное ранжирование факторов
по силе их воздействия на y .
18.
От уравнения вида (6) можно перейти куравнению регрессии в натуральном
масштабе (2), используя формулы:
y
bj a j
,
x
j 1, p,
j
b0 y b1 x1 b2 x2 ... bp x p .
19.
Для оценки влияния отдельных факторов напеременную также можно использовать
средние коэффициенты эластичности
Эj bj
xj
y
,
j 1, p.
Ранжирование факторов по силе воздействия
на можно выполнить также с помощью
частных коэффициентов корреляции.
20.
Коэффициент частной корреляциихарактеризует тесноту линейной связи между
признаком y и фактором x j при устранении
(элиминировании) влияния других факторов,
включенных в модель.
Различают коэффициенты частной
корреляции 1, 2, …,( p 1) – го порядков, если
рассматривается регрессия с числом
факторов, равным p .
21.
Например, частными коэффициентамикорреляции являются:
ryx1 x2 коэффициент первого порядка,
учитывающий связь y и фактора x1 при
неизменном действии фактора x 2 ;
ryx1 x2 x3 коэффициент 2-го порядка,
учитывающий связь y и фактора x1 при
неизменном действии факторов x 2 , x3 ;
22.
Отсюда коэффициент парнойкорреляции ryx можно рассматривать как
частный коэффициент 0-го порядка.
Коэффициенты частной корреляции более
высоких порядков определяются через
коэффициенты низких порядков. Для
случая, когда вычисляют два частных
коэффициента первого порядка:
1
ryx1 x2
ryx1 ryx2 rx1x2
(1 r )(1 r )
2
yx2
2
x1x2
, ryx2 x1
ryx2 ryx1 rx1x2
(1 r )(1 r )
2
yx1
2
x1 x2
23.
При этом существует связь междучастными коэффициентами корреляции и
стандартизованными коэффициентами
регрессии:
ryx1 x2 a1
2
x1 x2
1 r
1 r
1 ryx2
1 r
,
r
a
yx
x
2
2
2 1
2
x1 x2
2
yx1
24.
3. Оценка качества уравнениямножественной регрессии
По аналогии с парной регрессией можно
определить долю результата , объясненной
вариацией включенных в модель факторов
в его общей дисперсии:
n
2
~
( yi yi )
QR
i 1
R 1 n
Q
2
( y y)
i 1
i
2
n
1 n
e
i 1
2
i
( y y)
u 1
i
.
2
25.
Величину R называют коэффициентоммножественной детерминации. Он служит
измерителем качества подбора уравнения.
Его значения изменяются в пределах от 0
2
до 1, и чем ближе R к единице, тем
больше уравнение регрессии объясняет
поведение .
Кроме коэффициента R 2 используют
другой показатель качества – коэффициент
множественной корреляции
2
26.
R R ,2
который представляет собой обобщение
парного коэффициента корреляции ryx и
характеризует совместное (совокупное)
влияние всех факторов на результат y . В
отличие от ryx коэффициент
множественной корреляции R принимает
значения от 0 до 1 и не может быть
использован для интерпретации
направления связи.
27.
Коэффициент R 2 является неубывающейфункцией числа объясняющих переменных.
Если добавить в модель фактор, который
2
R
y
совсем не влияет на
, то
обязательно
автоматически увеличится. Этот недостаток
можно устранить, если определять
показатель не через суммы квадратов, а
через дисперсии на одну степень свободы.
В результате получаем скорректированный
(нормированный) коэффициент множественной детерминации:
28.
n2
e
i
i 1
n 1
(n p 1)
2
ˆ
R 1 n
1
(1 R 2 )
n p 1
2
( yi y )
i 1
(n 1)
Доказано, что R̂ 2 увеличивается при
добавлении нового фактора в модель тогда и
только тогда, когда модуль t статистики
параметра по этой переменной больше
единицы. Значение R̂ 2 может даже
уменьшится при добавлении нового
фактора.
29.
Проверка статистического качествамодели выполняется путем проверки
совокупной значимости её
коэффициентов, т.е. проверки гипотезы:
H 0 : 1 2 p 0.
На практике вместо указанной гипотезы
проверяют тесно связанную с ней
гипотезу о статистической значимости
2
коэффициента детерминации R :
30.
H0 : R2 0Для проверки данной гипотезы
используется статистика:
R
n p 1
F
,
2
1 R
p
2
которая имеет распределение Фишера.
(7)
31.
Найденное по формуле (7) значение Fсравнивается с Fкр , которое находится по
таблицам по заданному уровню
значимости и числу степеней свободы k1 p
и k 2 n p 1 . Если F Fкр , то гипотеза H 0
отклоняется и это равносильно
статистической значимости уравнения в
целом.
32.
Как и в случае парной регрессиивыполняется статистическая значимость
отдельных коэффициентов j уравнения на
основе t статистик:
tb j
bj
mb j
j 0, p,
,
(8)
где mb стандартная ошибка параметра b j ,
вычисляемая по формуле:
j
mb j s ( X X )
1
j 1 j 1
,
33.
1Здесь ( X X ) j 1 j 1 диагональный элемент
обратной матрицы ( X X ) 1 , стоящий на
пересечении ( j 1) й строки и ( j 1) го
2
столбца; s несмещенная оценка
2
дисперсии
возмущения , определяемая
по формуле:
n
s
2
e
i 1
2
i
n p 1
.
34.
Если t b t кр , где t кр находится из таблиц позначению / 2 и числу степеней
свободы k n p 1, то коэффициент j
считается статистически значимым.
Приведенную строгую проверку
значимости коэффициентов можно заменить
простым сравнительным анализом ("грубое"
правило):
j
35.
еслиt b j 1, то b jстатистически незначим;
если 1 t
bj
2 , то b j относительно значим,
и для уточнения следует воспользоваться
строгой методикой;
если 2 tb 3 , то b j статистически значим;
j
если t b 3 , то b j считается сильно
j
значимым и вероятность ошибки вывода не
превосходит 0,001.
36.
Так же как и в парной регрессии длястатистически значимых коэффициентов
модели можно построить интервальные
оценки:
b j tкр mb j j b j tкр mb j ,
где t кр прежнее значение критической точки
распределения.
Доверительный интервал можно построить и
для индивидуальных прогнозных значений
зависимой переменной y .
37.
Зафиксируем значения прогнозныхобъясняющих переменных
x10 , x 20 , , x p 0
и по вектору-столбцу
x0 (1 x10
x 20 x p 0 )
найдем прогнозное значение зависимой
переменной y :
~y b x b b x b x b x
0
0
0
1 10
2 20
p p0
38.
Тогда доверительный интервал дляиндивидуального прогнозного значения y 0
в точке x 0 примет вид
~
~
y0 t кр m~y0 y0 y0 t кр m~y0 ,
где стандартная ошибка ~y 0 вычисляется по
формуле:
m~y0 s 1 x0 ( X X ) x0
1
39.
4. Частныекритерии
F
Не каждый фактор, дополнительно
включаемый в модель, может существенно
увеличить долю объясненной вариации
зависимой переменной. Ввиду корреляции
между факторами значимость одного и
того же фактора может быть различной в
зависимости от последовательности
включения его в модель.
40.
Мерой оценки значимости улучшениякачества модели, в которой были включены
факторы x1 , x2 , , x j 1, x j 1 , x p , после включения
в неё дополнительно фактора x j , служит
частный F критерий:
Fx j
R 2 R 2j
1 R
2
(n p 1) ,
где R 2j коэффициент множественной
2
детерминации для модели без фактора x j , R
тот же коэффициент с включенным в модель
фактором x j .
41.
Если в модели p 2, то используются двачастных критерия:
R r
2
Fx1
Fx2
2
yx 2
1 R
2
2
R ryx2
2
1 R
2
( n 3),
(9)
( n 3).
42.
Фактические значения частных критериев ,найденных по формуле (9), сравнивается
с Fкр , определяемое по таблицам
распределения Фишера по заданному
уровню значимости и числам степеней
свободы k1 1 и k 2 n 3 .
Если, например, Fx Fкр , то включение
фактора x1 в модель, после того как в
уравнение уже включен фактор x 2 ,
статистически оправдано и параметр b1
при факторе x1 статистически значим.
1
43.
В противном случае дополнительноевключение в модель фактора x1 не
увеличивает существенно долю
объясненной вариации y и, следовательно,
включение фактора x1 в модель нецелеобразно.
По аналогичной схеме проверяется
целесообразность включения (или
исключения) не одного, а группы факторов.
44.
Пусть по n наблюдениям построеноуравнение регрессии с p факторами и
коэффициент множественной детерминации
равен R12 . Дополнительно в модель
включают ещё k факторов и коэффициент
детерминации при этом составит величину R22
( R22 R12 ). Тогда проверяется гипотеза H : R R
с помощью статистики
0
R R n p 1
F
.
1 R
k
2
2
2
1
2
2
2
1
2
2
45.
Если F Fкр ( ; k1 k ; k 2 n p 1) , то гипотеза Hотклоняется и одновременное включение k
факторов в модель обоснованно.
Если из модели одновременно
исключаются k факторов, то используют
статистику
2
2
0
R1 R2 n p 1
F
,
2
1 R1
k
где R , R (R R ) коэффициенты детерминации
с p и ( p k ) факторами соответственно.
2
1
2
2
2
1
2
2
46.
Если при этом F F ( ; k k ; k n p 1), тогипотеза H отклоняется и одновременное
исключение k факторов из модели
2
некорректно, так как R1 существенно
2
превышает R2 .
кр
0
1
2