Множественная регрессия и корреляция
Множественный корреляционно-регрессионный анализ
Уравнение множественной линейной регрессии
Уравнение множественной линейной регрессии
Уравнение множественной линейной регрессии
Уравнение множественной линейной регрессии (параметры уравнения)
Уравнение множественной линейной регрессии (параметры уравнения)
Уравнение множественной линейной регрессии (параметры уравнения)
Уравнение множественной линейной регрессии
Уравнение множественной линейной регрессии (критерий Стьюдента)
Уравнение множественной линейной регрессии (коэффициент эластичности)
Уравнение множественной линейной регрессии (β-коэффициент)
Уравнение множественной линейной регрессии (Δ-коэффициент, R2)
Уравнение множественной линейной регрессии (R2, F-критерий)
Уравнение множественной линейной регрессии (мера точности)
Отбор факторных признаков в модель
Матрица парных линейных коэффициентов корреляции
249.54K
Категория: МатематикаМатематика

Множественная регрессия и корреляция

1. Множественная регрессия и корреляция

Соотношение между социально-экономическими явлениями и процессами
определяются большим числом одновременно и совокупно действующих
факторов.
В связи с этим часто возникает задача исследования зависимости переменной Y от
нескольких объясняющих факторов: x1,x2,…, xk
Эта задача решается с помощью
множественного корреляционно-регрессионного анализа
Исходными данными для множественного анализа служит уже не два набора
данных: {(xi,yi), i=1,…n}, где x – факторный, а y – результативный признаки,
а k+1 набор, который можно представить в виде матрицы:
y
x1
x2

xk
y1
x11
x12

x1k
y2
x21
x22

x2k





yn
xn1
xn2

xnk

2. Множественный корреляционно-регрессионный анализ

Множественный корреляционнорегрессионный анализ
Задачи множественного корреляционно-регрессионного анализа:
Измерение тесноты между признаками
Отбор факторных признаков в модель
Установление неизвестных причин связей
Определение вида уравнения регрессии
Построение регрессионной модели и оценка её параметров
Проверка значимости параметров связи
Интервальное оценивание параметров связи
Требуется определить аналитическое выражение формы связи между
результативным признаком y и факторными признаками x1, x2, …, xk:
yˆ x f ( x1 , x2 ,..., xk )
где, k – число факторных признаков

3. Уравнение множественной линейной регрессии

Коэффициенты уравнения регрессии, как и в случае однофакторного анализа
(парной регрессии), ищутся методом наименьших квадратов
Но из-за особенностей МНК в случае множественной регрессии применяются
только линейные уравнения и уравнения, приводимые к линейным
Из-за трудностей обоснования формы связи чаще всего используется линейное
уравнение, которое можно записать в следующей форме:
yˆ x a0 a1 x1 a2 x2 ... ak xk
Где a0, a1, … , ak – параметры модели (коэффициенты регрессии);
ε – случайная величина (остаток).

4. Уравнение множественной линейной регрессии

Коэффициенты уравнения регрессии ai показывает, на какую величину в среднем
изменится результативный признак y, если переменную xi увеличить на единицу
измерения при фиксированном (постоянном) значении других факторов, входящих
в уравнение регрессии.
Оценку параметров модели можно провести в матричной форме:
Y X a
где Y – вектор значений зависимой переменной размерности (n х 1)
X – матрица значений независимых переменных x1, x2, …, xk. Размерность матрицы
равна n х (k+1). Первый столбец является единичным, так как в уравнении регрессии
a0 умножается на единицу.
a – подлежащий оцениванию вектор неизвестных параметров размерности (k+1) x 1.
ε – вектор случайных отклонений размерности n х 1

5. Уравнение множественной линейной регрессии

Сформулируем
гипотезу модели множественной регрессии.
k
1. yi ai xij i , где i 1,..., n спецификация модели
j 1
2. xij детерминированные величины
Векторы регрессоров xj= (x1j, x2j, …, xnj)’, j=1,2,…,k – линейно независимы.
(‘) – знак транспонирования.
3. E i 0, E i2 V ( i ) 2 , i
4. E ( i m ) 0 при i≠m – статистическая независимость
(некоррелированность) ошибок для разных наблюдений.
5. i N (0, 2 )
То есть εi – нормально распределенная случайная
величина со средним значением 0 и дисперсией σ2
(Нормальная линейная регрессионная модель)

6. Уравнение множественной линейной регрессии (параметры уравнения)

y1
y
Y 2 ,
...
yn
1 x11 x12 ... x1k
a0
1
1 x x ... x
a
X 21 22 2 k , a 1 , 2
... ... ... ... ...
...
...
a
1
x
x
...
x
nk
n
k
n1 n 2
Y X a
y1 a0 a1 x11 a2 x12 ... ak x1k 1
y2 a0 a1 x21 a2 x22 ... ak x2 k 2

yn a0 a1 xn1 a2 xn 2 ... an xnk n
Определим вектор-столбец коэффициентов ММР при помощи МНК

7. Уравнение множественной линейной регрессии (параметры уравнения)

y1
y
Y 2 ,
...
yn
1 x11 x12 ... x1k
a0
1
1 x x ... x
a
X 21 22 2 k , a 1 , 2
... ... ... ... ...
...
...
a
1
x
x
...
x
nk
n
k
n1 n 2
Y Yˆ Y Xa
Y X a
n
ESS i2 '
min
i 1
' (Y Xa)' (Y Xa) Y ' Y Y ' Xa a' X ' Y a' X ' Xa
Y ' Y 2aX ' Y a' X ' Xa
поскольку
( Xa)' a' X ' Y ' ( Xa) ( Xa)' Y скаляр
и (a' X ' X )a (( a' X ' X )a)' a' (a' X ' X )' a' ( X ' Xa)

8. Уравнение множественной линейной регрессии (параметры уравнения)

ESS
2 X ' Y 2 X ' Xa 0
a
a ( X X ) 1 X Y
(X’X)-1 – матрица, обратная матрице X’X. Такая матрица существует в силу
линейной независимости векторов xj (п.2 гипотезы ММР).
Покажем, что вектор остатков ε ортогонален всем векторам переменных
x1, x2, …, xk, которые являются столбцами матрицы X. Данное условие
ортогональности эквивалентно равенству: X’ε = 0
X ' X ' (Y Xa) X ' Y X ' Xa X ' Y X ' X ( X ' X ) 1 X 'Y 0
Используя этот факт, получим для ESS полезную формулу:
' Y ' Y 2a' X ' Y a' X ' Xa Y ' Y a' (2 X ' Y X ' X ( X ' X ) 1 X ' Y )
Y ' Y a' X ' Y

9. Уравнение множественной линейной регрессии

Теорема Гаусса-Маркова.
Предположим, что:
Y X a
X – детерминированная матрица размерности n·(k+1), имеющая
максимальный ранг k+1.
E i 0, E i2 V ( i ) 2 , i
Тогда МНК-оценка a=(X’X)-1X’Y является наиболее эффективной оценкой
(обладает наименьшей дисперсией) в классе всех несмещенных оценок
(Best Linear Unbiased Estimation - BLUE)

10. Уравнение множественной линейной регрессии (критерий Стьюдента)

Оценивание достоверности каждого из параметров модели осуществляется
при помощи t-критерия Стьюдента.
Для любого из параметров модели aj значение t-критерия рассчитывается по формуле:
t расч
aj
S b jj
где Sε – стандартное (среднее квадратическое) отклонение уравнения регрессии.
n
S
(y
i 1
i
yˆ i ) 2
n k 1
bjj – диагональные элементы матрицы (X’X)-1
Коэффициент регрессии aj считается достаточно надежным, если расчетное значение tкритерия Стьюдента с (n-k-1) степенями свободы превышает табличное, т.е.
tрасч > tα,n-k-1. Если надежность не подтверждается, то следует вывод о его
несущественности и устранения из модели или замены на другой факторный признак.

11. Уравнение множественной линейной регрессии (коэффициент эластичности)

Непосредственно с помощью коэффициентов регрессии нельзя сопоставить
факторные признаки по степени их влияния на зависимую переменную изза различия единиц измерения и разной степени колеблемости.
Для устранения таких различий применяются частные коэффициенты эластичности
Эj и бета – коэффициенты βj
где
Коэффициент
Эj a j
эластичности:
aj – коэффициент регрессии фактора j;
y – среднее значение результативного признака;
x j – среднее значение признака j;
xj
y
Коэффициент эластичности показывает, на сколько процентов изменится зависимая
переменная y при изменении фактора j на 1%

12. Уравнение множественной линейной регрессии (β-коэффициент)

j aj
β-коэффициент:
где
S xj
Sy
Sxj – среднее квадратическое отклонение фактора j;
Sy – среднее квадратическое отклонение фактора y
n
S xj
(x
i 1`
ij x j )
n
n
2
Sy
(y
i 1
2
y
)
i
n
β-коэффициент показывает, на какую часть величины среднего квадратического
отклонения Sy изменится зависимая переменная y при изменении соответствующей
зависимой переменной xj на величину своего среднего квадратического отклонения
при фиксированном значении остальных независимых переменных.
Указанные коэффициенты позволяют проранжировать факторы по степени их влияния
на зависимую переменную

13. Уравнение множественной линейной регрессии (Δ-коэффициент, R2)

Δ-коэффициент:
j ryj
j
R2
где ryj – коэффициент парной корреляции между фактором j и зависимой переменной;
R2 – множественный коэффициент детерминации
Коэффициент множественной детерминации используют для оценки качества
множественных регрессионных моделей.
n
n
2
i
( yˆ i y ) 2
Коэффициент
2
i 1
i 1
множественной
R
1
n
n
детерминации
2
(
y
y
)
i
i 1
2
(
y
y
)
i
i 1
Коэффициент детерминации показывает долю вариации результативного признака,
находящегося под воздействием факторных признаков, т.е. определяет, какая доля
вариации признака y учтена в модели и обусловлена влиянием на него факторов,
включенных в модель.
Чем ближе R2 к единице, тем выше качество модели

14. Уравнение множественной линейной регрессии (R2, F-критерий)

При добавлении независимых переменных значение R2 увеличивается, поэтому
коэффициент R2 должен быть скорректирован с учетом числа независимых
переменных по формуле:
2
коррект
R
n 1
1 (1 R )
n k 1
2
Для оценки значимости модели регрессии используют F-критерий Фишера.
2
R k
F
(1 R 2 ) (n k 1)
Если расчетные значения критерия с γ1=k и γ2= (n-k-1) степенями свободы больше
табличного при заданном уровне значимости, то модель считается значимой.

15. Уравнение множественной линейной регрессии (мера точности)

В качестве меры точности модели применяют стандартную ошибку, которая
представляет собой отношение суммы квадратов уровней остаточной компоненты к
величине (n-k-1):
n
S
где
i yi yˆ i
i 1
2
i
(n k 1)

16. Отбор факторных признаков в модель

Отбор факторов является важнейшей проблемой при построении множественных
регрессионных моделей. Он проводится на основе качественного и количественного
анализа социально-экономических явлений с использованием статистических и
математических критериев
Проводят три стадии отбора факторов:
1. Предварительное определение перечня факторов оказывающих влияние
на переменную y
2. Сравнительная оценка и отсев факторов
3. Окончательный выбор факторов в процессе построения разных вариантов
моделей и оценки значимости их параметров
Для сравнительной оценки и отсева части факторов составляют матрицу парных
коэффициентов корреляции, измеряющих тесноту линейной связи каждого фактора с
результативным признаком и с каждым из остальных факторных признаков.

17. Матрица парных линейных коэффициентов корреляции

y
x1
x2

xi

xn
y
1
ryx1
rx2 y

ryi xi

ryxn
x1
rx1 y
1
rx2 x1

rx1 xi

rx1 xn
x2
rx2 y
rx2 x1
1

rx2 xi

rx2 xn








xi

rxi y
rxi x1
rxi x2

1

rxi xn







xn
rxn y
rxn x1
rxn x2

rxn xi

1
y – результативный признак, x1,x2,…,xn – факторные признаки
rij – парный коэффициент корреляции между признаками xi и xj
English     Русский Правила