Похожие презентации:
Оценка качества уравнения парной регрессии
1. Лекция 2
Оценка качества уравненияпарной регрессии
2.
1. Оценка качества уравнения регрессии2. Оценка значимости уравнения регрессии
в целом
3. Оценка значимости параметров
уравнения
4. Интервальные оценки
5. Нелинейная парная регрессия
3.
Оценка точности уравнения регрессиипроизводится на основе дисперсионного
анализа. Центральное место в линейном
дисперсионном анализе занимает разложение
общей суммы квадратов отклонений
n
( y y)
i 1
2
i
переменной y от среднего y на две части одна из них вызвана влиянием фактора x ,
другая – прочими неучтенными факторами:
n
n .
n
2
2
2
~
~
Q ( yi y ) ( yi y ) ( yi yi ) (2)
i 1
i 1
i 1
4. 1. Оценка качества уравнения регрессии
После того, как найдено уравнение парнойрегрессии
~
y b0 b1 x (1)
возникает вопрос – насколько точно оно
представляет неизвестную связь между
переменными y и x , и насколько можно
доверять этому уравнению, чтобы уверенно
использовать его на практике?
5.
Здесьn
2
~
QR ( yi y ) факторная сумма
i 1
(объясненная с помощью регрессии часть),
обусловленная влиянием фактора x ,
n
n
i 1
i 1
2
2
~
Qe ( yi yi ) ei остаточная сумма
(необъясненная часть), обусловленная
влиянием прочих неучтенных факторов.
6.
y~
y b0 b1 x
y
(~
yi y )
~
( yi yi )
yi
xi
Рис. 1
x
7.
Если фактор x не оказывает влияния напеременную y , то QR 0 и Q Qe .
Если же QR Qe , то x влияет существенно
на признак y .
В связи с этим вводят в рассмотрение одну из наиболее эффективных оценок меры
качества уравнения регрессии – коэффициент детерминации R 2 , который определяется по формуле
n
n
QR
R
Q
2
2
~
(
y
y
)
i
i 1
n
2
(
y
y
)
i
i 1
Qe
1
1
Q
2
e
i
i 1
n
2
(
y
y
)
i
i 1
. (3)
8.
Из формулы (3) следует, что 0 R 1 , а2
величина R показывает, какая доля вариации переменной y обусловлена вариацией
фактора x .
Чем ближе R 2 к единице, тем лучше данная регрессия (1) аппроксимирует модельное уравнение регрессии, тем выше качество
модели.
Для линейной парной регрессии (1)
коэффициент детерминации можно найти по
2
2
другой формуле
R r . (4)
2
xy
9.
Другим критерием оценки качествауравнения регрессии является средняя
относительная ошибка аппроксимации,
определяемая из выражения:
yi
1 n yi ~
1 n ei
A
100% 100%. (5)
n i 1 yi
n i 1 yi
Если A 10% , то это говорит о
хорошем качестве модели.
10. 2. Оценка значимости уравнения регрессии в целом
Разделив каждую сумму квадратовсоотношения (2) на соответствующее ей
число степеней свободы, получим
несмещенные оценки этих дисперсий:
n
sR2
2
~
(
y
y
)
i
i 1
1
n
; se2
2
~
(
y
y
)
i i
i 1
n 2
n
; s2
2
(
y
y
)
i
i 1
n 1
Далее выдвинем гипотезу о равенстве
2
2
дисперсий
H :s s
0
R
e
.
11.
По-существу это гипотеза об отсутствиилинейной зависимости между переменными x
и y (для наличия такой зависимости требу2
ется, чтобы факторная дисперсия s R в
2
несколько раз превышала остаточную se ).
Как известно для тестирования данной
гипотезы используется статистика
sR2 QR (n 2)
F 2
(6)
se
Qe
которая представляет собой F распределение Фишера с k1 1 и k2 n 2 степенями
свободы.
12.
Вычисленное по формуле (6) значениестатистики F сравнивают с Fкр , которое
находят из таблиц распределения Фишера по
заданному уровню значимости и числам
k2 n 2
степеней свободы
и k1 1
Если F Fкр , то гипотеза H 0 отклоняется и уравнение регрессии (1) с вероятностью 1 признаётся статистически значимым и его можно использовать на практике. В противном случае ( F Fкр ) оно не
является таковым и, следовательно, непригодно для использования.
13.
На практике для вычисления статистики Fприменяют другую формулу
2
R
F
(n 2), (7)
2
1 R
связывающую величину F
2
циент детерминации R .
и коэффи-
14. 3. Оценка значимости параметров уравнения
В линейной регрессии обычно оцениваетсязначимость не только уравнения в целом, но
и значимость его параметров. Рассмотрим
это на примере параметра b1 , который имеет чёткий экономический смысл. Выдвигаем
гипотезу H 0 : 1 0 (коэффициент регрессии
статистически незначим). В качестве альтернативной возьмём H1 : 1 0 , что соответствует двусторонней критической области.
15.
Тогда при выполнении предпосылки 5°МНК доказано, что случайная величина
U
b1
b
(8)
1
имеет стандартное нормальное распределение, т.е. U ~ N (0,1).
Нетрудно доказать, что для дисперсии D(b1 )
параметра b1
справедлива формула
2
2
D(b1 ) b n
, (9)
1
2
(
x
x
)
i
i 1
16.
гдедисперсия возмущения , т.е.
по предпосылке 3° .
b
1
se
Величина 2 неизвестна, а её несмещенной
оценкой является выборочная исправленная
дисперсия
b1 n
2
T
(
x
x
)
,
.
b1
i
se i 1
Если заменить
в формуле (8) с
использованием
t соотношения (9) на оценку ,
то получим случайную
k n 2величину
n
1
2
~
se2
(
y
y
)
i
i
n 2 i 1
17.
Введём в рассмотрение величинуse
mb1
,
n
(x
i 1
i
x)
2
которую называют стандартной ошибкой
параметра b1 (по-существу она является
несмещенной оценкой неизвестного b1 ). Тогда
b1
Tb1
.
mb1
(10)
18.
В итоге проверка гипотезысводится к
H0
вычислению по формуле (10) наблюдаемого
значения статистики tb1 и сравнения её
модуля t b1 с критическим значением t кр ,
которое находят из таблицы критических точек
распределения Стьюдента по заданному
половинному уровню значимости / 2
(критическая область двусторонняя) и числу
степеней свободы k n 2 .
19.
Если выполняется неравенствоtb1
b1
mb1
tкр ,
то параметр b1 считается статистически
значимым с вероятностью 1 .
b1
t кр ) гипотеза H 0
В противном случае (
mb1
принимается.
Аналогично, если выполняются
неравенства
tb0
b0
mb0
tкр ,
tr
rxy
mr
tкр ,
20.
nгде mb se
0
2
x
i
i 1
n
n ( xi x ) 2
mb1 x ,
2
mr
1 r
2
xy
n 2
i 1
стандартные ошибки параметров b0 и rxy
соответственно, то они признаются
статистически значимыми.
В заключении отметим, что между
наблюдаемыми значениями статистик
существует связь:
tb1 tr F .
21. 4. Интервальные оценки
Если коэффициент регрессии 1 являетсястатистически значимым, то для него строят
интервальную оценку
(11)
b1 t кр mb1 1 b1 t кр mb1 ,
где величины mb1 , t кр уже известны из
предыдущих вычислений.
По-существу она является доверительным
интервалом, который с доверительной
вероятностью 1 накрывает неизвестное
значение коэффициента 1 и характеризует
точность оценивания.
22.
Аналогично строят интервальные оценки длядругих параметров регрессии:
b0 t кр mb0 0 b0 t кр mb0 ,
rxy t кр mr xy rxy t кр mr .
Прогнозирование по адекватному уравнению
регрессии представляет собой подстановку в
уравнение регрессии прогнозного значения
фактора x .
В соответствии с этим зафиксируем некоторое
значение объясняющей
переменной x x p и найдём для неё прогнозное
значение зависимой переменной y :
.
23.
~y p b0 b1 x p .
Величина ~
y p является точечной оценкой
неизвестного значения y p , соответствующего
значению x p объясняющей переменной x в
природе.
Интервальную оценку для
соотношения
y p определяют из
~
~
y p tкр m~y p y p y p tкр m~y p ,
где стандартная ошибка m~y индивидуального
p
~
прогнозного значения y p находится по формуле
1
m~y p se 1
n
( x p x )2
n
2
(
x
x
)
i
i 1
(12)
24. 5. Нелинейная парная регрессия
Соотношения между показателями экономическихили социальных процессов не всегда можно
выразить линейными функциями, ибо при этом
могут возникнуть большие ошибки. В этих
случаях используют нелинейные регрессии.
Различают два класса нелинейных регрессий,
используемых в эконометрике:
регрессии, линейные относительно
оцениваемых коэффициентов;
регрессии, нелинейные относительно
коэффициентов.
25.
Регрессии, линейные относительнокоэффициентов
Примерами моделей первого типа являются:
парабола второго2 порядка
y 0 1 x 2 x ;
равносторонняя гипербола
1
y 0 1 ;
x
полулогарифмическая функция
y 0 1 ln x
и т.д.
26. Регрессии, нелинейные относительно коэффициентов
Второй класс представляют функции:степенная
y 0 x 1 ;
показательная
y 0 ( 1 ) x ;
экспоненциальная
и т.п.
y e 0 1x
27.
Непосредственно МНК для оценки коэффициентовэтих моделей применять нельзя, так как системы
нормальных уравнений уже являются нелинейными
и решаются в общем случае только численными
приближенными методами.
Для оценки коэффициентов нелинейных
моделей используют два подхода. Первый из них
основан на линеаризации модели и заключается в
том, что с помощью подходящих преобразований
исходных переменных или (и) исследуемую
зависимость представляют в виде линейного
соотношения между преобразованными
переменными.
28.
Второй подход применяют в том случае, когдалинеаризация модели не удаётся и для нахождения
оценок коэффициентов приходится применять
численные методы нелинейной оптимизации.
Вначале рассмотрим пример линеаризации на
моделях первого класса, т.е. моделях, линейных по
коэффициентам. Возьмём в качестве примера
равностороннюю гиперболу
1
y 0 1
x
29.
Введём в рассмотрение новую переменнуюx 1x
относительно которой уравнение регрессии будет
уже линейно
y 0 1 x .
Теперь оценка коэффициентов последнего
уравнения может быть выполнена обычным МНК.
В итоге получим следующие оценки:
b1
x y x y
x 2 ( x ) 2
b0 y b1 x .
,
30.
Сложнее выполняется линеаризация моделейвторого класса. Рассмотрим это на примере
степенной регрессии
y 0 x 1 .
Предварительно прологарифмируем обе части
уравнения
ln y ln 0 1 ln x ln
и сделаем замену переменных:
y ln y, 0 ln 0 , x ln x, ln .
31.
Тогда для новых переменных уравнение будетлинейным
y 0 1 x .
Вновь для оценки его коэффициентов
можно применить
x y МНК:
x y
b1
x ( x )
2
2
,
b0 y b1 x .
Осталось найти оценку 0
b0 e b0 .
32.
В итоге осталось получить искомуюнелинейную регрессию в виде степенной
функции
b1
~
y b0 x .
Для оценки тесноты нелинейной связи между
переменными x и y в моделях, линейных
по коэффициентам, используют индекс
корреляции
.
n
R
Q
QR
1 e 1
Q
Q
2
e
i
i 1
n
(y
i 1
i
.
y)2
(13)
33.
Чем ближек единице, тем теснее связь
R
рассматриваемых показателей, тем более
надежно уравнение регрессии.
Квадрат R 2 имеет тот же смысл, что и
коэффициент детерминации и его называют
индексом детерминации нелинейной регрессии.
Индекс детерминации R 2 используют для
проверки значимости уравнения регрессии в
целом по критерию Фишера
R2 n m 1
F
,
2
1 R
m
где m число коэффициентов модели при
факторе .
34.
Отметим особо, что если модель являетсянелинейной по оцениваемым
коэффициентам, то индексы корреляции и
детерминации для них не вычисляются, ибо
для таких моделей не выполняется основной
постулат линейного дисперсионного анализа о
разложении общей суммы квадратов
n
2
(
y
y
)
i
i 1
отклонений переменной y от среднего y на
две части: QR и Qe .