当前位置:文档之家› 经典线性回归模型

经典线性回归模型


·β的OLS估计量:在假定2.3成立时
( ) å å b =
XTX
-1 X T Y
= çæ 1 èn
n i=1
xi xiT
Hale Waihona Puke -1ö æ1 ÷ç ø èn
n i=1
xi yi
÷ö ø
( ) ·估计量的抽样误差(sampling error): b - b = X T X -1 X Te
·第i次观测的拟合值(fitted value): yˆi = xiTb
且自变量的回归系数和 y 与 x 的样本相关系数之间的关系为
b1 == corr(Y , X )
å( 1 n
n - 1 i=1
yi
- y)2
º r sy
å( ) 1 n
n - 1 i=1
xi - x 2
sx
·修正决定系数(adjusted coefficient of determination, adjusted R square)
4.假定我们观测到上述这些变量的n组值: (y i , x i1 , L , ) x ip (i=1,…,n)。称
这n组值为样本(sample)或数据(data)。
§2.2 经典线性回归模型的假定
假定 2.1(线性性(linearity))
yi = b0 + b1xi1 + L + b p xip + e i (i=1,…,n)。
( ) ( ) E ~x jei
çæ E x j1e i =ç M
÷ö ÷=0
(i=1,…,n ; j=1,…,n )。
( ) ç
è
E
x jp e i
÷ ø
·不相关条件(zero­correlation conditions)
( ) cov ei , x jk = 0 (对所有i,j,k)。
由以上严格外生性的含义可知,如果在时间序列数据中存在的滞后效应
(lagged effect)和反馈效应(feetback effect),那么严格外生性条件就不成立。因
而,在严格外生性假定下推出的性质就不能用于这类时间序列数据。滞后效应是指 自变量历史值对因变量当前值的影响,反馈效应是指因变量当前值对自变量未来值 的影响。 假定2.3(无多重共线性(no multicollinearity))
n
(yi - y)2
yˆi - yˆ 2
i =1
i =1
对只有一个自变量的一元线性回归,R2 就是 y 与 x 的样本相关系数的平方,
复相关系数就是 y 与 x 的样本相关系数的绝对值,即
( ) R2 = corr(Y, Yˆ) 2 = (corr(Y , X ))2 , R = corr(Y , Yˆ) = corr(Y , X )
·残差向量(vector of OLS residuals):e=Y­Xb= Y - Yˆ =(I­H)Y≡MY = Me
·零化子(annihilator):M=In – H (对称幂等,秩为n­p­1,MX=0)
å ·一阶条件: X T e = 0 ,即
1n n i=1 xiei = 0
( E(xiei ) = 0 )
n×(p+1)矩阵X的秩为(p+1)的概率为1。
假定2.4(球面误差方差(spherical error variance))
Var(e | ~x1 , L , ~xn ) = s 2In
·条件同方差(conditional homoskedasticity)
( ) E
e
2 i
|
~x 1
,
L
,
~xn
§2.3 随机样本的经典线性回归模型
若样本 (yi , ~xiT )(i=1,…,n)为IID,那么假定2.2和假定2.4可简化为
假定2.2: E(ei | ~xi ) = 0 (i=1,…,n)
( ) 假定2.4:
E
e
2 i
|
~x i
=s2 >0
(i=1,…,n)
§2.4 确定性自变量的经典线性回归模型
·OLS估计的几何意义:Y = Xb + e = Yˆ + e
L(X)
Y
e

Y T Y = Yˆ T Yˆ + eT e
·残差平方和(residuals sum of squares)
RSS= eTe = Y T MY = e T Me ,(其自由度为n­p­1) ·σ2 的OLS估计量
s2 = RSS º RMS (残差均方,residual mean square)
i=1
i=1
i =1
称这个等式为平方和分解公式。记
SST
º
n
å (yi
i =1
-
y )2
= Y T çæ I è
-
1 iiT n
÷ö Y ø
(称为总平方和,其自由度为n­1)
(其中,i = (1,L,1)T 表示每个元素均为1的n维向量)
n
SSreg º å (yˆi - y)2 = SST - RSS (称为回归平方和,其自由度为p) i =1
变量的函数 b0 + b1xi1 + L + b p xip 为回归函数(regression function)或简称为回归
(regression)。称 b0 为回归的截距(ntercept),称 bk (k = 1,L, p) 为自变量的回归系数
(regression coefficients)。某个自变量的回归系数表示在其它条件保持不变的情况下,
由假定2.1、假定2.2和假定2.4有
( ) ( ) yi = xiT b + e i ,Var(yi ) = Var xiT b + Var (ei ) = Var xiT b + s 2
因此理论上,由自变量变异决定的因变量变异的比例(称为理论决定系数)为
理论决定系数
=
1
-
s2
( Var yi
)
å 分别用
n - p -1
·回归(方程)标准误(standard error of the regression (equation))
s = RSS n - p -1
(残差标准误,residual standard error)
·平方和分解公式
当回归方程包含常数项时,可以证明
n
n
n
å (yi - y )2 = å (yˆi - y )2 + å ei2
或者说决定系数R2度量了解释变量(回归函数)能够解释的因变量变异的比例。
·复相关系数(multiple correlation coefficient,multiple R )
R = 1 - RSS = corr(Y , Yˆ) º SST
( ) n
å(yi - y) yˆi - yˆ
i =1
( ) å å n
( ) ·拟合值向量(vector of fitted value): Yˆ = Xb = X X T X -1 X TY º HY ( ) ·投影矩阵(projection matrix): H º X X T X X T (对称幂等,秩为p+1,HX=X)
·第i次观测的OLS残差(OLS residual): ei = yi - xiTb = yi - yˆi
归的效应。残差平方和表示总变异中不能解释的部分,残差平方和是由不可观测的
误差的波动产生的。
·决定系数(coefficient of determination, R square)
R2 = 1 - RSS ,
SST
当回归方程包含常数项时,由平方和分解公式有 0 £ R2 £ 1。当回归方程不包含
n
n
yi = xiT b + e i (i=1,…,n)。
又记
çæ1
X= ç M
x11 M
L L
x1 p M
÷ö ÷

Y=
æ ç ç
y1 M
ö ÷ ÷

e
=
æ ç ç
e1 M
ö ÷ ÷
,则
çè1
xn1
L
x np
÷ ø
çè yn ÷ø
çèe n ÷ø
Y = Xb + e
假定2.2(严格外生性(strictly exogeneity))
(2.1)
称方程(2.1)为因变量y对自变量x1,…,xp的线性回归方程(linear regression
equation),其中 bk (k = 0,1,L, p) 是待估的未知参数(unknown parameters),
ei (i = 1,L, n) 是满足一定限制条件的无法观测的误差项(unobserved error term)。称自
则平方和分解公式又可写成:SST = SSreg + RSS ,(n­1)=p+(n­p­1)。 平方和分解公式将总平方和分解为回归平方和与残差平方和两部分。总平方和
表示样本中因变量的总变异,回归平方和表示总变异中能够解释的部分,因此又称
为解释平方和,回归平方和是由样本中自变量的变异产生的,回归平方和可表示回
s2
=
n
RSS - p -1

1 n -1
n i =1
( yi
-
y )2
来估计 s
2
和Var( yi )
,得修正决定系数
R2 adj
=1-
RSS /(n SST /(n
p -1) - 1)
常数项时,平方和分解公式不再成立,且有可能会出现 å (yi - y)2 < å ei2 ,即
相关主题