当前位置：文档之家› 经典线性回归模型

经典线性回归模型

·β的OLS估计量：在假定2.3成立时
( ) å å b =
XTX
-1 X T Y
= çæ 1 èn
n i=1
xi xiT
Hale Waihona Puke -1ö æ1 ÷ç ø èn
n i=1
xi yi
÷ö ø
( ) ·估计量的抽样误差（sampling error）： b - b = X T X -1 X Te
·第i次观测的拟合值（fitted value）： yˆi = xiTb
且自变量的回归系数和 y 与 x 的样本相关系数之间的关系为
b1 == corr(Y , X )
å( 1 n
n - 1 i=1
yi
- y)2
º r sy
å( ) 1 n
n - 1 i=1
xi - x 2
sx
·修正决定系数(adjusted coefficient of determination, adjusted R square)
4．假定我们观测到上述这些变量的n组值： (y i , x i1 , L , ) x ip (i=1，…，n)。称
这n组值为样本（sample）或数据（data）。
§2.2 经典线性回归模型的假定
假定 2.1（线性性(linearity)）
yi = b0 + b1xi1 + L + b p xip + e i (i=1，…，n)。
( ) ( ) E ~x jei
çæ E x j1e i =ç M
÷ö ÷=0
(i=1，…，n ; j=1，…，n )。
( ) ç
è
E
x jp e i
÷ ø
·不相关条件（zerocorrelation conditions）
( ) cov ei , x jk = 0 (对所有i，j，k)。
由以上严格外生性的含义可知，如果在时间序列数据中存在的滞后效应
（lagged effect）和反馈效应（feetback effect），那么严格外生性条件就不成立。因
而，在严格外生性假定下推出的性质就不能用于这类时间序列数据。滞后效应是指自变量历史值对因变量当前值的影响，反馈效应是指因变量当前值对自变量未来值的影响。假定2.3（无多重共线性(no multicollinearity)）
n
(yi - y)2
yˆi - yˆ 2
i =1
i =1
对只有一个自变量的一元线性回归，R2 就是 y 与 x 的样本相关系数的平方，
复相关系数就是 y 与 x 的样本相关系数的绝对值，即
( ) R2 = corr(Y, Yˆ) 2 = (corr(Y , X ))2 ， R = corr(Y , Yˆ) = corr(Y , X )
·残差向量（vector of OLS residuals）：e=YXb= Y - Yˆ =(IH)Y≡MY = Me
·零化子（annihilator）：M=In – H （对称幂等，秩为np1，MX=0）
å ·一阶条件： X T e = 0 ，即
1n n i=1 xiei = 0
（ E(xiei ) = 0 ）
n×(p+1)矩阵X的秩为(p+1)的概率为1。
假定2.4（球面误差方差(spherical error variance)）
Var(e | ~x1 , L , ~xn ) = s 2In
·条件同方差（conditional homoskedasticity）
( ) E
e
2 i
|
~x 1
,
L
,
~xn
§2.3 随机样本的经典线性回归模型
若样本 (yi , ~xiT )(i=1，…，n)为IID，那么假定2.2和假定2.4可简化为
假定2.2: E(ei | ~xi ) = 0 (i=1，…，n)
( ) 假定2.4：
E
e
2 i
|
~x i
=s2 >0
(i=1，…，n)
§2.4 确定性自变量的经典线性回归模型
·OLS估计的几何意义：Y = Xb + e = Yˆ + e
L(X)
Y
e
Yˆ
Y T Y = Yˆ T Yˆ + eT e
·残差平方和（residuals sum of squares）
RSS= eTe = Y T MY = e T Me ，(其自由度为np1) ·σ2 的OLS估计量
s2 = RSS º RMS （残差均方，residual mean square）
i=1
i=1
i =1
称这个等式为平方和分解公式。记
SST
º
n
å (yi
i =1
-
y )2
= Y T çæ I è
-
1 iiT n
÷ö Y ø
（称为总平方和，其自由度为n1）
(其中，i = (1,L,1)T 表示每个元素均为1的n维向量)
n
SSreg º å (yˆi - y)2 = SST - RSS （称为回归平方和，其自由度为p） i =1
变量的函数 b0 + b1xi1 + L + b p xip 为回归函数（regression function）或简称为回归
（regression）。称 b0 为回归的截距(ntercept)，称 bk (k = 1,L, p) 为自变量的回归系数
（regression coefficients）。某个自变量的回归系数表示在其它条件保持不变的情况下，
由假定2.1、假定2.2和假定2.4有
( ) ( ) yi = xiT b + e i ，Var(yi ) = Var xiT b + Var (ei ) = Var xiT b + s 2
因此理论上，由自变量变异决定的因变量变异的比例（称为理论决定系数）为
理论决定系数
=
1
-
s2
( Var yi
)
å 分别用
n - p -1
·回归（方程）标准误（standard error of the regression (equation)）
s = RSS n - p -1
(残差标准误，residual standard error)
·平方和分解公式
当回归方程包含常数项时，可以证明
n
n
n
å (yi - y )2 = å (yˆi - y )2 + å ei2
或者说决定系数R2度量了解释变量（回归函数）能够解释的因变量变异的比例。
·复相关系数(multiple correlation coefficient，multiple R )
R = 1 - RSS = corr(Y , Yˆ) º SST
( ) n
å(yi - y) yˆi - yˆ
i =1
( ) å å n
( ) ·拟合值向量（vector of fitted value）： Yˆ = Xb = X X T X -1 X TY º HY ( ) ·投影矩阵（projection matrix）： H º X X T X X T （对称幂等，秩为p+1，HX=X）
·第i次观测的OLS残差（OLS residual）： ei = yi - xiTb = yi - yˆi
归的效应。残差平方和表示总变异中不能解释的部分，残差平方和是由不可观测的
误差的波动产生的。
·决定系数（coefficient of determination, R square）
R2 = 1 - RSS ，
SST
当回归方程包含常数项时，由平方和分解公式有 0 £ R2 £ 1。当回归方程不包含
n
n
yi = xiT b + e i (i=1，…，n)。
又记
çæ1
X= ç M
x11 M
L L
x1 p M
÷ö ÷
，
Y=
æ ç ç
y1 M
ö ÷ ÷
，
e
=
æ ç ç
e1 M
ö ÷ ÷
，则
çè1
xn1
L
x np
÷ ø
çè yn ÷ø
çèe n ÷ø
Y = Xb + e
假定2.2（严格外生性(strictly exogeneity)）
（2.1）
称方程（2.1）为因变量y对自变量x1，…，xp的线性回归方程（linear regression
equation），其中 bk (k = 0，1,L, p) 是待估的未知参数（unknown parameters），
ei (i = 1,L, n) 是满足一定限制条件的无法观测的误差项（unobserved error term）。称自
则平方和分解公式又可写成：SST = SSreg + RSS ，(n1)=p+(np1)。平方和分解公式将总平方和分解为回归平方和与残差平方和两部分。总平方和
表示样本中因变量的总变异，回归平方和表示总变异中能够解释的部分，因此又称
为解释平方和，回归平方和是由样本中自变量的变异产生的，回归平方和可表示回
s2
=
n
RSS - p -1
和
1 n -1
n i =1
( yi
-
y )2
来估计 s
2
和Var( yi )
，得修正决定系数
R2 adj
=1-
RSS /(n SST /(n
p -1) - 1)
常数项时，平方和分解公式不再成立，且有可能会出现 å (yi - y)2 < å ei2 ，即

e商务文档

经典线性回归模型

相关文档推荐：