第三章 双变量线性回归模型
(2)两变量之间的关系可能不是严格线性的,u反 映了与直线的偏差。
(3)经济行为是随机的,我们能够用 Y=α+βX 解释“典型”的行为,而用u来表示个体偏差。 (4)总会出现测量误差, 使得任何精确的关系不 可能存在。
二. 普通最小二乘法(OLS法, Ordinary Least squares)
(2)E(uiuj) = 0, i≠j 即各期扰动项互不相关。也就是假定它们之间无
自相关或无序列相关。
实际上该假设等同于:
cov( uI, uj) = 0, i≠j 这是因为:cov(uI, uj) = E{[ui - E(ui)][uj - E(uj)]}
= E(uiuj) ——根据假设(1)
(3)E(ut2)= 2, t=1,2,…,n 即各期扰动项的方差是一常数,也就是假定各
(5)ut ~ N( 0, 2 ) , t= 1, 2, ...,n 即扰动项服从正态分布。
满足条件(1)—(4)的线性回归模型称为古典线 性回归模型(CLR模型)。
2.最小二乘原理
我们的任务是, 在给定X和Y的一组观测值 (X1, Y1), (X2, Y2) , ..., (Xn, Yn) 的情况下,
Yt = + Xt + ut
序号 1
2
3
4
5
Yt 14 18 23 25 30
Xt 10 20 30 40 50
解:我们采用列表法计算。计算过程如下:
Yt
1
14
2
18
3
23
4
25
5
30
Σ
110
Xt
yt Yt Y xt Xt X
xt yt
xt 2
10
-8
-20
160
400
20
-4
-10
40
100
t=1,2,……,n
残差平方和
我们的目标是使拟合出来的直线在某种意 义上是最佳的,直观地看,也就是要求估计直 线尽可能地靠近各观测点,这意味着应使残差
总体上尽可能地小。要做到这一点,就必须用
某种方法将每个点相应的残差加在一起,使其 达到最小。理想的测度是残差平方和,即
et 2 (Yt Yˆt )2
双变量线性回归模型的统计假设
(1). E(ut) = 0, t= 1, 2, ...,n 即各期扰动项的均值(期望值)为0.
(2). E(uiuj) = 0 i j 即各期扰动项互不相关.
(3). E(ut2 ) = 2 , t= 1, 2, ...,n 即各期扰动项方差是一常数.
(4). 解释变量Xt 为非随机量 即Xt的取值是确定的, 而不是随机的.
一、拟合优度(Goodness of fit)的概念
用最小二乘法得到的回归直线 Yˆt ˆ ˆX t 至少
从残差平方和为最小这一意义上来说是所有可能直线 中最佳的拟合线。它是对Y和X之间关系的一种描述, 但该直线是不是Y和X之间关系的一种恰当的描述呢? 如果各观测点紧密地聚集在这条直线的周围,则表明 该直线对Y和X之间关系的描述是好的;否则,用直 线来描述这两个变量之间的关系就未必恰当,如下图 所示:
一. ˆ 和 ˆ 的均值
ˆ
xt yt
xt (Yt Y )
xtYt
Y
xt
xt2
xt2
xt2
xt2
xt (X t X ) X t X nX nX 0
ˆ xtYt xt ( X t ut )
xt2
xt2
ˆ xtYt xt ( X t ut )
1.双变量线性回归模型的统计假设
我们的模型是:
Yt = + Xt + ut , t = 1, 2, ...,n
这里 和 为未知总体参数,下一步的任务是应 用统计学的方法,由Y和X的观测值(即样本数据) 来估计和 的总体值,常用的估计方法就是最小二 乘法。为了应用最小二乘法,得到好的估计量,双 变量线性回归模型需要满足一些统计假设条件,这 些统计假设是:
n = 10 , X =23, Y =20
(X X)2 64, (X X)(Y Y) 37
则有
(
Xi X)(Yi (Xi X)2
Y)
37 64
0.58
Y X 20 0.58(23) 6.70
因而
Yi 6.70 0.58Xi
例2 设Y和X的5期观测值如下表所示,试估计方程
二. ˆ 和ˆ 的方差
Var( ˆ)=E{[ ˆ- E( ˆ)]2} ——根据定义
=E( ˆ-β)2
——由无偏性E( ˆ)=β
由上段结果: ˆ xtut xt2
即
ˆ xtut
xt2
(ˆ )2 (
xt ut xt2
)2
(
1 xt2 ) 2
( x1u1
x2u2
...
扰动项具有同方差性。 实际上该假设等同于:
Var( ut) = 0, i≠j 这是因为:
Var(ut)=E{[ut-E(ut)]2}= E(ut2) ——根据假设(1))
(4) Xt为非随机量 即Xt的取值是确定的, 而不是随机的。 有的书上采用弱一些的条件: E(Xtut) = 0, t=1,2,…,n 即解释变量X与扰动项u不相关。
对于任何数据点 (Xt, Yt), 此直线将Yt 的总值 分成两部分。
第一部分是Yt的拟合值或预测值 Yˆt :
Yˆt ˆ ˆX t , t=1,2,……,n
第二部分,et ,代表观测点对于回归线的误差,称为拟合
或预测的残差 (residuals):
et Yt Yˆt
t=1,2,……,n
即 et Yt ˆ ˆ Xt
考虑到假设条件(4),即Xt为非随机量,则由前面结果:
ˆ
xtut =
xt2
ktut
其中,
kt
xt xt2
这表明,ˆ 是N个正态分布变量u1,u2,…,un的线性
函数,因而亦为正态分布变量,即
类似的有:
ˆ ∽ N ( , 2 )
xt2
ˆ
∽
2 N (,
X
2 t
)
n xt2
第三节 拟合优度的测度
当数据为时间序列时,往往用下标 t来表示观测 值的序号,从而(3)式变成
Yt = + Xt + ut , t = 1, 2, ...,n (3’)
为何要在模型中包括扰动项u
我们在上一章中已初步介绍了为什么要在模型中包 括扰动项u,下面进一步说明之:
(1)真正的关系是Y = f (X1, X2,… X ),但X2, X3,…, X 相对不重要,用u代表之。
对于古典线性回归模型(CLR模型) Yt=α+β+Xt ,普通最小二乘估计量(OLS估计 量)是最佳线性无偏估计量(BLUE)。
我们已在前面证明了无偏性,此外,由于:
ˆ xtYt xt2
——由上段结果,
= ktYt
其中 kt
xt xt2
这表明,ˆ 是诸样本观测值Yt(t=1,2,…,n)的线性函数,故ˆ
是线性估计量。
剩下的就是最佳性了,即 ˆ的方差小于等于β的其他任何线性
无偏估计量的方差,我们可以证明这一点,但由于时间关系,
从略。有兴趣的同学请参见教科书 P46-47。
四、ˆ和ˆ 的分布
我们在前面列出的假设条件(5)表明,
ut ~ N( 0, 2 ) , t= 1, 2, ...,n
即各期扰动项服从均值为0、方差为2的正态分布。
如何求出 Yt = + Xt + ut 中 和 的估计值
ˆ 和ˆ , 使得拟合的直线为最佳。
直观上看,也就是要求在X和Y的散点图上穿过 各观测点画出一条“最佳”直线,如下图所示 。
Y
* * Yˆ ˆ ˆX
Yt
* **
Yˆt
et * *
*
*
**
*
**
**
*
Xt
X
图2
残差
拟合的直线 Yˆ ˆ ˆX 称为拟合的回归线.
第三章 双变量线性回归模型
(简单线性回归模型)
(Simple Linear Regression Model)
第一节 双变量线性回归模型的估计
一. 双变量线性回归模型的概念
设 Y = 消费, X = 收入, 我们根据数据画出散点图
Y
*
*
*
*
*
图1
这意味着
Y = + X
(1)
我们写出计量经济模型
Y = + X + u
(2)
其中 u = 扰动项或 误差项
Y为因变量或被解释变量
X
X为自变量或解释变量
和 为未知参数
设我们有Y和X的n对观测值数据,则根据(2)式, 变量Y的每个观测值应由下式决定:
Yi = + Xi + ui , i = 1, 2, ...,n (3)
(3)式称为双变量线性回归模型或简单线性回归模 型。其中 和 为未知的总体参数,也称为回归模型 的系数( coefficients)。下标 i是观测值的序号。
xt2
xt2
1 xt2
(
xt
xt X t
xtut )
1 ( xt2
xt X t
xtut )
1 xt2
(
xt2 X
xt
xtut )
1 xt2
(
xt2
xtut )
即 ˆ
xt ut
xt2
两边取期望值,有:
E(ˆ ) xt E(ut ) xt2
(a)恰当描述
图2-3