一元线性回归模型1.一元线性回归模型有一元线性回归模型(统计模型)如下,y t = β0 + β1 x t + u t上式表示变量y t 和x t之间的真实关系。
其中y t 称被解释变量(因变量),x t称解释变量(自变量),u t称随机误差项,β0称常数项,β1称回归系数(通常未知)。
上模型可以分为两部分。
(1)回归函数部分,E(y t) = β0 + β1 x t,(2)随机部分,u t。
图2.1 真实的回归直线这种模型可以赋予各种实际意义,收入与支出的关系;如脉搏与血压的关系;商品价格与供给量的关系;文件容量与保存时间的关系;林区木材采伐量与木材剩余物的关系;身高与体重的关系等。
以收入与支出的关系为例。
假设固定对一个家庭进行观察,随着收入水平的不同,与支出呈线性函数关系。
但实际上数据来自各个家庭,来自各个不同收入水平,使其他条件不变成为不可能,所以由数据得到的散点图不在一条直线上(不呈函数关系),而是散在直线周围,服从统计关系。
随机误差项u t中可能包括家庭人口数不同,消费习惯不同,不同地域的消费指数不同,不同家庭的外来收入不同等因素。
所以在经济问题上“控制其他因素不变”是不可能的。
回归模型的随机误差项中一般包括如下几项内容,(1)非重要解释变量的省略,(2)人的随机行为,(3)数学模型形式欠妥,(4)归并误差(粮食的归并)(5)测量误差等。
回归模型存在两个特点。
(1)建立在某些假定条件不变前提下抽象出来的回归函数不能百分之百地再现所研究的经济过程。
(2)也正是由于这些假定与抽象,才使我们能够透过复杂的经济现象,深刻认识到该经济过程的本质。
通常线性回归函数E(y t) = β0 + β1 x t是观察不到的,利用样本得到的只是对E(y t) = β0 + β1 x t 的估计,即对β0和β1的估计。
在对回归函数进行估计之前应该对随机误差项u t做出如下假定。
(1) u t 是一个随机变量,u t 的取值服从概率分布。
(2) E(u t) = 0。
(3) D(u t) = E[u t - E(u t) ]2 = E(u t)2 = σ2。
称u i 具有同方差性。
(4) u t 为正态分布(根据中心极限定理)。
以上四个假定可作如下表达。
u t~ N (0,σ2)。
(5) Cov(u i, u j) = E[(u i - E(u i) ) ( u j - E(u j) )] = E(u i, u j) = 0, (i≠j )。
含义是不同观测值所对应的随机项相互独立。
称为u i 的非自相关性。
(6) x i是非随机的。
(7) Cov(u i, x i) = E[(u i - E(u i) ) (x i - E(x i) )] = E[u i (x i - E(x i) ] = E[u i x i - u i E(x i) ] = E(u i x i)= 0.u i 与x i 相互独立。
否则,分不清是谁对y t 的贡献。
(8) 对于多元线性回归模型,解释变量之间不能完全相关或高度相关(非多重共线性)。
在假定(1),(2)成立条件下有E(y t ) = E(β0 + β1 x t + u t ) = β0 + β1 x t 。
2.最小二乘估计(OLS ) 对于所研究的经济问题,通常真实的回归直线是观测不到的。
收集样本的目的就是要对这条真实的回归直线做出估计。
怎样估计这条直线呢?显然综合起来看,这条直线处于样本数据的中心位置最合理。
怎样用数学语言描述“处于样本数据的中心位置”?设估计的直线用t y ˆ =0ˆβ+1ˆβ x t 表示。
其中t y ˆ称y t 的拟合值(fitted value ),0ˆβ和1ˆβ分别是 β0 和β1的估计量。
观测值到这条直线的纵向距离用t uˆ表示,称为 残差。
y t =t y ˆ+t u ˆ=0ˆβ+1ˆβ x t +t u ˆ 称为估计的模型。
假定样本容量为T 。
(1)用“残差和最小”确定直线位置是一个途径。
但很快发现计算“残差和”存在相互抵消的问题。
(2)用“残差绝对值和最小”确定直线位置也是一个途径。
但绝对值的计算比较麻烦。
(3)最小二乘法的原则是以“残差平方和最小”确定直线位置。
用最小二乘法除了计算比较方便外,得到的估计量还具有优良特性。
(这种方法对异常值非常敏感)设残差平方和用Q 表示, Q =∑=Ti tu12ˆ=∑=-Ti t t yy 12)ˆ(=∑=--Ti t t x y 1210)ˆˆ(ββ,则通过Q 最小确定这条直线,即确定0ˆβ和1ˆβ的估计值。
以0ˆβ和1ˆβ为变量,把Q 看作是0ˆβ和1ˆβ的函数,这是一个求极值的问题。
求Q 对0ˆβ和1ˆβ的偏导数并令其为零,得正规方程,ˆβ∂∂Q = 2∑=--Ti t t x y 110)ˆˆ(ββ(-1) = 0 (1)1ˆβ∂∂Q = 2∑=--T i t t x y 110)ˆˆ(ββ(- x t ) = 0 (2) 下面用代数和矩阵两种形式推导计算结果。
首先用代数形式推导。
由(1)、(2)式得,∑=--Ti t t x y 110)ˆˆ(ββ= 0 (3)∑=--Ti t t x y 110)ˆˆ(ββx t = 0 (4)(3)式两侧用除T ,并整理得,0ˆβ= x y 1ˆβ- (5) 把(5)式代入(4)式并整理,得,])(ˆ)[(11∑=---Ti ttx x y yβx t = 0 (6) ∑∑==---Ti t tTi t tx x xx y y111)(ˆ)(β= 0 (7)1ˆβ= ∑∑--ttt txx x y y x )()( (8)因为∑=-Ti ty yx 1)(= 0,∑=-Ti tx xx 1)(= 0,分别在(8)式的分子和分母上减∑=-Ti ty yx 1)(和∑=-Ti tx xx 1)(得,1ˆβ= ∑∑∑∑------)()()()(x xx x x x y yx y y x ttttt t(9)=∑∑---2)())((x x y y x x tt t(10) 下面用矩阵形式推导 0ˆβT +1ˆβ (∑=Ti t x 1) = ∑=Ti t y 1ˆβ∑=Ti t x 1+1ˆβ(∑=Ti tx 12) = ∑=Ti t t y x 1⎥⎥⎦⎤⎢⎢⎣⎡∑∑∑2t tt x x x T⎥⎥⎦⎤⎢⎢⎣⎡10ˆˆββ=⎥⎥⎦⎤⎢⎢⎣⎡∑∑t t t y x y ⎥⎥⎦⎤⎢⎢⎣⎡10ˆˆββ=12-⎥⎥⎦⎤⎢⎢⎣⎡∑∑∑t t t x x x T ⎥⎥⎦⎤⎢⎢⎣⎡∑∑t t t y x y =22)(1∑∑-t t x x T ⎥⎥⎦⎤⎢⎢⎣⎡--∑∑∑T x x x t t t 2⎥⎥⎦⎤⎢⎢⎣⎡∑∑t t t y x y这种形式在单位根检验的理论分析中非常有用。
3.最小二乘估计量0ˆβ和1ˆβ的特性(1) 线性特性这里指0ˆβ和1ˆβ分别是y t 的线性函数。
1ˆβ= ∑∑---2)())((x x y y x x ttt=∑∑∑----2)()()(x x x xy y x x tttt=∑∑--2)()(x x y x x ttt令 k t =∑--2)()(x x x x t t ,代入上式得1ˆβ= ∑ k t y t 可见1ˆβ是y t 的线性函数,是β1的线性估计量。
同理β0也具有线性特性。
(2) 无偏性 利用上式E(1ˆβ) = E(∑ k t y t ) = E[ ∑ k t (β0 + β1 x t + u t ) ] = E ( β0 ∑ k t + β1 ∑ k t x t + ∑ k t u t ) = E[β1 ∑ k t (x t -x ) + ∑ k t u t ] = β1 + E(∑ k t u t ) = β1(3) 有效性β0, β1的OLS 估计量的方差比其他估计量的方差小。
Gauss-Marcov 定理:若u t 满足E(u t ) = 0,D(u t ) = σ 2,那么用OLS 法得到的估计量就具有最佳线性无偏性。
估计量称最佳线性无偏估计量。
最佳线性无偏估计特性保证估计值最大限度的集中在真值周围,估计值的置信区间最小。
上面的评价是对小样本而言,若是对大样本而言还应讨论估计量的渐近无偏性,一致性和渐近有效性。
先给出渐近分布的概念。
注意:分清4个式子的关系。
(1) 真实的统计模型,y t = β0 + β1 x t + u t (2) 估计的统计模型, y t =0ˆβ+1ˆβ x t +t u ˆ (3) 真实的回归直线,E(y t ) = β0 +β1 x t (4) 估计的回归直线,t y ˆ=0ˆβ+1ˆβ x t4.OLS 回归直线的性质(1) 残差和等于零,∑t uˆ= 0 由正规方程2∑ (y t -0ˆβ-1ˆβ x t ) (-1) = 0得 ∑ (y t -0ˆβ-1ˆβ x t ) = ∑ (y t -t y ˆ) = ∑ (t u ˆ) = 0 (2) 估计的回归直线 t y ˆ =0ˆβ+1ˆβ x t 过(x ,y )点。
正规方程 ∑ (y t -0ˆβ-1ˆβ x t ) = 0两侧同除样本容量T ,得y =0ˆβ+1ˆβx 。
得证。
(3) y t 的拟合值的平均数等于其样本观测值的平均数,t yˆ=y 。
t yˆ=T 1∑t y ˆ= T 1∑ (0ˆβ+1ˆβ x t ) = 0ˆβ+1ˆβx = y 。
得证。
(4) Cov(t uˆ, x t ) = 0 只需证明 ∑ ( x t -x )t u ˆ= ∑ x t t u ˆ- ∑x t u ˆ= ∑ x t t u ˆ= ∑ x t (t y ˆ-0ˆβ-1ˆβ x t ) = 0。
上式为正规方程之一。
(5) Cov(t uˆ,t y ˆ) = 0 只需证明 ∑ (t y ˆ-y )t u ˆ= ∑t y ˆt u ˆ- ∑y t u ˆ= ∑t y ˆt u ˆ= ∑t u ˆ(0ˆβ+1ˆβ x t ) = 0ˆβ∑t u ˆ+1ˆβ∑t u ˆx t = 0 5.y t 的分布和1ˆβ的分布 根据假定条件u t ~ N (0, σ 2 ),E(y t ) = E(β0 + β1 x t + u t ) = β0 + β1 x t + E(u t ) = β0 + β1 x t 。
Var(y t ) = Var (β0 + β1 x t + u t ) = Var (β0 + β1 x t ) + Var (u t ) = σ 2 y t 是u t 的线性函数,所以y t ~ N (β0 + β1 x t , σ 2 )。
可以证明E(1ˆβ) = β1, Var (1ˆβ) = -2)(1x x t σ 2,1ˆβ是y t 的线性函数(1ˆβ= ∑ k t y t ),所以 1ˆβ ~ N (β1, -2)(1x x t σ 2 )。