当前位置:
文档之家› 第4章 线性回归经典假设的分析
第4章 线性回归经典假设的分析
3、 0 rxi x j 1 ,解释变量间存在一定程度的线 性关系。实际中常遇到的是这种情形。随着共线 性程度的加强,对参数估计值的准确性、稳定性 带来影响。因此我们关心的不是有无多重共线性, 而是多重共线性的程度。 这里需要说明的是,在解决实际问题的过程中, 经济变量在时间上有共同变化的趋势。如在经济 上升时期,收入、消费、就业率等都增长,当经 济处于收缩期,收入、消费、就业率等都下降或 增长率下降。当这些变量同时做解释变量就会给 模型带来多重共线性问题。另外,解释变量与其 滞后变量同作解释变量时,也会引起多重共线性。
三、逐步回归法
逐步回归法的基本思想是,首先用被解释变量对每一个 所考虑的解释变量做简单回归,然后以对被解释变量贡献 最大的解释变量所对应的回归方程为基础,以对被解释变 量贡献大小为顺序逐个引入其余的解释变量。 这个过程会出现3种情形。①若新变量的引入改进了和检 验,且回归参数的t检验在统计上也是显著的,则该变量 在模型中予以保留。②若新变量的引入未能改进和检验, 且对其他回归参数估计值的t检验也未带来什么影响,则 认为该变量是多余的,应该舍弃。③若新变量的引入未能 改进和检验,且显著地影响了其他回归参数估计值的符号 与数值,同时本身的回归参数也通不过t检验,这说明出 现了严重的多重共线性,舍弃该变量。
3、先验信息。 如果通过经济理论分析能够得到某些参数之间的 线性关系,可以将这种线性关系作为约束条件, 将此约束条件和样本信息结合起来进行最小二乘 估计。
为了进一步说明问题,假设我们考虑模型
Yi 1 2 X 2i 3 X 3i i
如果依据长期的经验分析可以认为两个解释变量 的系数相互关系为 3 0.3 2 ,运用这个先验信息 有
4.1.3 多重共线性的克服及岭回归方法
如果多重共线性较为严重,我们该如何处理?一 般来说没有一个十分严格的克服多重共线性的方 法。但是,可以尽量的降低线性回归模型中存在 的多重共线性。 这里介绍一些经验规则和理论方法以便克服或降 低多重共线性问题时参考。
一、克服多重共线性的经验方法
1、剔除变量。 面对严重的多重共线性,最简单的克服方法之一 就是剔除一个共线性的变量。但是,如果从模型 中剔除的是重要的解释变量,可能会引起模型的 设定误差。所谓设定误差是指在回归分析中使用 了不正确的模型。我们知道,在解释粮食产量的 模型中,应该包括播种面积和施肥量,那么剔除 播种面积这个变量,就会构成设定误差。当模型 中出现设定误差时,线性模型的分析出现的问题 会更为严重,其中问题之一是当出现设定误差时, 回归系数的估计值是有偏的,这与多重共线性相 比是一个更为严重的问题。
i j
三、特征值与病态指数。 根据矩阵行列式的性质,矩阵的行列式等于其特 征根的连乘积。因而当行列式 XX 0 时,矩 阵 X’X 至少有一个特征根近似等于零。反之,可 以证明,当矩阵X’X至少有一个特征根近似等于 零时,X的列向量之间必存在多重共线性。
实际上,设 是矩阵X’X的一个近似等于零特征根,c是 对应于该特征根的特征向量,则 XXc c 0 (4.2) 对(4.2)式两边左乘c’,即有 cXXc 0 Xc 0 即 从而 c0 c1 X 1i c2 X 2i ck X ki 0 (4.3) 这里(4.3)式就反映出了前面所定义的多重共线性。我 们应该注意到,矩阵X’X有多少个特征根近似为零,设计 矩阵就会有多少个类似(4.3)式多重共线性关系,并且 这些多重共线关系系数向量就等于接近于零的那些特征根 对应的特征向量。
另外,特征根近似为零的标准可以用下面的病态指数 (condition index)来确定。记X’X的最大特征根为 m , 称 m j 0,1,, k CI j (4.4) j 为特征根的病态指数。注意特征根的个数与病态指数都包 含了常数项在内。 病态指数度量了矩阵 X X 的特征根散布程度,可以用来判 断多重共线性是否存在以及多重共线性的严重程度。 一般认为,当0<CI<10时,设计矩阵X没有多重共线性; 当10<CI<100时,认为设计矩阵X存在较强的多重共线性; 当CI>100时,则认为存在严重的多重共线性。
ˆ β
然而,在实际问题中,某些解释变量之间不是完 全线性相关的或接近完全线性相关的。 就模型中解释变量的关系而言,有三种可能。 rxi x j 0,解释变量间毫无线性关系,变量间相 1、 互正交。这时已不需要多重回归,每个参数j都 可以通过Y对 X j的一元回归来估计。 rxi x j 1 ,解释变量间完全共线性。此时模型参 2、 数将无法确定。直观地看,当两变量按同一方式 变化时,要区别每个解释变量对被解释变量的影 响程度就非常困难。
其中,ΔYi Yi Yi 1
, ,
ΔX 2i X 2i X 2i 1 ,
ΔX ki X ki X ki1
Δ i i i 1
, 。
一般情况,差分变换后变量之间的相关性比变换 前要弱的多,所以差分后的模型可以有效地降低 出现共线性的现象。 然而,差分变换常常会引起信息的丢失,使自由 度减少了一个,也可能会使得模型的干扰项出现 序列相关,即
E ( Δ i Δ i 1 ) E[( i i 1 )( i 1 i 2 )] E ( i i 1 i i 2 i 1 i 1 i 2 )
2
E ( i 1 ) 2
2
这样就违背了经典线性回归模型的相关假设,因 此在具体应用时要慎重。关于序列相关的有关内 容将在] E[(XX) 1 X(Xβ ε)] β (XX) 1 XE(ε) β E(β
然而,当 rx x 1 时, X X 接近降秩矩阵, 2 1 ˆ X X 0 Var ( β ) ( X X ) 即 , 变得很大。 ˆ β 所以 丧失有效性。 以二元解释变量线性模型为例,当 rx x 0.8 时, ˆ) ˆ Var (β 为 rxi x j 0 时 β 方差的2.78倍。当 rx x 0.95 时, ˆ) Var (β 为 rxi x j 0 时的10.26倍。
二、一阶差分方法
一阶差分法就是将原模型变形为差分模型的形式, 进而降低多重共线性的一种方法。 将原模型 Yi 1 2 X 2i 3 X 3i k X ki i 经过一阶差分变换为
ΔYi 2 ΔX 2i 3 ΔX 3i k ΔX ki Δ i
Yi 1 2 X 2i 3 X 3i i 1 2 X i i 1 2 X 2i 0.3 2 X 3i i
ˆ ,然 其中, X i X 2i 0.3X 3i 。这样可以估计出 2 ˆ 。 后可以得到 3
另外,我们应该注意到,横截面数据与时间序列 数据并用也是先验信息法的一种变形,这种方法 称为数据并用(pooling the data)。其基本思想 是,首先利用横截面数据估计出部分参数,再利 用时间序列数据估计另外的部分参数,最后得到 整个方程参数的估计。
第4章 线性回归经典假设的分析
多重共线性 异方差性 序列相关性 实证分析
第一节
多重共线性
多重共线性含义及引起的后果 多重共线性的检验 多重共线性的克服及岭回归方法
4.1.1 多重共线性含义及引起的后果
一、多重共线性的含义 “多重共线性”一词由R. Frisch 1934年提出, 它原指模型的解释变量间存在线性关系。针对 总体回归模型(2.2)式 Y Xβ ε , 的经典假设条件,要求 rank(XX) rank( X) k n (4.1) 即要求矩阵X满秩。X满秩就能保证行列式 ˆ 。如 XX 0 ,从而可以得到参数的估计值 β 果这个假设条件不满足,即 rank( X) k ,就表 明某些解释变量之 间存在完全的线性相关关系, 在这种情形下,根本无法求出参数的估计值 。
四、岭回归法
当在建立计量经济模型存在多重共线性时,最小 二乘估计的性质就不够理想,有时甚至遭到破坏。 在这种情况下,要从本质上克服多重共线性,就 需要一些新的估计方法。近四十年来,人们提出 了许多新的估计方法,其在理论上最有影响并得 到广泛应用的就是岭估计(ridge regression)。 为了能够较为深入了解岭回归方法,并进一步说 明岭估计量的优良性,我们引进评价一个估计优 劣的标准——均方误差(mean squared errors)。
ˆ*) b E( 2 2 3 32
2、增加样本容量。 由于多重共线性是一个样本特征,所以有可能在 同样变量的另一样本中共线性问题并不严重。这 样只需要增大样本容量就能减轻共线性问题。看 来增加样本容量可能是克服共线性的一个好方法, 但在实际解决问题时,我们补充数据扩大样本容 量并不是一件容易的事情,特别是在建立计量经 济模型时所希望的解释变量的值就更困难。
3i
1i ) )
2 i 1i
所以,
(4.5) 当解释变量之间存在多重共线性时,b32 是不会为 ˆ*) 零的,从而由(4.5)式知, E( 2 2 这说明如果因为有多重共线性而将一共线变量删 除会导致有偏估计,而有偏估计对参数的估计来 说,是一个更为严重的问题。在这里我们需要提 及的是,在不完全共线的情形下,OLS估计量仍 然是BLUE。
x y x Y x ( X X x x x x x X x X x x x X x x x x ˆ b x
2i i 2i i 2 2i 2i 1 2 2i 3 2 2 2i 2i 1 2i 2 2i 2i 3 2i 3i 2 2i 2i 3i 2 i 1i 2 2i 2 3 2 2i 2 i 1i 2 2i 2 3 32
二、多重共线性引起的后果
如果解释变量之间存在明显的相关关系,即存在 严重的多重共线性,将会影响模型的构建。 1 r 1 ( X X ) 1、当 ,X为降秩矩阵,则 不 xi x j ˆ (XX) 1 XY β 存在, 不可计算。 ˆ 仍具有无 2、若 rxi x j 1 ,即使 rx x 1 ,β 偏性,即