多重共线性的发现和检验
即使由于模型设定的疏忽使得模型存在完全多 重共线性问题,也比较容易发现。因为参数估 计失效马上会提示我们这方面的问题。
10
完全多重共线性问题的处理也比较简单, 只需要针对性地修改模型,放弃、调整 相互之间形成线性关系,导致完全多重 共线性的部分解释变量。
注意一般不需要也不应该放弃存在线性 关系的全部变量,否则容易使模型失去 意义。
第八章 多重共线性
1
本章结构
第一节 多重共线性及其影响 第二节 多重共线性的发现和检验 第三节 多重共线性的克服和处理
2
第一节 多重共线形及其影响
一、多重共线形及其分类 二、严格多重共线形及其危害 三、近似多重共线形的原因及其影响
3
一、多重共线性及其分类
多元线性回归模型要求解释变量之间不 存在线性关系,包括严格的线性关系和 高度的近似线性关系。
在模型存在近似多重共线性的情况下,参数的 最小二乘估计不仅仍然是唯一存在的,而且仍 然是最小方差线性无偏估计。
但问题是当存在比较严重的近似多重共线性问 题时,参数估计方差的绝对水平可能并不小, 而且会随着多重共线性程度的提高急剧上升。
13
如果 SSTk用记变量 X k 的离差平方和,SSRk 记变量 X k对其余 K 1个解释变量的回归
。
当第k 个解释变量与其他解释变量之间有相关
性时,0 Rk2 1。
当第k 个解释变量与其他解释变量之间有很强
的相关性,也就是模型存在很强的近似多重共
线性时,Rk2 接近1,此时 bk的方差 Var(bk ) 会变
得非常大。
15
参数估计量方差的增大,必然导致参数估计的 不稳定性提高,容易出现参数符号和数值大小 的异常情况,从而使最小二乘估计的有效性受 到很大影响。
述正规方程组中的第二式可得:
b1 x1(2x1) b2 x2(2x1) y(2x1)
i
i
i
得到:b1 i x12 b2 i x2 x1 i yx1
很显然,这个方程与上述正规方程组的
第一个方程是完全相同的。
8
这意味着我们得到了包含两个未知参数估计量 的两个相同的方程,这时该方程组有无穷组解 而不是有唯一一组解。
18
因为多重共线性是通过对参数估计方差的放大 作用对多元线性回归产生不利影响的,而解释 变量的共线性程度与参数估计量方差的大小有 一致性,因此可以根据参数估计方差被“放大” 的程度,判断模型是否存在多重共线性问题, 以及是由哪些变量引起的共线性问题。
以参V数a估r(b计k )bk 为SσS例T2 k。b1k的1R方k2 差S为σST2:k
正是因为这些原因,近似多重共线性是 我们重点关心的问题,在多数情况下多 重共线性指的就是近似多重共线性。
17
第二节 多重共线性的发现和检验
多重共线性的根源是解释变量之间的相关性, 因此分析解释变量之间的相关性,进行单相关 或多元相关性的分析检验,是发现和判断多重 共线性问题的基本方法。
当然,解释变量之间总是有不同程度相关性的, 因此要认定模型确实存在较严重、必须处理的 共线性问题,必须结合参数估计的符号、大小 和显著性等是否异常,或者参数估计是否表现 出很大不稳定性(可通过改变少量数据检验) 等进行判断。
b1 x12 b2 x1x2 yx1
i
i
i
b1 x1x2 b2 x22 yx2
i
i
i
其中 x1、x2 和 y分别是 X1、X 2和 Y的离差。
设 X1和 X 2两个变量之间有严格的线性关 系 X2 2X1,这个模型当然就存在完全的 多重共线性。
7
此时 x2 2x1也成立。把该关系式代入上
多重共线性正是通过这样的机制,对多元线性 回归模型的最小二乘估计产生不利影响,其后 果常表现为参数估计不稳定,数据的很小变化 会引起参数估计值的较大变化,而且参数估计 的异常值增多,包括显著性水平不符合实际, 或反映解释变量作用方向的符号相反等。
16
近似多重共线性表现形式和原因的多样 性,数据问题导致多重共线性的隐蔽性, 使得近似多重共线性的发现、判断和处 理也比较困难。
这实际上意味着被解释变量究竟受哪些变量的 影响变得很不清楚,变量关系是无法识别的。
有完全多重共线性的多元线性回归模型都无法 顺利进行参数估计,会使多元线性回归模型参 数估计失败,回归分析无法进行。
9
完全多重共线性虽然破坏性很大,却不是最需 要担心的问题。
因为完全多重共线性是由于模型设定问题,把 有严格联系的变量引进同一个模型,或者虚拟 变量设置不当引起的,因此只要在建模时适当 注意就可以避免。5源自二、严格多重共线形及其危害
完全多重共线性不可能由于数据问题引 起,通常是由于模型设定问题,把有严 格联系的变量引进同一个模型,或者虚 拟变量设置不当引起的。
设两个解释变量的线性回归模型为:
Y 0 1X1 2 X 2 回归方程为:Yˆ b0 b1X1 b2 X2
6
求参数最小二乘估计量的正规方程组为:
但事实上由于模型设定和数据等各方面 的问题,模型的解释变量之间很可能存 在某种程度的线性关系。这时候称多元 线性回归模型存在多重共线性问题。
4
多重共线性可以分为两类。 如果多元线性回归模型中,存在两个或
多个解释变量之间存在严格的线性关系, 则称为“完全多重共线性”,也称为 “严格的多重共线性”。 而解释变量之间存在近似的而不是严格 的线性关系,这种情况被称为“近似多 重共线性”。
11
三、近似多重共线形的原因及其影响
近似多重共线性既与变量选择有关,也 与数据有关。
虽然解释变量的选择不当,把内在相关 性较强的变量引进同一个模型,是导致 近似多重共线性的重要原因,但近似多 重共线性更经常的原因是经济数据的共 同趋势。
12
近似多重共线性不会导致参数估计失效,最小 二乘参数估计能够得到唯一解。
平方和,Rk2表示原模型第k 个解释变量对
其余 K 1个解释变量回归的决定系数,
那么bk的方差可以写成:
Var(bk )
σ2 SSTk 1
SSRk SSTk
σ2 SSTk 1
Rk2
14
如果第k个解释变量与其余 K 1个解释变量完
全没有相关性,那么 Rk2
0,Var(bk )
σ2 SSTk