第四章 多重共线性
第四章 多重共线性
●什么是多重共线性 ●多重共线性产生的后果 ●多重共线性的检验 ●多重共线性的补救措施
1
第一节 什么是多重共线性
●多重共线性的含义 ●产生多重共线性的背景
2
一、多重共线性的含义
在计量经济学中所谓的多重共线性 (Multi-Collinearity),不仅包括完全的多 重共线性(X之间存在精确的线性关系), 还包括不完全的多重共线性(X之间存在 近似的线性关系) 。
超出2倍标准差线→有严重的交叉相关性
未超出2倍标准差线→没有严重的交叉相关性
19
滞后
先行 交叉相 关系数
2倍标 准差线
结论:x2 和x3滞后 值存在严 重的1阶交 叉相关; 反向则存 在0阶交叉 相关。
20
结论: m1和m2滞 后之间存 在严重10 阶交叉相 关; 反向 存在严重 的10阶交 叉相关。
2、增大样本容量 ——常面临许多实际困难。
28
3、变换形式——模型差分法
一般而言,一般讲,增量之间的线性关系远 比总量之间的线性关系弱得多,以data4 为例,
29
所以差分后的模型可能降低出现共线性的可能 性,此时可直接估计差分方程(将Y和X、u都取 差分),
Yi 1X 1i 2 X 2i
回归中每个参数j都可以通过Y 对 Xj 的一元回归来估 计。
(2) rxi x j 1 ,解释变量间完全共线性。此时模型参 数将无法确定。
(3) 0<rxi x j < 1 ,解释变量间存在一定程度的线性关 系。实际中常遇到的情形。
6
二、产生多重共线性的背景
多重共线性产生的主要原因:
1.经济变量之间具有共同变化趋势。 2.在截面数据中,变量间从经济意义上具有密切 的关联度。 3.模型中包含滞后变量。 4.样本数据自身的原因。
2
没有多重共线性时,相关系数为0,方差膨 σ2 胀因子为1,从而表现为参数估计量的方差是 x22i (符合第二章满足古典假定条件下的内容)。
2
3
11
2、置信区 间趋于变大
3、假设检验容易 做出错误的判断
存在多重共线性时 参数估计值的方差与标准差变大
ˆ se( ˆ) ˆ t 2 2
P[ 2 t se( 2 ) 2 2 t se( 2 )] 1
23
三、直观判断法
1、参数估计值有很大的偶然性。 2、参数显著性检ቤተ መጻሕፍቲ ባይዱ未通过。 3、经济意义检验未通过。 4、相关系数大。
24
例:财政收入模型的Eviews估计结果
Variable
农业增加值 工业增加值 建筑业增加值 总人口 最终消费 受灾面积 截距
Coefficient
-1.907548
Std. Error
k X ki ui
可以有效地消除原模型中的多重共线性。 问题:差分会丢失一些信息;差分模型的 误差项可能存在序列相关,在具体运用时 要慎重。
30
4、利用约束条件——先验信息法 通过经济理论分析能够得到某些参数之 间的关系,可以将这种关系作为约束条件, 将此约束条件和样本信息结合起来进行约束
0.045947 6.458374 0.096022 0.003108 -0.027627 -5432.507
R-squared 0.989654 Adjusted R-squared 0.986955 S.E. of regression 1437.448 Sum squared resid 47523916 Log likelihood -256.7013 Durbin-Watson stat 1.654140
2、参数估计值的方差无限大
ˆ ) Var( 2
9
二、不完全多重共线性产生的后果
1、参数估计值的方差和协方差增大
2 1 σ 1 2 ˆ Var( β 2 ) = σ = 2 2 2 2 x (1r ) x (1r 2i 23 2i 23 )
ˆ , ˆ =σ 2 Cov 2 3 =
2 2 ^ ^ ^ ^ ^ ^
使t统计量值变小, 误导作出参数为0的推断 可能将重要的解释变量 排除在模型之外
使区间预测的“区间”变大
12
4、参数估计量经济含义不合理
对 X 的系数而言,当 X1 和 X2 具有一定的线性 相关性时,难以完全区分两者对Y增长的影响, ——i的估计式会趋向于不确定的形式。
21
二、方差膨胀因子法
以 X j 为被解释变量,对其他解释变量做辅助 回归。该辅助回归的可决系数为 R 2 , j
VIFj 是变量 X j 的方差扩大因子
(Variance Inflation Factor)
1 VIFj = 2 1- R j
22
经验规则
●方差膨胀因子越大,表明解释变量之间的多重共 性越严重。 方差膨胀因子越接近于1,多重共线性越弱。 ●一般用来判断严重多重共线性的标准: VIF ≥10( VIF ≥10,R2≥ 0.9)
0.342045 0.042746 0.765767 0.091660 0.042807 0.048904 8607.753
t-Statistic
-5.576888 1.074892 8.433867 1.047591 0.072609 -0.564916 -0.631118
Prob.
0.0000 0.2936 0.0000 0.3057 0.9427 0.5776 0.5342
最小二乘估计。
31
5、 横截面数据与时序数据并用 首先利用横截面数据估计出部分 参数,再利用时序数据估计出另外的 部分参数,最后得到整个方程参数的 估计。 方法实用性较差。 6、变量变换
(1) 相对指标 (2) 实际值 (3) 大类指标
32
二、逐步回归法
逐步回归法的步骤
1、用被解释变量对每一个所考虑的解释变量 做简单回归。 2、根据检验确定一个最优的基本回归方程; 以此方程为基础,逐步扩大模型规模。
多重共线性情况。
16
一、简单相关系数检验法
1、简单相关系数
利用解释变量之间的线性相关程度去判断是 否存在严重多重共线性的一种简便方法。 一般而言,如果每两个解释变量的简单相关 系数(零阶相关系数)比较高,例如大于0.8(这个
数字并不是通用的标准),则可认为存在着较严
重的多重共线性。
17
注意:
较高的简单相关系数只是多重共线性存在的 充分条件,而不是必要条件。因此并不能简单地
4
(二)不完全的多重共线性
实际中,常见的情形是解释变量之间存在不 完全的多重共线性。 对于解释变量 X 2 , X 3 , 1 , 2 , k,使得
X k,存在不全为0的数
1 2 X 2 3 X 3 ... k X k u 0
5
(三)解释变量的关系小节
r为相关系数 可能表现为三种情形: (1) rxi x j 0 ,解释变量间毫无线性关系。这时多元
(1)保留变量的情况
若新变量的引入改进了 R 2 和F检验,且回归 参数的t 检验在统计上也是显著的,则在模型中保 留该变量。
33
(2)剔除变量的情况 若新变量的引入未能改进 R 2和 F 检验,且对其 他回归参数估计值的 t 检验也未带来什么影响,则 认为该变量是多余变量,不需加入模型。 若新变量的引入使得 R 2和 F 值显著降低,显 著地影响了其他回归参数估计值的数值或符号,同 时本身的回归参数也通不过 t 检验,说明出现了严 重的多重共线性。
7
第二节 多重共线性产生的后果
完全多重共线性产生的后果 不完全多重共线性产生的后果
8
一、完全多重共线性产生的后果
1、参数的估计值不确定
在 X 2 和 X 3 完全共线性时,无法保持要 X 2
不变,而单独考虑 X 3变动对
Y 的影响。
——即 X 和 X 的影响不可区分,参数的估 2 3 计值无意义。
25
四、逐步回归检测法
逐步回归的基本思想
将变量逐个的引入模型,每引入一个解释变
量后,都要进行F检验,并对已经选入的解释
变量逐个进行t 检验。 当原来引入的解释变量由于后面解释变量的 引入而变得不再显著时,就存在多重共线性。 逐步回归法也是一种补救多重共线性的方法。
26
第四节 多重共线性的补救措施
3
(一)完全的多重共线性
对于解释变量 X 2 , X 3 , , X k ,如果存在不全为 0的 λ 数 ,使得 λ 1, 2 ,...λ k
1 2 X 2i 3 X 3i ... k X ki 0
i 1, 2,..., n
则称解释变量 X 2 , X 3 , X k 之间存在着完全的多重 共线性,此时x2对Y的解释作用能完全被x3替代。
• 综上,不完全多重共线性通常一般性表现为方 程整体可信(F检验和拟合优度检验通过)而 某些参数不可信(t检验或经济意义检验)不通 过的情况。
13
第三节 多重共线性的检验
● 简单相关系数检验法 ● 方差膨胀因子法 ● 直观判断法 ● 逐步回归检测法
14
哪些情形应关注多重共线性检验
(1)参数估计值不稳定;
解释变量间不能进行有效的“分工”。
39
(2)相关系数法
计算各解释变量的简单相关系数
40
简单相关系数矩阵表明除了x6以外,各解释变 量间确实存在严重的多重共线性。
41
计算各解释变量的交叉相关系数
●修正多重共线性的经验方法 ●逐步回归法
27
一、修正多重共线性的经验方法
1、剔除变量法
(1)简单相关系数法下, 选择相关系数较大的两个变量中相对不重 要的变量进行剔除。 (2)方差膨胀因子法下, 首先剔除最大的 方差膨胀因子对应的变量; 如果仍存在多重共线性,剔除第二大的。 ——要注意,如果去掉的是重要变量,通 常会导致偏误。