当前位置:文档之家› 第8章 多重共线性:解释变量相关会有什么后果

第8章 多重共线性:解释变量相关会有什么后果

X3i 3000 2 X 2i
Yi A1 A2 X 2 i A3 (300 2 X 2 i ) ui
A1 300 A3 A2 2 A3 X 2 i ui

C1 A1 300 A3 C 2 A2 2 A3
ˆ ˆ X ˆ X ˆ 3t X 3.12 31.2 1t 32.1 2t
• 利用以上偏回归系数,3个变量之间的偏相关系数 可定义如下:
ˆ ˆ r12.3 12.3 21.3
ˆ ˆ r13.2 13.2 31.2
ˆ ˆ r23.1 23.1 32.1
案例分析 一、研究的目的要求
提出研究的问题——为了规划中国未来国内旅游产业 的发展,需要定量地分析影响中国国内旅游市场发展 的主要因素。
二、模型设定及其估计
影响因素分析与确定——影响因素主要有国内旅游 人数 X 2,城镇居民人均旅游支出 X 3,农村居民人均
旅游支出 X 4 ,并以公路里程次 X 5 和铁路里程
8.7鸡肉需求函数[方程(8.15)]的共线性诊断 1.相关矩阵
鸡肉需求函数[方程(8.15)]的共线性诊断 2.辅助回归
8.8 如何解决多重共线性:补救措施
• • • • • • 从模型中删掉一个变量 获取额外的数据或新的样本 重新考虑模型 参数的先验信息 变量变换 其他补救措施
(1)从模型中删掉一个变量
留该变量。
若新变量的引入未能改进 R 2 和 F 检验,且对其他回 归参数估计值的t 检验也未带来什么影响,则认为该 变量是多余变量。 若新变量的引入未能改进 R 2 和 F 检验,且显著地影 响了其他回归参数估计值的数值或符号,同时本身的 回归参数也通不过t 检验,说明出现了严重的多重共 线性。
(6)其他补救措施 因子分析、岭回归、主成分分析等方法
补充:逐步回归法
(1)用被解释变量对每一个所考虑的解释变量做简
单回归。
(2)以对被解释变量贡献最大的解释变量所对应的
回归方程为基础,按对被解释变量贡献大小的顺
序逐个引入其余的解释变量。
若新变量的引入改进了 R 2 和 F 检验,且回归参
数的t 检验在统计上也是显著的,则在模型中保
Yi C1 C2 X 2i ui (8 4)
对(8-4)进行回归得:
ˆ 49.667 2.1576X Y i 2i se (0.746)(0.1203)
(8 7)
t (66.538)(-17.935) (9.6417) r 2 0.9757
结论:解释变量之间存在完全相关或者完全多重 共线性时,不可能获得所有参数的唯一估计值。
• 但是这一补救措施比多重共线性本身还糟糕。因 为在构建经济模型时,是以一定的经济理论为基 础的,因此删除这些变量又会导致模型设定错误。 • 如果仅仅为了消除多重共线性而从模型中删除一 个变量,可能得到参数的有偏估计。
• 多重共线性是一个样本特征,因此如果同样一组 变量换一组样本可能多重共线性就不那么高(当 然也可能更高)。 • 但是收集数据的成本或许很高。
回归结果显示,价格与工资高度相关,相关系数为0.9984,即存在近似完全线性关系。 顺便指出:在只有两个解释变量的情况下,相关系数 用于共线性程度的度量,多于两个不可以。
多重共线性的来源
(一)数据采集方法问题 (二)模型或从中取样的总体受到约束 (三)模型设定问题 (四)一个过度决定的模型
8.3 多重共线性的理论后果
• 如果研究的目的不仅仅是预测,而且还要 可靠地估计出模型的参数,则严重的共线 性就是一件“坏事”,因为它导致了估计 量的标准误增大。
8.7
1960-1982年期间美国的鸡肉需求
1960-1982年美国的人均鸡肉需求量Y,人均 实际可支配收入X2,鸡肉的实际零价格X3,猪 肉的实际零售价格X4,牛肉的实际零售价格X5。 估计的需求函数为:
2 2
VIF被称为方差膨胀因子。随着R2的增大, var ˆ 也增大,或者说膨胀了。
j
1 VIFj (1 R 2 j)
注意:诊断多重共线性的方法很多,但是没 有哪一种能够彻底诊断多重共线性问题。多 重共线性是一个程度问题,是一种样本现象。
补充:偏回归系数
• 已知,样本相关系数
r=
• • • • • (1)OLS估计量的方差和标准误较大。 (2)置信区间变宽。 (3)t值不显著 。 (4)R2 值较高,但t值并不都是统计显著的。 (5)OLS估计量及其标准误对数据的微小变化非 常敏感,即它们很不稳定。 • (6)回归系数符号有误。 • (7)难以评估各个解释变量对回归平方和(ESS) 或者R2的贡献。
如何解释这些结果,做价格X2对工资X4的关系图, 如下
图8-2 工资X 4和价格 关系 X2
• 回归结果为
X 4 i 299.92 2.0055X 2 i ei se (0.6748)(0.1088) t (444.44)(-18.44) (9.6417) r 2 0.977
(8 8)
t (1.2107)(-3.4444) ( 0.7971) r 2 0.9778
• 回归结果显示: • (1)模型(8-2)是可估计的。 • (2)两次估计的价格系数都是负的,并且差别不大, 这和预期的价格系数方向一样。相对而言,(8-7)中 价格的t统计量和标准误都略高于(8-8)。 • (3)R2略有增加,0.0021。 • (4)工资的系数是统计不显著的,符号也有错误。 • (5)尽管收入变量不显著,但若假设B2=B3=0,但是 根据(4-49)的F检验很容易拒绝原假设。
8.2 近似或者不完全多重共线性的情形
进行经济数据的分析时,变量间常常表现出不完全 线性相关,但共线性程度很高的情形,这就是近似、 不完全或者高度多重共线性的情形。 用表8-1中的数据估计(8-2)得到如下结果:
ˆ 145.37 2.797X 0.3191X Y i 2i 4i se (120.06)(0.8122)(0.4003)
在LIV(变量线性)模型中,收入系数是统计不显 著的,但猪肉价格系数却是显著的。 产生这一变化的原因是收入与价格之间存在高度 共线性。
(4)参数的先验信息
• 根据先验研究了解有关参数的某些信息,而这些 信息适用于当前样本。 • 例如饰品需求函数中,收入系数为0.9,并且统 计显著。 • 如果认为收入系数(0.9)[0.87164]没有变化,则 可以重新估计方程。 • 需求量=B1+B2价格+B3工资+u • =B1+B2价格+0.9工资+u • 需求量- 0.9工资= B1+B2价格+u • 这样自变量只有一个,不存在多重共线性问题。
用表8-1中的数据拟合模型,计算机拒绝估计 回归。做价格(X2)对收入(X3)的回归, 得如下关系图。
这说明收入与价格完全线性相关,即完全共线性。所有 不能对方程(8-1)进行回归。
将收入与价格之间的关系带入(8-1)得
Yi A1 A2 X 2i A3 X3i ui (8 1)
(四)辅助回归 做每个解释变量对其他剩余变量 的回归并计算相应的R2值。其中的每 一个回归都被称为是从属或者辅助回 归。
例子
(五)方差膨胀因子
Yi 1 2 X 2i 3 X 3i k X ki ui
ˆ var j

VIFj 2 2 2 x j 1 R j x j
• 这一方法的缺陷在于先验信息并不总是可获得的。 更致命的是,即使能够获得这一信息,但是假设 先验信息在当前样本仍是有效的,这样的要求显 得“很高”。
• 当然如果各个样本间的收入效应预期变化不大, 并且得知有关收入系数的先验信息,那么这一补 救措施则是行之有效的。
(5)变量变换
• 通过对模型中的变量进行变换也能够降低共线 性程度。
为什么讨论多重共线性?
1.在近似共线性的情形下,OLS估计量仍然是 无偏的。 2.近似共线性并未破坏OLS估计量的最小方差 性。 X 之间不是线 3.即使在总体回归方程中变量 X 变量之间可 性相关的,但在某个样本中, 能线性相关。 【 多重共线性问题是一个样本问题 】
8.4 多重共线性的实际后果
8.5 多重共线性的诊断
一、多重共线性是一个样本特性,是一个样本现象。 多重共线性是一个程度问题而不是存在与否问题。 多重共线性针对的是解释变量,因此是样本特征,不是 总体特征。
二、侦察多重共线性的规则【线索】
(一)R2值高而显著的t比率少 (二)解释变量之间有高度的两两相关 可以计算两两变量之间的相关系数,如果有些相关系数 很高(超过0.8) ,则可能存在较为严重的共线性。但是 这一标准并不十分可靠。 (三)检查偏相关系数 假设3个解释变量X2,X3,X4,X2与X3的相关系数为r23,X2与X4 的相关系数为r24,X3与X3的相关系数为r34。假如r23=0.9,说 明X2与X3之间高度相关,但是若考察偏相关系数r23,4,即变量 X4保持不变的条件下X2与X3之间的相关系数却仅为0.43。那么 根据偏相关系数不能说明X2与X3之间的共线性程度很高。 但是偏相关系数不能保证对多重共线性提供一个准确的指南。
(2)获取额外的数据或新的样本
• 增加样本容量也可以消减多重共线性。但是和换 一组样本一样,收集数据的成本或许很高。
(3)重新考虑模型
• 在LIV(变量线性)模型中,共线性可能不像双对 数模型那样高。 • 以表7-8中的数据来拟合LIV模型,得如下结果:
37.232-0.00501X -0.6122X +0.1984X +0.0695X Y 2 3 4 5 t (10.015)(1.0241) (-3.753)(3.1137)(1.3631) r 2 0.9426 r 2 =0.9298
相关主题