当前位置:文档之家› 回归模型中多重共线性的情形及其处理

回归模型中多重共线性的情形及其处理

丫= 1+ 8人-4人+ 3为=1 + 8人-(3X2+ 2)+ 3为=7+ 8人-9%(1.5)在(1.4)中,X2的系数为12,表示丫与为成正比例关系,即正相关;而在(1.5)中,X2的系数为-9,表示丫与X?成负比例关系,即负相关。

如此看来,同一个方程丫= 1+ 4片+ 3X2变换出的两个等价方程,由于不同的因式分解和替换,导致两个方程两种表面上矛盾的结果。

实际上,根据X1 = 3为+ 2式中的X1与为的共线性,X1约相当于3X2, 在(1.4)减少了3人,即需要用9个X2来补偿;而在(1.5)增加了4人, 需要用12个X2来抵消,以便保证两个方程的等价性,这样一来使得(1.5)中为的系数变为了负数。

从上述分析看来,由于X i与勺的共线性,使得同一个方程有不同的表达形式,从而使得丫与为间的关系难以用系数解释。

2•对多重线性关系的初步估计与识别如果在实际应用中产生了如下情况之一,则可能是由于多重共线性的存在而造成的,需作进一步的分析诊断。

①增加(或减去)一个变量或增加(或剔除)一个观察值,回归系数发生了较大变化。

②实际经验中认为重要的自变量的回归系数检验不显著。

③回归系数的正负号与理论研究或经验相反。

④在相关矩阵中,自变量的相关系数较大。

⑤自变量回归系数可信区间范围较广等。

3•对多重共线性本质的认识多重共线性可分为完全多重共线性和近似多重共线性(或称高度相关性),现在我们集中讨论多重共线性的本质问题。

多重共线性普遍被认为是数据问题或者说是一种样本现象。

我们认为,这种普遍认识不够全面,对多重共线性本质的认识,至少可从以下几方面解解。

(3)检验解释变量相互之间的样本相关系数。

假设我们有三个解释变量X i、X2、X3,分别以「12、「13、「23 来表示X i 与X2、X i 与X3、X2与X3之间的两两相关系数。

假设r i2 = 0.90,表明X i与X2之间高度共线性,现在我们来看相关系数「12,3,这样一个系数我们定义为偏相关系数,它是在变量X3为常数的情况下,X i与X2之间的相关系数。

假定「12,3 = 0.43,就表明在变量X3保持不变的条件下,X1与X2之间的相关系数仅仅是0.43,但若不考虑X3的影响,两者之间的相关系数却是0.90。

这说明,根据偏相关系数, 我们无法断定X1与X2之间具有很高的共线性。

上述讨论表明,在存在多个解释变量的情况下,不能仅仅依赖两两相关系数来判断多重共线性。

偏相关系数代替简单的两两相关系数并未提供一个检验多重共线性存在与否的确切依据,仅仅是检验多重共线性性质的另一个手段。

(4)从属或者辅助回归。

既然多重共线性是指一个或者多个解释变量是其他解释变量的线性(或接近线性)组合,那么检验模型中哪个解释变量与其他解释变量高度共线性的方法就是作为每个解释变量对其他剩余解释变量的回归并计算相应的R2值。

其中的每一个回归都被称为从属或者辅助回归,从属于Y对所有变量的回归。

例如,考虑Y对X" X2、X3、X4、X5和X6这6个解释变量的回归。

如果回归结果表明存在多重共线性,比如说,R2值很高,但解释变量的系数很少是统计显著的,其原因,就在于一个或者多个解释变量是其他解释变量的线性(或接近线性)组合,找出这一组合具体方法是:①作X i对其他剩余解释变量的回归,求出拟合优度R i2;②作X2对其他剩余解释变量的回归,求出拟合优度系数R22;,,,重复上述步骤,直到作出所有的6个辅助回归。

如何判断哪些解释变量是共线性的呢?估计的R i2值介于0和1之间。

如果某个解释变量不是其他变量的线性组合,则该回归方程的R i2值不会显著不为零。

根据方程的F值,我们知道应该如何去检验假设:某个方程的拟合优度显著为零假定我们想要检验假设:R I2=0,也就是X i与其他5个解释变量不存在共线性。

根据F与R2定义,我们有:匚R2/(k1)(4.1)尸—2(1-R2)/(n-k)其中n是观察值的个数,k是包括截距在内的解释变量的个数。

具体说明如下:在这个例子中,假设有一个容量为50的随机样本,对每个解释变量作剩余变量的回归分析。

各辅助回归的R2值如下:表4-1检验R2值的显著性如表所示,变量X i、X3、X4、X5、X6看来与其他变量有共线性,尽管共线性的程度差别很大。

由此得出的结论是:“看似”较低的R2,比如0.36, 却可能是统计显著不为零。

可见,此例中存在较高的多重共线性。

辅助回归技术的一个缺陷是它的计算较为繁琐。

如果一个回归方程包含若干个解释变量,则我们不得不计算好几个辅助回归方程,因此,这种方法实用性不强。

但需要指出的是,现在已经有很多统计软件可以用来计算辅助回归方程。

(5)方差膨胀因素。

即使模型并未包括太多的解释变量,从各个辅助的回归方程中得的R 2值也未必可以用于诊断共线性。

以下面的二元回归方 程为例Y = b o + b i X i + b 2 X 2可以证明参数估计量的方差可写为:_ 2 _ 2 var(b j )二一22 - 厂VIF ' X ji (1R i )、x r 1 VIF = (1- R i 2) R 12是X i 和X 2之间辅助回归方程的拟合优度。

VIF 形象地称为方差膨 胀因素,因为随着辅助方程拟合优度 R i 2的增加,斜率系数的方差也增加。

特别地,如果辅助回归方程的拟合优度为1 (即完全多重共线性),斜率系 数的方差和标准差没有任何意义。

当然,如果 R i 2为零,那么就不存在共线 性,VIF 的值为i 。

我们也就不必担心由于方差(标准差)较大而带来的问 题。

现在一个重要问题是,假设在辅助回归方程中,R i 2值很高(但小于i ), 表明存在较高程度的共线性。

但是从(i0)式可以清楚地看到,斜率系数的方 差不仅仅取决于VIF ,而且还取决于的误差项u i 的方差匚2和解释变量X j 的 方差a x2。

因此,以下的情形是很有可能性的:R i 2值很高,比如说是0.96, 但是二2较低或者' 用较高,或者是两种情况同时出现,以至于斜率系数的方 差较低,t 值较高。

换句话说,较高的 R 2可能被一个较低的二2较低或者较2高的Xji值所抵消。

当然,高和低是相对而言的。

所有这些都表明,辅助回归方程中的 R 2可能只是多重共线性的一个表 面指示器。

如前所述,它并不一定扩大估计量的标准差。

更正规的表述为, “辅助回归方程中较高的R 2既不是较高斜率系数标准差的必要条件也不是 充分条件。

多重共线性本身并不一定导致较高的斜率系数标准差。

从上面讨论的各种多重共线性的检验方法中,我们能得出结论:检验 多重共线性有多种不同的方法,却没有一种绝对方法。

毕竟,多重共线性 是一个程度问题,它是一个与样本相关的现象。

有时,可以容易地检验出 多重共线性,但更多的(4.2)(4.3)(4.4)时候要运用各种手段来诊断这一问题的严重程度。

总之,没有一个简单的方法能用来解决这个问题。

5•诊断指标与方法5.1容忍值(Tolerance,以下简记为TOL)在多重回归分析中,设有p个自变量XXX2,…X P,容忍值定义为:2TOL=1- R (5.1)其中为自变量与其他P-1个自变量间的复相关系数,反映了它们之间的线性相关程度。

R愈接近于1,线性相关性越强。

由式(5.1)可见TOL与R只有同样的意义,仅仅是在数值大小上与R恰相反。

因此,其取值也在0~1 之间,TOL的值越接近于1,说明变量间的线性相关性越弱。

由多重共线性的定义可知,TOL很小的变量进入方程后,将导致回归方程的不稳定,偏回归系数的方差,标准误差均增加,影响参数估计的效果。

许多统计分析软件的多元回归程序在逐步引入变量的同时进行TOL检验。

此时,式(5.1)中的Ri为正在进入方程的自变量与已进入方程的若干个自变量间的复相关系数。

因此TOL值反映了它们之间的线性相关程度。

通常用户可以预先指定一个TOC的值,否则将用原程序中指定的标准进行检验。

然而,对于任意一个给定的TOL值,有时既使是通过了容忍性检验的变量进入方程后仍可导致结果的不稳定,因此容忍性检验在某些情况下并不一定能达到预期的目的。

例如P个自变量中除X1外,其余P-1个变量间均无线性相关,设TOL=T=1- R2, t= T ,X1与X2的相关系数为R,与X3的相关系数为tR,与X p的相关系数为t p_2R,那么,X1与其余P-1个自变量的复相关系数的平方Q为:Q = R2TR2T i^R2= R2*(1-f)/(1-T)(5.2)= 1-T即最大特征值与其他各特征值之比的算术平方根。

如果-p接近于零, 则条件数k将很大。

在应用中,如果k>30,则认为存在某种共线关系。

致谢辞在论文的写作过程中,得到了许多老师和单位领导的帮助,学院的老师们严谨治学的教学使我受益非浅,我非常感激我的导师刘树利老师,刘老师治学严谨、知识渊博、诲人不倦,在学术和为人上都为我作出了榜样他是我获得深思熟虑的意见和概念清晰的见解的来源,他不惜花费自己时间对本论文提出许多意见和建议,既激发了我的灵感,又给了我持久不断的鼓励。

最后我还非常感谢那些以一定方式影响本论文的论述思想的作者和同寝室的同学,为我查阅资料提供许多方便。

参考文献[1] 张尧庭,方开泰.多元统计分析引论[M].北京:科学出版社,1982[2] 陈希儒,王松桂.近代回归分析[M].安徽教育出版社,1987,210-211[3] 孟庆和.多元回归分析中多重共线性的处理[J].中国卫生统计,1997,14(1),49-50[4] 袁寿庄,赵彦云等.国民经济核算原理[M].北京:中国人民大学出版社,1999⑸李严洁•多元回归中的多重共线性及其存在的后果[J].中国卫生统计,1992,9(1);24[6] 黄少军.服务业与经济增长[M].北京:经济科学出版社,2000[7] 高惠璇,耿直,李贵斌等.SAS/STAT软件使用手册[M].北京:中国统计出版社,1998[8] 张丕德.COX 模型多因子共线性处理方法的进一步研究[J].中国卫生统计,2000,8(4),207-230[9] 张保法.经济计量学[M].北京:经济科学出版社,2000[10] 赵文奇•经济计量学建模方法论研究[M].成都:西南财经大学出版社,1998[11] [为古扎拉蒂著,林少宫译•经济计量学[M].北京:中国人民大学出版社,2000[12] [ 美]威廉H.格林著,王明舰等译.经济计量分析[M].北京:中国社会科学出版社,1998[13] 陈昌柏.营利机构管理[M].北京:团结出版社,2000[14] 蒋知俭主编.医学统计学[J].北京,人民卫生出版社,1997,263-264。

相关主题