三、多重共线性的检验 (一) 相关系数检验利用相关系数可以分析解释变量之间的两两相关情况。
在EViews 软件中可以直接计算(解释)变量的相关系数矩阵: [命令方式]COR 解释变量名[菜单方式]将所有解释变量设置成一个数组,并在数组窗口中点击View\Correlations. (二) 辅助回归模型检验相关系数只能判断解释变量之间的两两相关情况,当模型的解释变量个数多于两下、并且呈现出较为复杂的相关关系时,可以通过每个解释变量对其他解释变量的辅助回归模型来检验多重共线性,即依次建立k 个辅助回归模型:k i x a x a x a x a a x kki i i i i,,1111111=++++++=++--ε如果,其中某些方程显著,则表明存在多重共线性,所对应的变量可以近似地用其他解释变量线性表示。
辅助回归模型检验不仅能检验多元回归模型的多重共线性,而且可以得到多重共线性的具体形式;如果再结合偏相关关系检验,还能进一步判定是哪些解释变量引起了多重共线性,这有助于分析如何消除多重共线性的影响。
(三) 方差膨胀因子检验对于多元线性回归模型,ib ˆ的方差可以表示成:iijiiijiVIF x x R x x b D ∙∑-=-∑-=22222)(11)()ˆ(σσ其中,i i x R 为2关于其他解释变量辅助回归模型的判定系数,i VIF 为方差膨胀因子。
随着多重共线性程度的增强,VIF 以及系数估计误差都在增大。
因此,可以用VIF 作为衡量多重共线性的一个指标;一般当10>VIF 时,(此时9.02>iR ),认为模型存在较严重的多重共线性。
另一个与VIF 等价的指标是“容许度”(Tolerance ),其定义为:iiiVIF R TOL /1)1(2=-=显然,10≤≤TOL ,当i x 与其他解释变量高度相关时,0→TOL 。
因此,一般当1.0<TOL 时,认为模型存在较严重的多重共线性。
(四) 特征值检验考察解释变量的样本数据矩阵⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=knnn k k x xxx x x x x x X 212221212111111 当模型存在完全多重共线性时,0||,1)(='+<X X k X rank ;而当模型存在严重的多重共线性时,0||≈'X X 。
根据矩阵知识,若121,,,+k λλλ 为矩阵1+'kX X 的个特征值,则有:0||121≈='+K X X λλλ这表明特征值)1,,2,1(+=k ii λ中至少有一个近似地等于零。
因此,可以利用X X '的特征值来检验模型的多重共线性。
实际计算时,先对样本数据做标准化处理,这样矩阵||X X '转化成解释变量的相关系数矩阵,特征值也减少到k 个。
利用特征值还可以构造两个用于检验多重共线性的指标:病态数(κCondition Number)和病态指数CI (Condition Index );其指标定义为:κ=最大特征值/最小特征值κ=CI这两个指标都反映了特征值的离散程度,数值越大,表明多重共线性越严重。
一般当κ)30(1000>>CI 或时,认为存在严重的多重共线性。
四、多重共线性的解决方法设定计量经济模型的时候,为了全面反映各方面因素的影响,总是在理论和实践认识的基础上,尽量选取被解释变量的所有影响因素。
这样在同时考虑多个影响因素的情况下,很可能产生多重共线性问题。
在处理多重共线性之前,首先应该明确以下两点:第一, 多重共线性的主要后果是无法区分每个解释变量的单独影响,因此,如果建立模型的目的是进行预测,只要模型的拟合优度较高(即能正确反映所有解释变量的总影响),并且解释变量的相关类型在预测期内保持不变,则可以忽略多重共线性的问题。
但是,如果是应用模型进行结构分析或政策评价,即利用系数分析、比较各个解释变量的单独影响,则需要消除多重共线性的影响。
第二, 引起多重共线性的原因是模型中存在相关的解释变量,所以消除多重共线性的根本方法只能是从模型中剔除这些变量。
但直接剔除变量可能会产生新的问题:(1)模型的经济意义不合理;例如,生产函数中资金与劳动者人数通常是高度相关的,但从中剔除任何一个要素都不太合适。
(2)如果剔除的是重要解释变量。
则这些变量的影响将反映在随机误差项中,使模型产生异方差性或自相关性。
(3)若剔除不当还会产生设定误差的问题,造成参数估计严重有偏。
因此,为了解决这一矛盾,剔除变量时应该全面、慎重考虑,根据解释变量的特点分别采用直接剔除和间接剔除两种方式。
(一) 直接剔除次要或可替代的变量根据经济理论和实际经验设定计量经济模型时容易考虑过多的解释变量,其中有些可能是无显著影响的次要变量,还有一些变量的影响可以用模型中的其他变量来代替。
所以在估计模型之前,为避免多重共线性的影响,应该从模型中先剔除这些变量。
次要变量可以通过被解释变量与解释变量的相关系数检验、相关图分析等统计分析加以鉴别;利用辅助回归模型和特征值检验多重共线性时,又可以提供解释变量之间相互替代性的信息。
(二) 间接剔除重要的解释变量对于有重要影响的解释变量,可以通过以下方式将其“间接剔除”: 1、利用附加信息例如,著名的Cobb_Douglas 生产函数中βαK AL Y =劳动投入量L 与资金投入量K 之间通常是高度相关的,如果已知附加信息: 1=+βα(规模报酬不变)则 βββ)(1LK AL K AL Y ==-或 β)(LK A L Y =记 L K k L Y y /,/==则C-D 生产函数可以表示成:βAk y =此时二元模型转化成一元模型,当然不存在多重共线性的问题,可以利用OLS 法估计βˆ,ˆA,进而得到βˆ1ˆ-=a 。
又如,设工业能源需求函数为:ε+++=2211x b x b a y其中,21,x x 分别为重、轻工业总产值,利用此模型不仅能反映工业经济增长对能源的需求情况,而且可以反映工业结构变化对能源需求的影响。
但是重、轻工业发展的共向性,很可能使模型产生多重共线性。
由于21,b b 分别是重、轻工业的单位能耗,如果根据历史统计资料测得重工业的单位能耗(平均来说)是轻工业单位能耗的)0(>λλ倍,即获得以下附加信息:21bb λ=则工业能源需求函数可以表示成:εελελ++=+++=+++=*22122212)(x b a x x b a x b x b a y其中,21*x x x+=λ,模型转化成一元模型,估计出2ˆ,ˆba 之后,又得到21ˆb b λ=,从而在消除多重共线性影响的情况下得到工业能源需求函数:2211ˆˆˆˆx b x b a y++=2、变换模型的形式对原设定的模型进行适当的变换,也可以消除或削弱原模型中解释变量之间的相关关系。
具体有三种变换方式,一是变换模型的函数形式,如将线性模型转换成双对数模型、半对数模型、多项式模型等;二是变换模型的变量形式,如引入差分变量、相对数变量等;三是改变变量的统计指标,如将生产过程中的资金投入量取成固定资金或流动资金(或两者之和),劳动投入量取成职工人数或工资总额,经济增长指标取成GDP 、GNP 、国民收入等。
再如,投资函数: ε+++=-121t ttY b Y b b I也可以变换成:ε+∆++=-tt tY a Y a a I 211即以收入和收入增长来解释投资的增长情况。
3、综合使用时序数据与横截面数据如果能同时获得变量的时序数据和横截面数据,则先利用某类数据估计出模型中的部分参数,再利用另一类数据估计模型的其余参数。
例如,设某类商品的需求函数为:ε+++=P b x b b y ln ln ln 21其中,y 为商品需求量,P x ,分别为居民收入和该商品价格,并且已知在时序样本数据中P x 与高度相关。
为此分以下二步完成: (1) 收集最近一年该商品的销售量和居民收入的统计资料(横截面数据),由于商品价格在一年中的变化幅度不大,所以将需求函数取成:ε++=iix a a y ln ln 1利用横截面资料估计该模型,得到需求的收入弹性1a 。
(2) 原需求函数中的1b 也是需求的收入弹性,所以11a b ≈(此时实际上假设历年的平均收入弹性与近期的收入弹性近似相等),将原模型变换成:ittP b b y ε++=ln 1*其中,tttx ay y ln ˆln 1*-=。
再利用历年商品销售量、居民收入和价格的统计资料(时序数据)估计模型,得到10ˆ,ˆb b ,从而在消除多重共线性影响的情况下,估计出需求函数:P b x b by ln ˆln ˆˆln 21++= 从上述三种方法的处理过程可以看出,最终还是通过减少模型中解释变量个数的方式(即剔除引起多重共线性的变量)来消除多重共线性的影响,但并不是直接剔除有重要影响的解释变量,模型中还是保留了这些变量的影响,所以称之为“间接剔除)。
(三) 逐步回归建立计量经济模型的时候,一般是将解释变量全部引入模型,然后再根据统计检验和定性分析从中逐个剔除次要的或产生多重共线性的变量,选择变量是一个“由多到少”的过程。
而逐步回归选择变量时,却是一个“由少到多”的过程,即从所有解释变量中间先选择影响最为显著的变量建立模型,然后再将模型之外的变量逐个引入模型;每引入一个变量,就对模型中的所有变量进行一次显著性检验,并从中剔除不显著的变量,逐步引入——剔除——引入,直到模型之外所有变量均不显著时为止。
许多统计分析软件都有逐步回归程序,但根据计算机软件自动挑选的模型往往统计检验合理,经济意义并不理想。
因此,实际应用中一般是依据逐步回归的原理,结合主观分析来筛选变量。
具体步骤为:(1) 利用相关系数从所有解释变量中选取相关性最强的变量建立一元回归模型。
(2) 在一元回归模型中分别引入第二个变量,共建立1 k个二元回归模型(设共有k 个解释变量),从这些模型中再选取一个较优的模型。
选择时要求:模型中每个解释变量影响显著,参数符号正确,2R 值有所提高。
(3) 在选取的二元回归模型中以同样方式引入第三个变量;如此下去,直到无法引入新的变量时为止。
[例5]服装需求函数。
根据理论和经验分析,影响居民服装需求的主要因素有:可支配收入X 、流动资产拥有量K 、服装类价格指数P1和总物价指数P0。
表3-4给出了有关统计资料。
表3-4 服装需求函数有关统计资料设服装需求函数为:ε+++++=K b P b P b X b a Y 432101(1) 相关系数检验键入:COR Y X K P0 P1 输出的相关系数矩阵为:可见每个因素都与服装需求高度相关,而且解释变量之间也是高度相关的。