第七章 多重共线性若线性模型不满足假定6,就称模型有多重共线性。
§7.1 多重共线性的概念一. 基本概念:假定6 ()1k r X k n =+<,是指模型中所有自变量12,,,,k x x x ⋅⋅⋅⋅⋅⋅1线性无关,也可理解为矩阵X 的列向量线性无关。
若不满足该假定,即 ()1k r X k <+, 则称12,,,,k x x x ⋅⋅⋅⋅⋅⋅1存在完全多重共线性,12,,,,k x x x ⋅⋅⋅⋅⋅⋅1存在严格的线性关系,这是一种极端情况;若12,,,,k x x x ⋅⋅⋅⋅⋅⋅1之间的线性关系不是严格的,而是一种近似的线性关系,则称高度相关或存在不完全多重共线性。
如,01122i i i i y x x u βββ=+++ 若12,λλ∃不全为零, 使11220i i x x λλ+=, 完全多重共线性11220i i i x x v λλ++= 不完全多重共线性完全多重共线性和不完全多重共线性统称为多重共线性。
解释变量(自变量)之间的线性关系可用拟合优度2i R 描述,2i R 表示i x 对其它解释变量的拟合优度,21i R = 完全 21i R ≈ 高度 20i R = 无 二. 产生的原因:在实际经济问题中主要是不完全多重共线性。
其产生的主要原因是:1. 两个解释变量具有相同或相反的变化趋势;(家庭能耗与住房面积、人口) 生产、需求.......2. 数据收集的范围过窄,造成解释变量之间有相同或相反变化的假象;3. 某些解释变量之间存在某种近似的线性关系;(各解释变量有相同的时间趋势)4. 一个变量是另一个变量的滞后值;供给5. 解释变量的选择不当也可能引起变量间的多重共线性。
6. 过度决定模型。
(观测值个数少于参数个数)对于正确设置的模型,多重共线性基本上是一种样本现象。
§7.2 多重共线性的后果一. 完全多重共线性当模型具有完全多重共线性时,无法进行参数的OLS 估计; 设模型 Y XB U =+,若有完全多重共线性,即()1k r X k <+,则()1T r X X k <+ 1()T X X -⇒不存在1()T TB X X X Y ∧-⇒=不存在,同样 21()()Tj u jj V X X βσ∧-=也不存在,显著性检验和预测都无法进行。
二. 不完全多重共线性设模型为 01122i i i i y x x u βββ=+++ 有不完全多重共线性,即 102i i i x x v λλ=++, 其中0λ≠,i v 可视为残差。
为叙述方便,可用中心化形式12i i i x x v λ∙∙=+(0iv =∑,20ii xv ∙=∑),1121122212nn x x x x X x x ∙∙∙∙∙∙∙⎛⎫ ⎪ ⎪ ⎪= ⎪⋅⋅⋅⋅⋅⋅ ⎪ ⎪⎝⎭,211211212211n ni i i i i T n n i i i i i x x x X X x x x ∙∙∙∙∙==∙∙∙==⎛⎫ ⎪ ⎪= ⎪ ⎪⎝⎭∑∑∑∑222222111222211n nni i ii i i nni ii i x v x x xλλλ∙∙===∙∙==⎛⎫+ ⎪⎪= ⎪ ⎪⎝⎭∑∑∑∑∑则有 22211nn Ti ii i X X x v∙∙∙===∑∑这样 222211122222222211111()1()nni iT i i T n nn n n T i i i i i i i i i i x xX X X X x v X X x x v λλλ∙∙∙∙*∙∙==-∙∙∙∙∙=====⎛⎫- ⎪⎪== ⎪-+ ⎪⎝⎭∑∑∑∑∑∑∑2212212111ni n i n i i i i v v x λλλ=∙==-⎛⎫ ⎪⎪=⎪-+ ⎪⎪ ⎪⎝⎭∑∑∑21212212111()nT T T i n i n i i i i v X X X Y X Y v x λβλλ∙∙∙∧∙∙∙-=∙==-⎛⎫⎪⎪== ⎪-+ ⎪ ⎪⎪⎝⎭∑∑∑210nii v=≠∑是显然的,所以可确定β∧。
但i v 是残差,依赖于样本,因此21ni i v =∑很不稳定,且0TX X ∙∙≈,使()V β∧21()Tujj X X σ∙∙-=很大,其后果⑴使β∧很不稳定,对样本非常敏感; ⑵()V β∧很大,β∧的估计精度很难控制;⑶统计量T β∧=增大接受“0:0j H β=”的可能性(即j β不显著),但2R 仍可能是显著的,⑷使预测的精度大大降低。
例7.2.1 书179页§7.3 多重共线性的检验由于在经济问题研究中,多重共线性是普遍存在的,当多重共线性程度较高时,会带来严重后果,因此检验多重共线性时希望达到如下目的: ⑴是否存在多重共线性; ⑵多重共线性的程度;⑶多重共线性的形式或性质。
一. 不显著系数法:利用参数的显著性判断是否有多重共线性,有以下情况时可判断有多重共线性:⑴若2R 显著(2R 0.8>),但全部参数或部分参数不显著(不能通过显著性检验); 12()()()TTTTTTT T RSS B X Y X Y X X X Y R TSSY Y Y Y∧∙∙∙∙∙∙∙∙-∙∙∙∙==== 由于有多重共线性,所以行列式会TX X ∙∙很小,1()TX X ∙∙-就会较大。
⑵若按相关经济理论知解释变量i x 对y 有重要影响,但i β却不显著;⑶如果添加新自变量x '后,原有参数的估计值的方差明显增大,则自变量(含x ')之间可能有多重共线性。
二.利用解释变量之间所构成的回归方程的拟合优度2j R 检验:设有k 个自变量 12,,,k x x x ⋅⋅⋅⋅⋅⋅,则可构成k 个辅助线性回归方程 102233,,k k x x x x αααα=+++⋅⋅⋅⋅⋅⋅+ 其拟合优度为21R ,201133,,k k x x x x αααα=+++⋅⋅⋅⋅⋅⋅+ 22R ,⋅⋅⋅⋅⋅⋅0111111j j j j j k k x x x x x ααααα--++=++⋅⋅⋅+++⋅⋅⋅+ 2j R ⋅⋅⋅⋅⋅⋅0112211k k k x x x x αααα--=+++⋅⋅⋅⋅⋅⋅+ 2k R若其中一个2j R 接近1,则j x 与其余一个或几个自变量有高度相关。
当模型中只有两个解释变量时,可用它们之间的相关系数的平方212r 来检验。
三. 利用去除某个自变量后模型的拟合优度2j R *与2R 比较:原模型为01122k k y x x x u ββββ=+++⋅⋅⋅⋅⋅⋅++ 拟合优度为2R ,去掉一个变量后得 02233k k y x x x u ββββ=+++⋅⋅⋅⋅⋅⋅++ 拟合优度为 21R *01133k k y x x x u ββββ=+++⋅⋅⋅⋅⋅⋅++ 22R *⋅⋅⋅⋅⋅⋅0111111j j j j k k y x x x x u βββββ--++=++⋅⋅⋅+++⋅⋅⋅++ 2j R * ⋅⋅⋅⋅⋅⋅0112211k k y x x x u ββββ--=+++⋅⋅⋅⋅⋅⋅++ 2k R *若2j R *是最大的且与2R 很接近,则j x 对y 的影响不明显,其作用可由其它自变量替代,这说明j x 与其它自变量有近似线性相关关系,因此可认为j x 的多重共线性严重。
四. 相关矩阵法:模型为 01122t t t k kt t y x x x u ββββ=+++⋅⋅⋅⋅⋅⋅++,计算其相关矩阵111212122212k k k k kk r r r r r r R r r r ⋅⋅⋅⎛⎫⎪⋅⋅⋅ ⎪=⎪⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⎪⋅⋅⋅⎝⎭其中,ij xx r ∙∙=, 是简单相关系数;12112212111k k k k r r r r r r ⋅⋅⋅⎛⎫⎪⋅⋅⋅⎪= ⎪⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⋅⎪⋅⋅⋅⎝⎭且1ij ji r r ⎧=⎨⎩ i ji j =≠ 若某个ij r 较大(一般认为0.8ij r >时),表明i x 与j x 有较强的多重共线性。
需要说明的是相关矩阵法只适用于两个解释变量之间存在多重共线性的情况,它是存在多重共线性的充分条件而非必要条件,即若ij r 较小未必说明无多重共线性。
五. 方差膨胀因子利用方差膨胀因子不仅可以检验多重共线性,还可用来衡量多重共线性的强度。
(一)标准化变量变量x ,其一组观测值为12(,,......,)Tn x x x ,则相应的标准化变量~x 的观测值为~j x x x x -∙-==1,2,......,j n =;其中,1i x x n -=∑,x S = 标准化后,变量有~0x -=且~21ix=∑。
这样定义的标准化变量与通常意义的标准化稍有差别。
显然,变量标准化后不受坐标平移和计量单位的影响,且一个线性模型也可以用标准化变量表示。
设线性模型为01122j j j k kj j y x x x u ββββ=+++⋅⋅⋅⋅⋅⋅++,1,2,,j n =⋅⋅⋅⋅⋅⋅ 先中心化,有1212j j kj j k j y x x x u βββ∙∙∙∙∙=++⋅⋅⋅⋅⋅⋅++,1,2,,j n =⋅⋅⋅⋅⋅⋅ (其中,j j u u u ∙-=-,1j u u n-=∑ )y ,模型变为12j j kj y x x x ∙∙∙∙∙=1,2,,j n =⋅⋅⋅⋅⋅⋅ 最后用i ix x S S 去乘上式右侧的对应项,并令~ix i i yS sββ=,1,2,,j n =⋅⋅⋅⋅⋅⋅~~~2ky βββ∙∙∙∙∙=+,1,2,,j n =⋅⋅⋅⋅⋅⋅ 模型被表示成标准化变量的形式~~~~~~~'1212j j kj k j j y x x x u βββ=++⋅⋅⋅⋅⋅⋅++,1,2,,j n =⋅⋅⋅⋅⋅⋅其矩阵形式 ~Y X B U =+ (二)膨胀因子对上式用OLS 进行估计,其参数~i β的OLS 估计量的方差为 ~21()()Ti u ii V X X βσ-=,1,2,,i k =⋅⋅⋅⋅⋅⋅可用来度量估计精度。
其中2u σ为常数,则参数估计量取决于1()T ii X X -的大小,1()Tii X X -称为~i β的方差膨胀因子,用i VIF 表示1()T i iiVIF X X -=。
可以证明 21(1)i iVIF R -=-,2iR 为~i x 对其余自变量做回归的拟合优度,1i VIF ≥。
显然i VIF 越大(此时2iR 也大),说明~i x 被其他自变量解释的程度越高,多重共线性越严重; i VIF 越小(此时2iR 也小),说明~i x 被其他自变量解释的程度越低,多重共线性程度越轻。