第六讲 多重共线一、 FWL 定理及其应用考虑模型:112233i i i i i y a b x b x b x ε=++++ (1)假如我们只关注1ˆb,则通过如下步骤可以获得之。
第1步:把1x 对其他解释变量进行回归(请注意,截距所对应的解释变量为1),即有: 101223ˆˆˆˆi i i ix x x v βββ=+++ (2)第2步:把y 也对(2)中的解释变量进行回归,即有:01223ˆˆˆˆi i i i y x x w ϕϕϕ=+++ (3)第3步:把ˆw 对ˆv 进行回归(不含截距,当然你可以包含截距,但你会发现,截距的估计结果是零,这是因为ˆw 与ˆv 其均值都为零),即有模型:ˆˆi i i ve w η=+ (4) 则有:2ˆˆˆˆi i iw v v η=∑∑,可以验证,1ˆˆb η=,且残差ˆi e 等于初始的残差ˆi ε。
此即著名的FWL 定理(Frisch-Waugh-Lovell theorem )。
关于FWL 定理的一个简单证明见附录1。
思考题:利用关于“偏导数”的直觉,你能够理解1ˆˆb η=吗? 考察2ˆˆˆˆi i iw v v η=∑∑,把01223ˆˆˆˆi i i i y x x w ϕϕϕ=---代入,现在分子是:2012230123ˆˆˆˆ()ˆˆˆˆˆˆˆˆˆi i i i i i i ii i i v x i i y x x y v x v v v wv ϕϕϕϕϕϕ------∑∑∑==∑∑∑应该注意到,在进行第一步回归时,OLS 法保证了203ˆˆˆi i i i i v x x vv ===∑∑∑ 因此,22ˆˆˆˆˆˆi i i i i iw v y v v v η==∑∑∑∑ 显然,如果把y 对ˆv 直接进行无截距回归:*ˆiiiy v ης=+ (5)我们也可以得到:*122ˆˆˆˆˆˆˆi i i i i i y v w v b v vηη====∑∑∑∑。
因此,如果只关注如何获得1ˆb ,我们可以把FWL 定理中第二步与第三步合并为把y 对ˆv 直接进行无截距回归。
思考题:ˆiς与ˆi e 相等吗?提示:ˆˆˆˆˆˆˆi i i e v i i iw y v ηςη--== 注意到,2ˆiv ∑是(2)中的残差平方和,对(2),有: 2221111()()ˆˆiiix x x x v TSS ESS RSS-=-+↓↓↓∑∑∑22211112211112112211(2)()()ˆˆ()ˆ[()](1)()[()](1)i iiiiiiv x x x x x x x x x x x x R =----=---=--∑∑∑∑∑∑∑其中2(2)R 是根据(2)计算的决定系数。
因此,12211(2)ˆˆˆ[()](1)i i i y vb x x R η==--∑∑。
练习: 对1122i i i i y a b x b x ε=+++进行OLS 估计,利用前述知识证明:12211ˆx x b =在这里,12x x r、2yx r 分别是x2与x1、y 的样本相关系数。
笔记:在上述练习题中,当120x x r =时,则111(,)ˆ()Cov y x b Var x =。
现在考虑另外一个回归模型:011i i iy x e ββ=++,在OLS 法下,有:111ˆ(,)()Cov y x Var x β=。
总结:尽管1122i i i iy a b x b x ε=+++与101i i i y x e ββ=++是不同的模型,但当x 2与x 1样本不相关时,在OLS 法下,11ˆˆbβ=。
1ˆb 的方差是多少呢? 12ˆ112233*********ˆˆ()()()ˆˆˆˆˆˆˆ()ˆbi i i i i i i i i i i i i i i i i i i y v a b x b x b x v Var Var v vav b x v b x v b x v v Var vδεε=++++=++++=∑∑∑∑∑∑∑∑∑∑OLS 法保证了320ˆˆˆi i i x i i x v vv ===∑∑∑,因此 12ˆ112ˆˆ()ˆbi i i i i b x v v Var vδε=+∑∑∑由于我们假定1i x 是非随机的,进而ˆi v 也是非随机的,因此在i ε是同方差且序列无关的假定下,有:22211(2)212ˆ[()](1)2ˆi bx x R iv δδδ=--=∑∑其中22iεδδ=。
在上式中,2(2)11R -通常被称为方差膨胀因子(VIF ),而2(2)1R -被称为容忍度(Tolerence )。
另外,由于2111()i Nx x -∑为1x 的样本方差1()V ar x ,因此,122(2)1/2ˆ)((1)N b V a r x R δδ-=(6) 就上述例子,根据(6)式,初步的总结是,1ˆb 的方差(或者标准差1ˆ()sd b ): (1)随着样本容量的增加而减少; (2)随着1x样本方差的增加而减少;(3)随着2(2)R 增加而增加; (4)随着误差项方差的增加而增加;样本容量越大则信息越多,1x 样本方差越大意味着样本覆盖面广,故信息越多。
信息越多将提高估计精度。
2(2)R 越大表示解释变量所蕴含信息的重叠度高,因此有效信息较少,故降低估计精度。
误差项方差大意味着估计时所面临的不确定性程度高,因此估计精度下降。
2δ一般是未知的,需要估计。
1ˆb 的标准误为:1ˆ)(bse =其中222ˆˆˆ44ii e N N δε==--∑∑。
因此,1ˆ)(b se =考虑初始模型(1),显然有:2222[)](1)()(1)ˆ(i iy R NVar y R y ε=--=-∑∑因此,有:1ˆ)(bse = (7)特别要注意,1ˆ)(bse 是随机的(在(7)式中,2R 是随机的,其随机性来源于y 的随机性)。
既然1ˆ)(bse 是随机的,那么我们再也不能像对(6)式那样总结了!然而在大样本下,由于标准误在概率上收敛于标准差,故此时有关标准差的一些结论可以应用于标准误。
根据特定的样本,我们可以计算出一个具体的标准误的值,公式仍然是(7)式,但此时它是非随机的。
考虑此种情况。
如果在模型(1)上再增添一个解释变量4x ,显然2(2)R 一般是增加的,因此将增加1ˆb 的标准差,但一定会增加1ˆb 的标准误吗? 二、完全共线与多重共线针对上述例子,如果2(2)1R =,即1x 被231,,x x 完全拟合,换句话说,存在:112324310x x x λλλλ+∙++=其中1λ不为零。
那么根据公式:12211(2)ˆˆ[()](1)i i i y vb x x R =--∑∑22211(2)12ˆ[()](1)i b x x R δδ=--∑ 有:121ˆ0ˆ;0b bδ==∞。
思考题:为什么0ˆi i y v=∑?现在我们把情况推广:112324310x x x λλλλ∙+++=其中,1,2,3,4jj λ=不全为零,此时,我们称四变量完全共线。
根据前面的分析,我们知道,至少有一个系数的估计量是无法确定的,其方差无穷大。
把初始模型写成矩阵模式:Y XB ε=+,其中1121311231231(1)1NNN x x x X x x x x x x ⎛⎫ ⎪ ⎪ ⎪⎪ ⎪ ⎪ ⎪⎝⎭≡≡ 。
在OLS 法下,1ˆ()BX X X Y -=''。
为了保证估计量的存在,我们必须假定1()X X -'存在。
然而,当X不是列满秩的,即112324310x x x λλλλ+∙++=,其中,1,2,3,4j j λ=不全为零,那么1()X X -'是不存在的。
把情况进一步推广:112324310i x x x λλλλμ+∙+++=,其中,1,2,3,j j λ=不全为零,i μ为随机误差,那么我们称四变量多重共线。
多重共线并没有违背高斯-马尔科夫假定,因此,高斯-马尔科夫定理仍然成立!三、 多重共线的后果基于特定的样本,我们根据公式:1ˆ)(bse =计算出一个具体的标准误的值。
显然,如果2(2)R较大,即多重共线性越强,那么我们得到的标准误的值可能很大。
如果情况确实如此,那么这又有什么后果呢?(1)回忆111ˆ()ˆ()b b t se b-=,b 1是假设的真实系数。
如果1ˆ()se b很大,那么上式的分母很大,从而t 趋于零,因此,也许你无论假设b 1为多少,你都会不拒绝原假设!因此,t 检验的可靠性降低,犯第二类错误(取误)的概率较大。
(2)构建一个1a -置信水平的置信区间:11/2ˆ()ˆa se b b t ±,显然,1ˆ()se b很大将导致置信区间更宽,因此,我们不能很好地猜测b 1的取值。
四、 如何判断多重共线的严重程度? (一)基于严重多重共线性情况下模型的一些典型症状来判断多重共线性的严重程度。
这些典型症状是:1、模型整体拟合较好但很多解释变量不显著。
考虑在初始模型增添一个解释变量,显然其判定系数一般是增加的(相应的是,新模型F 值可能较大),然而,增加解释变量很可能导致严重的多重共线性,从而很多解释变量不显著。
2、系数估计的符号不符合理论预期,但往往不显著。
思考题:为什么?3、增加样本容量导致估计结果发生了很大的变化。
删除一些变量也导致估计结果发生了很大的变化。
思考题:为什么?(二)考察解释变量两两相关系数。
如果存在取值较大的相关系数,那么这意味着多重共线性程度严重,然而也应该注意到,即使两两相关系数都很小,多重共性性仍可能是严重的。
思考题:为什么即使两两相关系数都很小,多重共线性仍可能是严重的? (三)考察VIF 或者2i R 。
如果VIF 大于10,一般认为存在较严重的多重共线性(当然也可考察容忍度)。
按照VIF 的定义,显然,当VIF 大于10时,必有一个解释变量对其他解释变量回归所得到的2i R 超过90%,而这是一个很高的判定系数。
事实上,按照Klien ’s rule of thumb ,当2i R 大于初始模型的2R 时,多重共线问题就值得关注了。
(四)特征根检验。
当完全共线时,1()X X -'不存在,0X X=',当存在严重的多重共线时,0X X≈'。
假设X X'的特征根是121,,...,k λλλ+,根据矩阵代数知识:11k i i X Xλ+=='∏,因此,如果X X'的特征根中至少有一个近似为0,则0X X≈'。
因此可以根据X X'的特征根来判断多重共线的严重程度。
笔记:在实践中,通常基于标准化变量回归模型(每一个解释变量的每一次观察值都减去样本均值,然后再除以样本标准差,此即变量的标准化处理。