当前位置：文档之家› 第四章多重共线性

第四章多重共线性

第四章多重共线性一、填空题1. 在多元线性回归模型中，解释变量间呈现近似线性关系的现象为________问题，给计量经济建模带来不利影响，因此需检验和处理它。

2. 在回归分析中，当检验回归系数所得的t 值不显著时，我们往往将它归结为多重共线性。

但也可能是其他原因的影响，如或。

3. 存在多重共线时，回归系数的标准差趋于，t 值趋于。

方差膨胀因子越大，OLS 估计量的将越大。

4. 检验样本是否存在多重共线性的常见方法有：________ 、和。

5. 处理多重共线性的方法主要有两大类：__________和_________。

二、问答题1. 简述多重共线性的含义。

2. 简述多重共线性的后果。

3. 方差膨胀因子（Variance Inflation Factor, VIF ）及其含义？4. 列举多重共线性的检验方法。

5. 多重共线性的补救办法？6. 假设在模型i i i i u X X Y +++=22110βββ中，1X 与2X 之间的相关系数为零，于是有人建议你进行如下回归：i i i i i i u X Y u X Y 22201110++=++=γγαα(1) 是否存在11ˆˆβα=且22ˆˆβγ=？为什么？ (2) 0ˆβ会等于0ˆα或0ˆγ或某两个的某个线性组合吗？ (3) 是否有()()11ˆvar ˆvar αβ=且()()22ˆvar ˆvar γβ=？ 7. 在决定一个回归模型的“最优”解释变量集时人们常用逐步回归的方法。

在逐步回归中既可采取每次引进一个解释变量的程序(逐步向前回归)，也可以先把所有可能的解释变量都放在一个多元回归中，然后逐一地将它们剔除(逐步向后回归)。

加进或剔除一个变量，通常是根据F 检验看其对ESS 的贡献而作出决定的。

根据你现在对多重共线性的认识，你赞成任何一种逐步回归的程序吗？为什么？8．克莱因与戈德伯格曾用1921-1950年(1942-1944年战争期间略去)美国国内消费Y 和工资收入X1、非工资—非农业收入X2、农业收入X3的时间序列资料，利用OLSE 估计得出了下列回归方程：37.107 95.0 (1.09) (0.66) (0.17) (8.92) 121.0452.0059.1133.8ˆ2321==+++=F R X X X Y 括号中的数据为相应参数估计量的标准误。

试对上述模型进行评析，指出其中存在的问题。

9. 将下列函数以适当的方法消除多重共线性（1）消费函数为：u P W C +++=210βββ，式中C 、W 、P 分别表示消费、工资收入和非工资收入，W 与P 可能高度相关，但研究表明2/12ββ=。

（2）需求函数为：u P P Y Q s ++++=3210ββββ，式中Q 、Y 、P 、P s 分别表示需求量、收入水平、该商品价格及其替代品价格水平，P 、P s 可能高度相关。

三、实践题1. 下表给出了中国商品进口额Y 、国内生产总值GDP 、消费者价格指数CPI 。

资料来源：《中国统计年鉴》，中国统计出版社2000年、2004年。

请考虑下列模型：it t t u CPI GDP Y ++=ln ln ln 321βββ＋ (1) 利用表中数据估计此模型的参数。

(2) 你认为数据中有多重共线性吗？(3) 进行以下回归：it t it t it t v CPI C C GDP v CPI B B Y v GDP A A Y 321221121ln ln ln ln ln ln ++=+=+=＋＋根据这些回归你能对数据中多重共线性的性质说些什么？(4) 假设数据有多重共线性，但32ˆˆββ和在5%水平上个别地显著，并且总的F 检验也是显著的。

对这样的情形，我们是否应考虑共线性的问题？2. 理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。

为此，收集了中国能源消费总量Y (万吨标准煤)、国内生产总值(亿元)X1 (代表经济发展水平)、国民总收入(亿元)X2(代表收入水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费 (千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等在1985-2002年期间的统计数据，具体如下：资料来源：《中国统计年鉴》2004、2000年版，中国统计出版社。

要求：(1)建立对数线性多元回归模型(2)如果决定用表中全部变量作为解释变量，你预料会遇到多重共线问题吗？为什么？ (3)如果有多重共线性，你准备怎样解决这个问题？明确你的假设并说明全部计算。

参考答案一、填空题1.多重共线性；2.设定偏误；模型的理论依据不强。

3. 无穷大；很小；标准差。

4.简单相关系数；可决系数法；参数t 检验的显著性。

5. 差分法；逐步回归法。

二、问答题1. 答：对于K 元线性回归模型i ik k i i i u X X X Y +++++=ββββ 22110 ， i=1,2,…,n其基本假设之一是解释变量之间是互相独立的。

如果某两个或多个解释变量之间出现了相关性，则称为多重共线性。

如果存在02211=+++ik k i i X X X λλλ ， i=1,2,…,n 其中λ不全为0，即某一个解释变量可以用其它解释变量的线性组合表示，则称为完全共线性。

2. 答：在多重共线性存在的情况下，OLS 估计量仍然保持BLUE 的性质。

虽然OLS 估计量可以得到，但极不稳定，数据资料即使有极小的变化，估计值及标准差就会有很敏感的反应。

估计量的方差随着共线程度的增加而变大，如果达到完全共线，估计量的方差就会为无限大。

随着共线程度的增加，对于回归系数所进行的t 检验，接受原假设的概率加大，即回归系数可能变得不显著。

但与此同时，可以得到较高的可决系数（R 2），如果模型的用途是预测，那么，高度的多重共线未必不是好事。

3. 答：回归系数的OLS 估计量的方差为：12)()(-'=iiu X X b Var σ，可以看作随机项方差2u σ乘上一个比例常数1)(-'ii X X ，这个比例常数称为方差膨胀因子，即1)(-'=iii X X VIF 可以证明：211i i R VIF -=式中i=1,2,…,k, 表示回归模型中引入了k 个解释变量X 。

2i R 为i X 作为被解释变量，与其余k-1个X 进行多元回归分析后得到的可决系数。

如果2i R 越大，说明i X 与其余k-1个X 的多重共线程度越高，得到的i VIF 就会表现出越大。

为了综合评价OLS 估计时出现的多重共线性的程度，可以采用平均膨胀因子： kVIFVIF Ki i∑==1一般认为i VIF 超过10（也有人主张超过5）时，就认为多重共线的程度较高，必须加以处理。

4. 答：主要有相关系数法、可决系数检验法和方差膨胀因子法。

诊断多重共线性最直接的办法就是观察解释变量之间的相关系数，由此可以观察发生在解释变量之间的相关程度的大小。

如果是在回归分析完成之后考察多重共线性的存在，那末，重要变量的回归系数如果没有通过t 检验, 或回归系数的数值与符号与预期严重不符，可以认为存在多重共线问题。

由于引入模型中的解释变量有多个，到底是哪一个导致了多重共线的后果，可以采用可决系数法来判别。

方差膨胀因子法（VIF ）也是诊断多重共线性的常用方法。

5. 答：多重共线性存在的情况下最简单的补救办法就是弃掉一个共线变量。

一般地，减轻多重共线性从三个方面考虑：样本方面、解释变量方面和模型的形式方面。

样本方面。

主要是考虑加大样本容量，增加数据小数点后的位数，目的是降低解释变量序列之间成比例的可能性。

解释变量方面。

应用面板数据估计模型，或利用来自经济理论和以往经验的先验信息，用以消除多重共线对估计模型的影响。

逐步回归法是常用的一种多重共线性存在时选择解释变量的方法。

逐步回归法。

要排除多重共线性产生的不良后果，软件操作中应用较多的是逐步回归法。

逐步回归法的基本思想是：将Y 分别对每一个X 作回归模型（K 个），选一可决系数R 2最大者，作为基础方程。

将其余R 2由小到大排队，将X 按R 2由大到小的顺序逐次加入基础方程。

有三种情况：a.加入某个X 后， R 2提高，t 检验显著，保留该X ；b.加入某个X 后， R 2没改善，剔除该X ；c.加入某个X 后， R 2变大，t 绝对值下降，b 的符号、数值变异，认为该X 引起多重共线，不必加入。

模型形式方面。

一阶差分回归模型可以降低多重共线的严重程度，所以我们往往对原模型进行差分变换，对得到的差分模型进行估计进而得到队原模型的估计结果。

这种办法的不足是：由于计算差分，失去了一个观察值，这在小样本中是一个值得关注的问题。

一阶差分法只适于时间序列资料。

同时由于差分计算，可能给差分模型引入原来并不存在的残差项自相关的问题。

6．答：(1) 存在11ˆˆβα=且22ˆˆβγ=。

因为()()()()()()()22122212122211ˆ∑∑∑∑∑∑∑--=ii iiii ii iii x x x x x x x y x x y β当1X 与2X 之间的相关系数为零时，离差形式的021=∑i i xx有 121122212211ˆˆαβ==⎪⎭⎫ ⎝⎛⎪⎭⎫⎝⎛⎪⎭⎫⎝⎛⎪⎭⎫ ⎝⎛=∑∑∑∑∑∑ii i i i i i i xxy x x x x y同理有：22ˆˆβγ= (2) 会的。

(3) 存在()()11ˆvar ˆvar αβ= 且 ()()22ˆvar ˆvar γβ= 因为()()∑-=21221211ˆvar r x i σβ当012=r 时，()()()12122122121ˆvar 1ˆvar ασσβ==-=∑∑ii x r x同理，有()()22ˆvar ˆvar γβ= 8. 答：从模型拟合结果可知，样本观测个数为27，消费模型的判定系数95.02=R ，F 统计量为107.37，在0.05置信水平下查分子自由度为3，分母自由度为23的F 临界值为3.028，计算的F 值远大于临界值，表明回归方程是显著的。

模型整体拟合程度较高。

依据参数估计量及其标准误，可计算出各回归系数估计量的t 统计量值：11.009.1121.0 ,69.066.0452.0 ,10.617.0059.1 ,91.092.8133.83210========t t t t除1t 外，其余的j t 值都很小。

工资收入X1的系数的t 检验值虽然显著，但该系数的估计值过大，该值为工资收入对消费边际效应，因为它为1.059，意味着工资收入每增加一美元，消费支出的增长平均将超过一美元，这与经济理论和常识不符。

e商务文档

第四章多重共线性

相关文档推荐：

e商务文档

第四章 多重共线性

相关文档推荐：

第四章多重共线性