当前位置:文档之家› 第四章 多重共线性

第四章 多重共线性

第四章 多重共线性一、填空题1. 在多元线性回归模型中,解释变量间呈现近似线性关系的现象为________问题,给计量经济建模带来不利影响,因此需检验和处理它。

2. 在回归分析中,当检验回归系数所得的t 值不显著时,我们往往将它归结为多重共线性。

但也可能是其他原因的影响,如 或 。

3. 存在多重共线时,回归系数的标准差趋于 ,t 值趋于 。

方差膨胀因子越大,OLS 估计量的 将越大。

4. 检验样本是否存在多重共线性的常见方法有:________ 、 和 。

5. 处理多重共线性的方法主要有两大类:__________和_________。

二、问答题1. 简述多重共线性的含义。

2. 简述多重共线性的后果。

3. 方差膨胀因子(Variance Inflation Factor, VIF )及其含义?4. 列举多重共线性的检验方法。

5. 多重共线性的补救办法?6. 假设在模型i i i i u X X Y +++=22110βββ中,1X 与2X 之间的相关系数为零,于是有人建议你进行如下回归:i i i i i i u X Y u X Y 22201110++=++=γγαα(1) 是否存在11ˆˆβα=且22ˆˆβγ=?为什么? (2) 0ˆβ会等于0ˆα或0ˆγ或某两个的某个线性组合吗? (3) 是否有()()11ˆvar ˆvar αβ=且()()22ˆvar ˆvar γβ=? 7. 在决定一个回归模型的“最优”解释变量集时人们常用逐步回归的方法。

在逐步回归中既可采取每次引进一个解释变量的程序(逐步向前回归),也可以先把所有可能的解释变量都放在一个多元回归中,然后逐一地将它们剔除(逐步向后回归)。

加进或剔除一个变量,通常是根据F 检验看其对ESS 的贡献而作出决定的。

根据你现在对多重共线性的认识,你赞成任何一种逐步回归的程序吗?为什么?8.克莱因与戈德伯格曾用1921-1950年(1942-1944年战争期间略去)美国国内消费Y 和工资收入X1、非工资—非农业收入X2、农业收入X3的时间序列资料,利用OLSE 估计得出了下列回归方程:37.107 95.0 (1.09) (0.66) (0.17) (8.92) 121.0452.0059.1133.8ˆ2321==+++=F R X X X Y 括号中的数据为相应参数估计量的标准误。

试对上述模型进行评析,指出其中存在的问题。

9. 将下列函数以适当的方法消除多重共线性(1)消费函数为:u P W C +++=210βββ,式中C 、W 、P 分别表示消费、工资收入和非工资收入,W 与P 可能高度相关,但研究表明2/12ββ=。

(2)需求函数为:u P P Y Q s ++++=3210ββββ,式中Q 、Y 、P 、P s 分别表示需求量、收入水平、该商品价格及其替代品价格水平,P 、P s 可能高度相关。

三、实践题1. 下表给出了中国商品进口额Y 、国内生产总值GDP 、消费者价格指数CPI 。

资料来源:《中国统计年鉴》,中国统计出版社2000年、2004年。

请考虑下列模型:it t t u CPI GDP Y ++=ln ln ln 321βββ+ (1) 利用表中数据估计此模型的参数。

(2) 你认为数据中有多重共线性吗?(3) 进行以下回归:it t it t it t v CPI C C GDP v CPI B B Y v GDP A A Y 321221121ln ln ln ln ln ln ++=+=+=++根据这些回归你能对数据中多重共线性的性质说些什么?(4) 假设数据有多重共线性,但32ˆˆββ和在5%水平上个别地显著,并且总的F 检验也是显著的。

对这样的情形,我们是否应考虑共线性的问题?2. 理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能源转换技术等因素。

为此,收集了中国能源消费总量Y (万吨标准煤)、国内生产总值(亿元)X1 (代表经济发展水平)、国民总收入(亿元)X2(代表收入水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构)、人均生活电力消费 (千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等在1985-2002年期间的统计数据,具体如下:资料来源:《中国统计年鉴》2004、2000年版,中国统计出版社。

要求:(1)建立对数线性多元回归模型(2)如果决定用表中全部变量作为解释变量,你预料会遇到多重共线问题吗?为什么? (3)如果有多重共线性,你准备怎样解决这个问题?明确你的假设并说明全部计算。

参考答案 一、填空题1.多重共线性;2.设定偏误;模型的理论依据不强。

3. 无穷大;很小;标准差。

4.简单相关系数;可决系数法;参数t 检验的显著性。

5. 差分法;逐步回归法。

二、问答题1. 答:对于K 元线性回归模型i ik k i i i u X X X Y +++++=ββββ 22110 , i=1,2,…,n其基本假设之一是解释变量之间是互相独立的。

如果某两个或多个解释变量之间出现了相关性,则称为多重共线性。

如果存在02211=+++ik k i i X X X λλλ , i=1,2,…,n 其中λ不全为0,即某一个解释变量可以用其它解释变量的线性组合表示,则称为完全共线性。

2. 答:在多重共线性存在的情况下,OLS 估计量仍然保持BLUE 的性质。

虽然OLS 估计量可以得到,但极不稳定,数据资料即使有极小的变化,估计值及标准差就会有很敏感的反应。

估计量的方差随着共线程度的增加而变大,如果达到完全共线,估计量的方差就会为无限大。

随着共线程度的增加,对于回归系数所进行的t 检验,接受原假设的概率加大,即回归系数可能变得不显著。

但与此同时,可以得到较高的可决系数(R 2),如果模型的用途是预测,那么,高度的多重共线未必不是好事。

3. 答:回归系数的OLS 估计量的方差为:12)()(-'=iiu X X b Var σ,可以看作随机项方差2u σ乘上一个比例常数1)(-'ii X X ,这个比例常数称为方差膨胀因子,即1)(-'=iii X X VIF 可以证明:211i i R VIF -=式中i=1,2,…,k, 表示回归模型中引入了k 个解释变量X 。

2i R 为i X 作为被解释变量,与其余k-1个X 进行多元回归分析后得到的可决系数。

如果2i R 越大,说明i X 与其余k-1个X 的多重共线程度越高,得到的i VIF 就会表现出越大。

为了综合评价OLS 估计时出现的多重共线性的程度,可以采用平均膨胀因子: kVIFVIF Ki i∑==1一般认为i VIF 超过10(也有人主张超过5)时,就认为多重共线的程度较高,必须加以处理。

4. 答:主要有相关系数法、可决系数检验法和方差膨胀因子法。

诊断多重共线性最直接的办法就是观察解释变量之间的相关系数,由此可以观察发生在解释变量之间的相关程度的大小。

如果是在回归分析完成之后考察多重共线性的存在,那末,重要变量的回归系数如果没有通过t 检验, 或回归系数的数值与符号与预期严重不符,可以认为存在多重共线问题。

由于引入模型中的解释变量有多个,到底是哪一个导致了多重共线的后果,可以采用可决系数法来判别。

方差膨胀因子法(VIF )也是诊断多重共线性的常用方法。

5. 答:多重共线性存在的情况下最简单的补救办法就是弃掉一个共线变量。

一般地,减轻多重共线性从三个方面考虑:样本方面、解释变量方面和模型的形式方面。

样本方面。

主要是考虑加大样本容量,增加数据小数点后的位数,目的是降低解释变量序列之间成比例的可能性。

解释变量方面。

应用面板数据估计模型,或利用来自经济理论和以往经验的先验信息,用以消除多重共线对估计模型的影响。

逐步回归法是常用的一种多重共线性存在时选择解释变量的方法。

逐步回归法。

要排除多重共线性产生的不良后果,软件操作中应用较多的是逐步回归法。

逐步回归法的基本思想是:将Y 分别对每一个X 作回归模型(K 个),选一可决系数R 2最大者,作为基础方程。

将其余R 2由小到大排队,将X 按R 2由大到小的顺序逐次加入基础方程。

有三种情况:a.加入某个X 后, R 2提高,t 检验显著,保留该X ;b.加入某个X 后, R 2没改善,剔除该X ;c.加入某个X 后, R 2变大,t 绝对值下降,b 的符号、数值变异,认为该X 引起多重共线,不必加入。

模型形式方面。

一阶差分回归模型可以降低多重共线的严重程度,所以我们往往对原模型进行差分变换,对得到的差分模型进行估计进而得到队原模型的估计结果。

这种办法的不足是:由于计算差分,失去了一个观察值,这在小样本中是一个值得关注的问题。

一阶差分法只适于时间序列资料。

同时由于差分计算,可能给差分模型引入原来并不存在的残差项自相关的问题。

6.答:(1) 存在11ˆˆβα=且22ˆˆβγ=。

因为()()()()()()()22122212122211ˆ∑∑∑∑∑∑∑--=ii iiii ii iii x x x x x x x y x x y β当1X 与2X 之间的相关系数为零时,离差形式的021=∑i i xx有 121122212211ˆˆαβ==⎪⎭⎫ ⎝⎛⎪⎭⎫⎝⎛⎪⎭⎫⎝⎛⎪⎭⎫ ⎝⎛=∑∑∑∑∑∑ii i i i i i i xxy x x x x y同理有:22ˆˆβγ= (2) 会的。

(3) 存在()()11ˆvar ˆvar αβ= 且 ()()22ˆvar ˆvar γβ= 因为()()∑-=21221211ˆvar r x i σβ当012=r 时,()()()12122122121ˆvar 1ˆvar ασσβ==-=∑∑ii x r x同理,有()()22ˆvar ˆvar γβ= 8. 答:从模型拟合结果可知,样本观测个数为27,消费模型的判定系数95.02=R ,F 统计量为107.37,在0.05置信水平下查分子自由度为3,分母自由度为23的F 临界值为3.028,计算的F 值远大于临界值,表明回归方程是显著的。

模型整体拟合程度较高。

依据参数估计量及其标准误,可计算出各回归系数估计量的t 统计量值:11.009.1121.0 ,69.066.0452.0 ,10.617.0059.1 ,91.092.8133.83210========t t t t除1t 外,其余的j t 值都很小。

工资收入X1的系数的t 检验值虽然显著,但该系数的估计值过大,该值为工资收入对消费边际效应,因为它为1.059,意味着工资收入每增加一美元,消费支出的增长平均将超过一美元,这与经济理论和常识不符。

相关主题