第 四 章 练 习 题 及 参 考 解 答4.1假设在模型Y j 二■ '-2X 2^ ■-3X 3i - U i 中,X 2与X 3之间的相关系数为零,于是有人建议你进行如下Y=% +ct 2X 2i+u 1iY= 丫1 + 叨3X 3i +u 2i⑴是否存在?2 - ?2且^3 - ?3 ?为什么?⑵ 屛会等于嵋或?或两者的某个线性组合吗?⑶是否有 var ?2 = var :?2 且 var = var ?3 ? 练习题4.1参考解答:有?2「管「「仝「?22、x 2i 、xl 2⑵ 畀会等于%或?的某个线性组合因为 ^=Y —?2X 2—?3X ,且 ®i=Y —闵刃2,?=Y —?s X则学-¥Z1+" (3)存在 var(f?2 )= vaK% 且 var (f?3)= var (电)。
因为var ?2 J W当尬=0 时,var?2「J 22 X 2i 1 -r 23X 2i同理,有 var ?3 二 var ?34.2在决定一个回归模型的“最优”解释变量集时人们常用逐步回归的方法。
在逐步回归中既可采取每次引进一个解释变量的程序(逐步向前回归),也可以先把所有可能的解释变量都放在一个多元回归中,然后逐一地将它们剔除 (逐步回归:⑴存在议2 = ?2且?3 = ?5。
因为?2_ (Z y i X 2i 臣 x 2 MS %x 3i 宦 x 2i X 3i )、X ;i 7 x 3i -、 X 2i X 3i当X 2与X 3之间的相关系数为零时,离差形式的'X 2ix3i =0Y — :?1由于Bi 且?3讥则心雀"2次2也乓二 var :?向后回归)。
加进或剔除一个变量,通常是根据F检验看其对ESS的贡献而作岀决定的。
根据你现在对多重共线性的认识,你赞成任何一种逐步回归的程序吗?为什么?练习题4.2参考解答:根据对多重共线性的理解,逐步向前和逐步向后回归的程序都存在不足。
逐步向前法不能反映引进新的解释变量后的变化情况,即一旦引入就保留在方程中;逐步向后法则一旦某个解释变量被剔出就再也没有机会重新进入方程。
而解释变量之间及其与被解释变量的相关关系与引入的变量个数及同时引入哪些变量而呈现岀不同,所以要寻找到最优”变量子集则采用逐步回归较好,它吸收了逐步向前和逐步向后的优点。
4.3下表给出了中国商品进口额Y、国内生产总值GDP、居民消费价格指数CPI。
表4.11中国商品进口额、国内生产总值、居民消费价格指数括号内为标准误)⑵居民消费价格指数的回归系数的符号不能进行合理的经济意义解释,且且CPI与进口之间的简单相关系数呈现正向变动。
可能数据中有多重共线性。
⑶最大的CI=108.812,表明GDP与CPI之间存在较高的线性相关。
⑷分别拟合的回归模型如下:单方程拟合效果都很好,回归系数显着,可决系数较高,GDP和CPI对进口分别有显着的单一影响,在这两个变量同时引入模型时影响方向发生了改变,这只有通过相关系数的分析才能发现 。
(5)如果仅仅是作预测,可以不在意这种多重共线性,但如果是进行结构分析,还是应该引起注意。
4.4自己找一个经济问题来建立多元线性回归模型,怎样选择变量和构造解释变量数据矩阵 X 才可能避免多重共线性的岀现?练习题4.4参考解答:本题很灵活,主要应注意以下问题 :(1)选择变量时要有理论支持, 即理论预期或假设;变量的数据要足够长,被解释变量与解释变量之间要有因果关系, 并高度相关。
(2)建模时尽量使解释变量之间不高度相关,或解释变量的线性组合不高度相关。
4.5克莱因与戈德伯格曾用 1921-1950年(1942-1944年战争期间略去)美国国内消费 Y 和工资收入X1、非工资一非农 业收入X2、农业收入X3的时间序列资料,利用 OLSE 估计得出了下列回归方程:括号中的数据为相应参数估计量的标准误差。
试对上述模型进行评析,指岀其中存在的问题。
练习题4.5参考解答:从模型拟合结果可知, 样本观测个数为27,消费模型的判定系数R 2 =0.95,F 统计量为107.37,在0.05置信水平下查分子自由度为3,分母自由度为23的F 临界值为3.028,计算的F 值远大于临界值,表明回归方程是显着的。
模型 整体拟合程度较高。
依据参数估计量及其标准误,可计算出各回归系数估计量的t 统计量值:的t j 值都很小。
工资收入 X1的系数的t 检验值虽然显着,但该系数的估计值过大,该值为工资收入对消费边际效应, 因为它为1.059,意味着工资收入每增加一美元,消费支岀的增长平均将超过一美元,这与经济理论和常识不符。
另外,理论上非工资一非农业收入与农业收入也是消费行为的重要解释变量,但两者的t 检验都没有通过。
这些迹象表明,模型中存在严重的多重共线性,不同收入部分之间的相互关系,掩盖了各个部分对解释消费行为的单独影响。
4.6理论上认为影响能源消费需求总量的因素主要有经济发展水平、收入水平、产业发展、人民生活水平提高、能 源转换技术等因素。
为此,收集了中国能源消费总量 Y (万吨标准煤)、国民总收入(亿元)X1(代表收入水平)、国内生产总值(亿元)X2(代表经济发展水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表 产业发展水平及产业结构)、人均生活电力消费(千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能 源转换技术)等在1985-2007年期间的统计数据,具体如表4.2所示。
表4.12 1985~2007年统计数据8.1338.92-0.91,t 11.059 0.17-6.10,t 20.452 0.66-0.69,0.121 1.09= 0.11除t 1夕卜,其余要求:1)建立对数多元线性回归模型,分析回归结果。
2)如果决定用表中全部变量作为解释变量,你预料会遇到多重共线性的问题吗?为什么?3)如果有多重共线性,你准备怎样解决这个问题?明确你的假设并说明全部计算。
练习题4.6参考解答:(1)建立对数线性多元回归模型,引入全部变量建立对数线性多元回归模型如下:生成:lny=log(y),同样方法生成:Inx1,lnx2,lnx3,lnx4,lnx5,lnx6,lnx7.作全部变量对数线性多元回归,结果为:从修正的可决系数和F统计量可以看岀,全部变量对数线性多元回归整体对样本拟合很好,,各变量联合起来对能源消费影响显着。
可是其中的lnX3、lnX4、lnX6对lnY影响不显着,而且lnX2、lnX5的参数为负值,在经济意义上不合理。
所以这样的回归结果并不理想。
(2)预料此回归模型会遇到多重共线性问题,因为国民总收入与GDP本来就是一对关联指标;而工业增加值、建筑业增加值、交通运输邮电业增加值则是GDP的组成部分。
这两组指标必定存在高度相关。
解释变量国民总收入(亿元)X1(代表收入水平)、国内生产总值(亿元)X2(代表经济发展水平)、工业增加值(亿元)X3、建筑业增加值(亿元)X4、交通运输邮电业增加值(亿元)X5(代表产业发展水平及产业结构卜人均生活电力消费(千瓦小时)X6(代表人民生活水平提高)、能源加工转换效率(%)X7(代表能源转换技术)等很可能线性相关,计算相关系数如下:可以看出lnxl与lnx2、lnx3、Inx4、lnx5、lnx6之间高度相关,许多相关系数高于0.900以上。
如果决定用表中全部变量作为解释变量,很可能会岀现严重多重共线性问题。
(3)因为存在多重共线性,解决方法如下:A:修正理论假设,在高度相关的变量中选择相关程度最高的变量进行回归建立模型:而对变量取对数后,能源消费总量的对数与人均生活电力消费的对数相关程度最高,可建立这两者之间的回归模型。
如B:进行逐步回归,直至模型符合需要研究的问题,具有实际的经济意义和统计意义。
采用逐步回归的办法,去检验和解决多重共线性问题。
分别作InY对ln X1,ln X2,ln X3,ln X4,ln X5,ln X6,lnX7的一元回归,结果如下:一元回归结果:其中加入lnX6的方程调整的可决系数最大,以lnX6为基础,顺次加入其他变量逐步回归。
结果如下表经比较,新加入lnX5的方程调整可决系数改进最大,各参数的t检验也都显着,但是lnX5参数的符号与经济意义不符合。
若再加入其他变量后的逐步回归,若剔除不显着的变量和无经济意义的变量后,仍为第一步所建只包含lnX6的一元回归模型。
如果需要建立多元线性回归模型,则需寻找新的变量或改变模型形式。
例如,不取对数作全部变量多元线性回归,结果为:可以看岀还是有严重多重共线性。
作逐步回归:分别作一元回归得到:以X1为基础加入其他变量,结果为:注:括号中为p值.可以发现加入X2、X5、X6、X7后参数的符号不合理,加入X4后并不显着。
只有加入X3后修正的可决系数有所提高,而且参数符号的经济意义合理,X3参数估计值的p值为0.0821,在10%的显着性水平下是显着的。
所以相对较为合理的模型估计结果可以为:4.7在本章开始的“引子”提出的“农业的发展反而会减少财政收入吗?”的例子中,如果所采用的数据如下表所示表4.13 1978-2007年财政收入及其影响因素数据练习题4.7参考解答:(1)根据样本数据得到各解释变量的样本相关系数矩阵如下:样本相关系数矩阵解释变量之间相关系数较高,特别是农业增加值、工业增加值、建筑业增加值、最终消费之间,相关系数都在以上。
这显0.9 然与第三章对模型的无多重共线性假定不符合。
(2)解决方案:采用逐步回归的方式,可以得到没有共线性的回归模型,但可能存在设定偏误。
合并工业增加值与建筑业增加值,得到财政收入与第二产业的回归。
取对数再回归,可以减低共线性。