当前位置：文档之家› 应用回归分析,第5章课后习题参考答案.docx

应用回归分析,第5章课后习题参考答案.docx

第5 章自变量选择与逐步回归
思考与练习参考答案
自变量选择对回归参数的估计有何影响？
答：回归自变量的选择是建立回归模型得一个极为重要的问题。

如果模型中丢
掉了重要的自变量, 出现模型的设定偏误，这样模型容易出现异方差或自相关
性，影响回归的效果；如果模型中增加了不必要的自变量, 或者数据质量很差的自变量, 不仅使得建模计算量增大, 自变量之间信息有重叠，而且得到的模型稳定性较差，影响回归模型的应用。

自变量选择对回归预测有何影响？
答：当全模型（m元）正确采用选模型（p 元）时，我们舍弃了m-p 个自变量，回归系数的最小二乘估计是全模型相应参数的有偏估计，使得用选模型的预测是有偏的，但由于选模型的参数估计、预测残差和预测均方误差具有较小的方差，
所以全模型正确而误用选模型有利有弊。

当选模型（p 元）正确采用全模型（m 元）时，全模型回归系数的最小二乘估计是相应参数的有偏估计，使得用模型的预测是有偏的，并且全模型的参数估计、预测残差和预测均方误差的方差都比选
模型的大，所以回归自变量的选择应少而精。

如果所建模型主要用于预测，应该用哪个准则来衡量回归方程的优劣？
答：如果所建模型主要用于预测，则应使用C p 统计量达到最小的准则来衡量回
归方程的优劣。

试述前进法的思想方法。

答：前进法的基本思想方法是：首先因变量Y对全部的自变量x1,x2,...,xm 建立m个一元线性回归方程, 并计算 F 检验值，选择偏回归平方和显著的变量（F 值最大且大于临界值）进入回归方程。

每一步只引入一个变量，同时建立m－1个二元线性回归方程，计算它们的 F 检验值，选择偏回归平方和显著的两变量变
量（F 值最大且大于临界值）进入回归方程。

在确定引入的两个自变量以后，再
引入一个变量，建立m－2 个三元线性回归方程，计算它们的 F 检验值，选择偏
回归平方和显著的三个变量（ F 值最大）进入回归方程。

不断重复这一过程，直
到无法再引入新的自变量时，即所有未被引入的自变量的 F 检验值均小于 F 检验临界值Fα(1,n-p-1) ，回归过程结束。

试述后退法的思想方法。

答：后退法的基本思想是：首先因变量Y对全部的自变量x1,x2,...,xm 建立一个m元线性回归方程, 并计算t 检验值和F 检验值，选择最不显著（P值最大且大于临界值）的偏回归系数的自变量剔除出回归方程。

每一步只剔除一个变量，
再建立m－1 元线性回归方程，计算t 检验值和 F 检验值，剔除偏回归系数的t 检验值最小（P值最大）的自变量，再建立新的回归方程。

不断重复这一过程，
直到无法剔除自变量时，即所有剩余p 个自变量的 F 检验值均大于 F 检验临界值Fα(1,n-p-1) ，回归过程结束。

前进法、后退法各有哪些优缺点？
答：前进法的优点是能够将对因变量有影响的自变量按显著性一一选入，计算量小。

前进法的缺点是不能反映引进新变量后的变化，而且选入的变量就算不显著也不能删除。

后退法的优点是是能够将对因变量没有显著影响的自变量按不显著
性一一剔除，保留的自变量都是显著的。

后退法的缺点是开始计算量大，当减少一个自变量时，它再也没机会进入了。

如果碰到自变量间有相关关系时，前进法和后退法所作的回归方程均会出现不同程度的问题。

试述逐步回归法的思想方法。

答：逐步回归的基本思想是有进有出。

具体做法是将变量一个一个的引入，当每引入一个自变量后，对已选入的变量要进行逐个检验，当原引入变量由于后面变量的应纳入而变得不再显著时，要将其剔除。

引入一个变量或从回归防方程中剔
除一个变量，为逐步回归的一步，每一步都要进行 F 检验，以确保每次引入新的变量之前回归方程中只包含显著的变量。

这个过程反复进行，直到无显著变量引入回归方程，也无不显著变量从回归方程中剔除为止。

这样就避免了前进法和后退法各自的缺陷，保证了最后得到的回归子集是最优回归子集。

在运用逐步回归法时，α进和α出的赋值原则是什么？如果希望回归方程中多保
留一些自变量，α进应如何赋值？
答：原则是要求引入自变量的显著水平α进小于剔除自变量的显著性水平α出，否则可能出现死循环；若想回归方程多保留自变量，可以增大α进的值，使得更多自变量的P值在α
α进的值不得超过α出的值。

进的范围内，但要注意，
在研究国家财政收入时，我们把财政收入按收入形式分为：各项税收收入、企
业收入、债务收入、国家能源交通重点建设收入、基本建设贷款归还收入、国
家预算调节基金收入、其他收入等。

为了建立国家财政收入回归模型，我们以
y（亿元）为因变量，自变量如下：x1 为农业增加值（亿元），x
财政收入
2 为工
业增加值（亿元），x3 为建筑业增加值（亿元），x4 为人口数（万人），x
5 为社会消费总额（亿元），x
6 为受灾面积（万公顷）。

据《中国统计年鉴》获得1978—1998 年共21 个年份的统计数据，见表（P167）。

由定性分析知，所有自变量都
与y 有较强的相关性，分别用后退法和逐步回归法作自变量选元。

解：后退法SPSS输出结果：
逐步回归法
二者结果相同，回归方程为：
y=—－＋
但是回归系数的解释不合理。

表的数据是1968－1983 年期间与电话线制造有关的数据，各变量的含义如下：
x1——年份；
x2——国民生产总值（10 亿美元）；
x3——新房动工数（单位：1000）；
x4——失业率（％）；
x5——滞后 6 个月的最惠利率；
x6——用户用线增量（％）；
y——年电话销量（百万尺双线）。

（1）建立 y 对 x2~x6 的线性回归方程。

SPSS 输出结果如下：
回归方程为： y=+x 2 + x 6 其中 x 2、 x 5 的系数未通过检验。

3 x
4 x 5
x (2) 用后退法选择自变量。

后退法剔除 P 值最大的剔除 x5，模型的参数均通过显著性检验。

（显著性水平α ＝），得回归方程为：
y=+x 2 +x
6 模型表明年电话销量（ y ）与国民生产总值、新房动工数、失 3 x 4 x
业率、用户用线增量有显著的线性关系。

（3）用逐步回归法选择自变量
逐步回归法引入 x3,x5,x4 进入回归模型，没有剔除变量，保留
x3,x5,x4
作为最终模型。

回归方程为： y=＋—＋
模型表明年电话销量（ y ）与新房动工费、失业率、滞后 6 个月的最惠利率有显著的线性关系。

（4）根据以上计算结果分析后退法和逐步回归法的差异
答：两个方法得到的最终模型是不同的，后退法首先剔除了 x5，而逐步回归法在第二步引入了 x5，说明两种方法对自变量选取的方法是不同的，这与自变量
之间的相关性有关。

相比之下，后退法首先做全模型的回归，每个自变量都有机会展示自己的作用，所得结果更值得信服。

从本例看，
x5 是滞后 6 个月的最惠
利率，对因变量的影响似乎不大。

e商务文档