案例一:用回归模型预测木材剩余物(file:b1c3)
伊春林区位于黑龙江省东北部。
全区有森林面积218.9732万公顷,木材蓄积量为2.324602亿m3。
森林覆盖率为62.5%,是我国主要的木材工业基地之一。
1999年伊春林区木材采伐量为532万m3。
按此速度44年之后,1999年的蓄积量将被采伐一空。
所以目前亟待调整木材采伐规划与方式,保护森林生态环境。
为缓解森林资源危机,并解决部分职工就业问题,除了做好木材的深加工外,还要充分利用木材剩余物生产林业产品,如纸浆、纸袋、纸板等。
因此预测林区的年木材剩余物是安排木材剩余物加工生产的一个关键环节。
下面,利用一元线性回归模型预测林区每年的木材剩余物。
显然引起木材剩余物变化的关键因素是年木材采伐量。
给出伊春林区16个林业局1999年木材剩余物和年木材采伐量数据如表1.1。
散点图见图1.1。
观测点近似服从线性关系。
建立一元线性回归模型如下:
y t = β0 + β1 x t + u t
表1.1 年剩余物y t和年木材采伐量x t数据
林业局名年木材剩余物y t(万m3)年木材采伐量x t(万m3)
乌伊岭26.13 61.4
东风23.49 48.3
新青21.97 51.8
红星11.53 35.9
五营7.18 17.8
上甘岭 6.80 17.0
友好18.43 55.0
翠峦11.69 32.7
乌马河 6.80 17.0
美溪9.69 27.3
大丰7.99 21.5
南岔12.15 35.5
带岭 6.80 17.0
朗乡17.20 50.0
桃山9.50 30.0
双丰 5.52 13.8
合计202.87 532.00
图1.1 年剩余物y t和年木材采伐量x t散点图
图1.2 EViews 输出结果
EViews 估计结果见图1.2。
在已建立Eviews 数据文件的基础上,进行OLS 估计的操作步骤如下:打开工作文件,从主菜单上点击Quick 键,选Estimate Equation 功能。
在出现的对话框中输入y c x 。
点击Ok 键。
立即会得到如图1.2所示的结果。
下面分析EViews 输出结果。
先看图1.2的最上部分。
被解释变量是y t 。
估计方法是最小二乘法。
本次估计用了16对样本观测值。
输出格式的中间部分给出5列。
第1列给出截
距项(C )和解释变量x t 。
第2列给出第1列相应项的回归参数估计值(0ˆβ和1ˆ
β)。
第3列
给出相应回归参数估计值的样本标准差(s(0ˆβ), s(1ˆ
β))。
第4列给出相应t 值。
第5列给出t 统计量取值大于用样本计算的t 值(绝对值)的概率值。
以t = 12.11266为例,相应概率0.0000表示统计量t 取值(绝对值)大于12.1的概率是一个比万分之一还小的数。
换句话说,若给定检验水平为0.05,则临界值为t 0.05 (14) = 2.15。
t = 12.1>2.15落在了H 0的拒绝域,所以结论是β1不为零。
输出格式的最下部分给出了评价估计的回归函数的若干个统计量的值。
依纵向顺序,这些统计量依次是可决系数R 2、调整的可决系数2
R (第3章介绍)、回归函
数的标准差(s.e.,即均方误差的算术根σˆ)、残差平方和、对数极大似然函数值(第2章介
绍)、DW 统计量的值、被解释变量的平均数(y )、被解释变量的标准差()(t y s )、赤池(Akaike )信息准则(是一个选择变量最优滞后期的统计量)、施瓦茨(Schwatz )准则(是一个选择变量最优滞后期的统计量)、F 统计量(第3章介绍)的值以及F 统计量取值大于该值的概率。
注意:S.D.和s.e.的区别。
s.e.和SSE 的关系。
根据EViews 输出结果(图1.2),写出OLS 估计式如下:
t y
ˆ=
-0.7629 + 0.4043
x t
(1.1)
(-0.6) (12.1) R 2
= 0.91, s. e . = 2.04
其中括号内数字是相应t 统计量的值。
s.e .是回归函数的标准误差,即σˆ=)216(ˆ2-∑t u 。
R 2是可决系数。
R 2 = 0.91说明上式的拟合情况较好。
y t 变差的91%由变量x t 解释。
检验回归系数显著性的原假设和备择假设是(给定α = 0.05)
H 0:β1 = 0; H 1:β1 ≠ 0
图1.3 残差图
因为t = 12.1 > t 0.05 (14) = 2.15,所以检验结果是拒绝β1 = 0,即认为年木材剩余物和年木材采伐量之间存在回归关系。
上述模型的经济解释是,对于伊春林区每采伐1 m 3木材,将平均产生0.4 m 3的剩余物。
图1.3给出相应的残差图。
Actual 表示y t 的实际观测值,Fitted 表示y t 的拟合值t y ˆ,Residual 表示残差t u ˆ。
残差图中的两条虚线与中心线的距离表示残差的一个标准差,即s.e .。
通过残差图可以看到,大部分残差值都落在了正、负一个标准差之内。
估计β1的置信区间。
由
t = P {
)
ˆ
(1
11
ˆβββs -≤ t 0.05 (14) } = 0.95
得
1
1ˆββ-≤ t 0.05 (14) )ˆ
(1βs β1的置信区间是
[1ˆβ- t 0.05 (14) )ˆ(1βs , 1ˆ
β+ t 0.05 (14) )ˆ(1βs ]
[0.4043 - 2.15 ⨯ 0.0334, 0.4043 + 2.15 ⨯ 0.0334]
[0.3325, 0.4761]
以95%的置信度认为,β1的真值范围应在[0.3325, 0.4761 ]范围中。
下面求y t 的点预测和平均木材剩余物产出量的置信区间预测。
假设乌伊岭林业局2000年计划采伐木材20万m 3,求木材剩余物的点预测值。
y
ˆ2000 = - 0.7629 + 0.4043 x 2000
= -0.7629 + 0.4043 ⨯ 20 = 7.3231万m 3
s 2(E (y ˆ2000
)) = 2ˆσ(T 1
+ ∑--22
)()(x x x x F ) = 4.1453 (161+2606.3722)25.3320(2
-) = 0.4546
s (E (y ˆ2000)) =
4546.0= 0.6742 因为
E (y ˆ2000) = E(0ˆβ+1ˆβx 2000 ) = β0 + β1 x 2000 = E(y 2000)
t = )ˆ()(ˆ200020002000y s y E y
-~ t (T -2)
则置信度为0.95的2000年平均木材剩余物E(y 2000)的置信区间是
y
ˆ2000 ± t 0.05 (14) s (E (
y
ˆ2000)) = 7.3231 ± 2.15 ⨯ 0.6742
= 5.8736, 8.7726
从而得出预测结果,2000年若采伐木材20万m 3,产生木材剩余物的点估计值是7.3231万m 3。
平均木材剩余物产出量的置信区间估计是在 [5.8736, 8.7726] 万m 3之间。
从而为恰当安排2000年木材剩余物的加工生产提供依据。
木材剩余物产出量单点的置信区间的计算。
s 2(y ˆ2000) = 2ˆσ(1+T 1+ ∑--22
)()(x x x x F )
= 4.1453 (1+161+2606.3722)25.3320(2
-) = 4.5999
s (y ˆ2000)
EViews 通过预测程序计算的结果是
,
木材剩余物产出量单点的置信区间的估计结果是
y
ˆ2000 ± t 0.05 (14) s (
y
ˆ2000) = 7.3231 ± 2.15 ⨯ 2.145 = [2.71,11.93]
问题:估计结果中0ˆ
β没有显著性,去掉截距项 β0可以吗?
答:依据实际意义可知,没有木材采伐量就没有木材剩余物,所以理论上β0是可以取零的。
而有些问题就不可以。
例如家庭消费和收入的关系。
即使家庭收入为零,消费仍然非零。
一般来说,截距项的估计量没有显著性时,也不做剔出处理。
本案例剔出截距项后的估计结果是
t y
ˆ= 0.3853 x t
(28.3) R 2
= 0.91, s. e . = 2.0
点预测值是
y
ˆ2000 = 0.3853 x 2000 = 0.3853 ⨯ 20 = 7.7060
万m 3。