当前位置:文档之家› 一元线性回归模型的置信区间与预测

一元线性回归模型的置信区间与预测

置信区间,在其他情况不变时,就必须降低对置信水平的要求。
二、预测值的置信区间
1、点预测 计量经济学模型的一个重要应用是经济预测。对于模型
yi = β0 + β1xi + ui , i = 1,2,⋯, n
如果给定样本以外的解释变量的观测值 x f ,有
y f = β0 + β1x f + u f
因 x f 是前述样本点以外的解释变量值,所以 u f 和 ui (i = 1,2,⋯, n) 是不相关
^
在前面的课程中,我们已经知道,线性回归模型的参数估计量 β 是随机变量
∑ yi 的函数,即: βˆ1 = ki yi ,所以它也是随机变量。在多次重复抽样中,每次
的样本观测值不可能完全相同,所以得到的点估计值也不可能相同。现在我们用 参数估计量的一个点估计值近似代表参数值,那么,二者的接近程度如何?以多 大的概率达到该接近程度?这就要构造参数的一个区间,以点估计值为中心的一 个区间(称为置信区间),该区间以一定的概率(称为置信水平)包含该参数。
n
xf − x
(xi − x )2

⎟σˆ ⎟
2 u


i =1

y 根据置信区间的原理,得显著性水平α 下 f 的置信区间:
⎛ ⎜

⎜ yˆ f − tα ∗

2


(2.5.8)


∑ ⎜
⎜⎜1
+
1 n
+

n
xf − x
(xi − x )2

⎟⎟σˆ
2 u

,

i=1

yˆ f + tα ∗ 2
( ) 即回答 β1 以何种置信水平位于 βˆ1 − a, βˆ1 + a 之中,以及如何求得 a。
在变量的显著性检验中已经知道
^
t = βi − βi ~ t(n − k − 1)
s^
βi
(2.5.1)
这就是说,如果给定置信水平1 −α ,从 t 分布表中查得自由度为(n-k-1)的临界值
( ) tα ,那么 t 值处在 − tα 2 , tα 2 的概率是1 − α 。表示为 2
( ) 到被解释变量 y f 或其均值 E y f 以 (1 − α ) 的置信水平处于某区间的结论。
经常听到这样的说法,“如果给定解释变量值,根据模型就可以得到被解释
变量的预测值为……值”。这种说法是不科学的,也是计量经济学模型无法达到
的。如果一定要给出一个具体的预测值,那么它的置信水平则为 0;如果一定要
平处于以该估计值为中心的一个区间中。于是,又是一个区间估计问题。
2、区间预测
如果已经知道实际的预测值 y f ,那么预测误差为
e f = y f − yˆ f 显然, e f 是一随机变量,可以证明
E (e f ) = E (y f − yˆ f )
( ) ( ) = E β 0 + β1 x f + u f − E βˆ0 + βˆ1x f
本,利用(2.2.6)和(2.2.7)的计算公式,分别计算参数估计值。
表 2.2.1 有关数据表
.
.
^
^
^
年份 ED
FI
ED
FI
ED ED − ED (ED − ED) / ED
1991 708
3149
-551 -2351 734
-26
1992 793
3483
-466 -2017 804
-11
1993 958
的。引用已有的 OLS 的估计值,可以得到被解释变量 y f 的点预测值:
yˆ f = βˆ0 + βˆ1x f
(2.5.4)
但是,严格地说,这只是被解释变量的预测值的估计值,而不是预测值。原因在
于两方面:一是模型中的参数估计量是不确定的,正如上面所说的;二是随机项
的影响。所以,我们得到的仅是预测值的一个估计值,预测值仅以某一个置信水
计量的值为 413.58,也表示方程系数显著不为 0。
表一:Eviews 计算结果
Dependent Variable: ED Method: Least Squares Date: 09/21/02 Time: 16:22 Sample: 1991 1997 Included observations: 7
显然,参数 β1 的置信区间要小。
在实际应用中,我们当然希望置信水平越高越好,置信区间越小越
好。如何才能缩小置信区间?从(2.5.3)式中不难看出:(1)增大样本容量 n。
tα 在同样的置信水平下,n 越大,从 t 分布表中查得自由度为(n-k-1)的临界值 2 越小;同时,增大样本容量,在一般情况下可使估计值的标准差 Sβˆ 减小,因为
∑ ⎛
⎜ ⎜⎜1 + ⎜ ⎝
1 n
+
xf − x
n
(xi − x )2
i =1
⎞ ⎟
⎟⎟σˆ
2 u⎟⎠来自⎞ ⎟ ⎟ ⎟ ⎟ ⎟⎠
上式称为 y f 的个值区间预测,显然,在同样的α 下,个值区间要大于均值
区间。(2.5.7)和(2.5.8)也可表述为: y f 的均值或个值落在置信区间内的概率为
1 − α ,1 − α 即为预测区间的置信度。或者说,当给定解释变量值 x f 后,只能得
∑ σˆ
2 u
=
ei2 n−2
减小,因为式中分母的增大是肯定的,分子并不一定增大 。(2)更
∑ 主要的是提高模型的拟合优度,以减小残差平方和 ei2 。设想一种极端情况,
如果模型完全拟合样本观测值,残差平方和为 0,则置信区间长度也为 0,预测
区间就是一点。(3)提高样本观测值的分散度。在一般情况下,样本观测值越分
∑ EDt = 8812
t
∑ FIt = 38500
t
ED = 1259
FI = 5500
∑ FI
2 t
=
236869644
t
∑ FIt· EDt = 54078207
.
∑ FI t = 5612207
.2
∑ FI = 25119644
t
t
由电脑计算的参数估计值为
αˆ = −39.65, βˆ = 0.24
散,作为分母的 ∑ (xi − x )2 的值越大,致使区间缩小。置信水平与置信区间是矛
盾的。置信水平越高,在其他情况不变时,临界值 tα 越大,置信区间越大。如 2
果要求缩小置信区间,在其他情况不变时,就必须降低对置信水平的要求。
四、一元线性回归模型参数估计实例
为了帮助读者理解一元线性回归模型参数估计的原理,下面以我国国家财政文教科学卫

⎟σ ⎟
2 u


i =1

(2.5.5)


( ) ∑ D e f

=
⎜ ⎜
1
+
1 n
+

n
xf − x
(xi − x )2

⎟⎟σ
2 u


i =1

(2.5.6)
因 yˆ f 和 e f 均服从正态分布,可利用它们的性质构造统计量,求区间预测值。利
用 yˆ f 构造统计量为:
N yˆ f =
yˆ f − E(y f )
~ N (0,1)


∑ ⎜
⎜1 + ⎜n ⎜
n
xf − x
(xi − x )2

⎟σ ⎟
2 u


i =1


σ
2 u
用估计值
σˆ
2 u
代入上式,有
t yˆ f =
yˆ f − E(y f )
~ t(n − 2)


∑ ⎜
⎜ ⎜
1 n
+

n
xf − x
(xi − x )2

⎟⎟σˆ
2 u


i =1

( ) 这样,可得显著性水平α 下 E y f 的置信区间为
∑ ⎛
⎜ ⎜ ⎜ yˆ f −tα 2 ∗ ⎜ ⎜ ⎝



⎜ ⎜
1 n
+

n
xf −x
(xi − x)2

⎟⎟σˆ
2 u

,

i=1

∑ yˆ f + tα ∗ 2
⎛ ⎜ ⎜1 ⎜n ⎜ ⎝
+
xf −x
n
(xi − x)2
全部统计结果如下表。
从表中可看出,判定系数 R2 = 0.99,表示以国家财政收入额来解释国家文教科学卫生事 业费支出额,在 1991 至 1997 年间,拟合度相当理想。截距项α 的估计值对应的 t-统计量为 0.47,不能通过显著性检验,即不能推翻 α 为 0 的假设;而一次系数 β 的估计值对应的 t统计量为 20.34,不用查表即可知通过显著性检验,即 β 显著不为 0,因果关系成立。F-统
4349
-301 -1151 1001
-43
1994 1278 5218
19
-282 1196
82
1995 1467 6242
208
742 1424
43
1996 1704 7408
445
1908 1685
19
1997 1904 8651
645
3151 1963
相关主题