-多元线性回归模型
(2) 相对误差 PE (Percentage Error)
PE = yˆt yt , t = 1, 2, …, T yt
(6-59)
PE 属于单期(单点)评价。PE 没有测量单位,测量的是预测误差的相对值。
(3) 误差均方根 rms error (Root Mean Squared Error)
其中 s( yˆT 1) = s C(X ' X )1C'
(6-48) (6-49) (6-53)
(6-57)
6.9.4 预测的评价指标
(1) 预测误差
预测误差定义为(注意:这里的 et 表示的是预测误差,不是残差)。
et = yˆ t - yt, t = 1, 2, …, T
(6-58)
et 属于单期(单点)评价。et 有测量单位,测量的是预测误差的绝对量。
MAPE = 1 T yˆt yt , t = 1, 2, …, T 值平均属于多期(多点)预测的综合评价。相对误差绝对值平均没 有测量单位,考查的是相对误差。之所以取绝对值运算是防止正、负预测相对误 差值的相互抵消。 (6) 泽尔系数(Theil Coefficent)
TSS /(T 1)
T k
TSS
T k
(6-43)
6.7 F 检验 对于多元线性回归模型,在对每个回归系数进行显著性检验之前,应该对回归 模型的整体做显著性检验。这个检验要用到 F 统计量。
当检验被解释变量 yt 与一组解释变量 x1, x2 , ... , xk -1 是否存在回归关系时, 给出的零假设与备择假设分别是
Theil =
1
T
T
( yˆ t
t 1
yt )2
,
1
T
T
( yˆ t ) 2
t 1
1 T
T
(yt )2
t 1
t = 1, 2, …, T
(6-63)
Theil 的取值范围是 [0,1]。显然在预测区间内,当 yˆ t 与 yt 完全相等时,Theil = 0; 当预测结果最差时,Theil = 1。 以上 6 个式子中, yˆ t 表示预测值,yt 表示实际值。公式中的累加范围是用 1 至 T 表示的,当然也可以指样本外的预测评价。
H0:1 = 2 = ... = k-1 = 0 , H1:i, i = 1, ..., k -1,不全为零。 注意,H1 定义的是“i 不全为零”,而不是“i 全不为零”。而且i 中不包括0。 定义 F 统计量为
F = ESS /(k 1) RSS /(T k)
(6-45)
在
H0
成立条件下,有
F
0.8
X2
0.4
2.0
2.5
3.0
3.5
4.0
4.5
图 6-3 xt 1 与 yt 的关系
图 6-4 xt 2 与 yt 的关系
6.10 多元线性回归计算举例 考虑建立二元线性回归模型如下,
yt = 0 + 1 xt 1 + 2 xt 2 + ut 用矩阵表示为
Y=X+u 其中
Y = y1 y2 y15 = 1.62 1.20 2.12
T
T
T
= + plim ( -X 'X)-1 plim - X ' E(u) =
T
T
6.3.5 一致性 下面证明 OLS 估计量的一致性。由式(6-13)有
Var( ˆ ) = 2 (X 'X )-1 = - 2 ( - X 'X )-1
(6-18) (6-19)
取极限,则有
plim Var( ˆ ) = plim T -1 plim ( - X ' X )-1
第 6 章 多元线性回归模型
6.10 多元线性回归计算举例 例 6-1 被解释变量是年销售量 yt (万瓶),解释变量分别是地区人口数(xt1,万人) 和 人均年收入(xt2,千元)。试建立二元线性回归销售模型。
2.8 Y
2.4
2.8 Y
2.4
2.0
2.0
1.6
1.6
1.2
1.2
0.8
0.4 4
X1 8 12 16 20 24 28 32 36 40 44
ˆ 具有线性特性。 6.3.2 无偏特性 利用假定 (1),E(u) = 0,由式 ˆ = (X 'X )-1 X 'Y,
E( ˆ ) = + (X 'X)-1X ' E(u) =
(6-12)
ˆ 是的线性无偏估计量,具有无偏性。 6.3.3 最小方差性 下面求 ˆ 的方差协方差矩阵。当假定 (1)、(3)、(4) 成立时,利用上式得
若用样本计算的 t t / 2(T- k),则接受 H0, 若用样本计算的 t > t / 2(T- k),则拒绝 H0。 其中表示检验水平,t / 2(T- k)表示临界值。t 检验示意图见图 6-2。 注意:对于模型 (6-1),上述 t 检验应做 k - 1 次。t 检验是双侧(双端、双边)检验。
1 T
T t 1
yˆ t
yt
,
t = 1, 2, …, T
(6-61)
绝对误差平均属于多期(多点)预测的综合评价。绝对误差平均有测量单位,与 yt 的测量单位相同。之所以取绝对值运算是防止正、负预测误差值的相互抵消。 (5) 相对误差绝对值平均 MAPE (Mean Absolute Percentage Error)
6.9 预测 6.9.1 点预测 设 T+1 期解释变量向量用 C 表示,
C = (1 xT+1,1 xT+1,2 … xT+1,k-1 ) ˆ 已知。则 T+1 期被解释变量 yT+1 的点预测式是,
yˆT 1 = C ˆ = ˆ 0 + ˆ 1 xT+1 1 + … + ˆ k-1 xT+1 k-1 yT+1 的 95%置信度的置信区间是
Var( ˆ ) = E[( ˆ –) ( ˆ –)'] = E[(X 'X)-1X ' u u' X (X 'X)-1]
= E[(X 'X)-1X ' 2I X (X 'X)-1] = 2 (X 'X)-1
(6-13)
ˆ 具有最小方差特性。
6.3.4 渐近无偏性
plim E( ˆ ) = plim E[(X 'X)-1 X 'Y ] = plim E[(X 'X)-1X ' (X + u)]
6.10 多元线性回归计算举例 ˆ = (X 'X )-1 X 'Y
1.2464 = 2.1279103
minS = uˆ ' uˆ = (Y -Yˆ )' (Y -Yˆ ) = (Y - X ˆ )' (Y - X ˆ )
= Y 'Y - ˆ 'X 'Y - Y ' X ˆ + ˆ 'X 'X ˆ = Y 'Y - 2 ˆ 'X 'Y + ˆ 'X 'X ˆ
因为 Y 'X ˆ 是一个标量,所以有 Y 'X ˆ = ˆ 'X 'Y。求 S 对 ˆ ' 的一阶偏
6.5 Y 与最小二乘估计量 ˆ 的分布
若假定 u N(0, I ), 则每个 ut 都服从正态分布。于是有 Y N(X , I )
ˆ N(, (X 'X )-1 )
(6-34)
通常未知。可用 的无偏估计量 s 构造 Var( ˆ ) 的估计式,
Var
(
ˆ
)
=
s(2βˆ )
=
本点的拟合优度越好,即解释变量对被解释变量的解释作用越强。
6.6.3 调整的多重确定系数 R 2 对于给定的样本值 yt,TSS 是不变的。随着模型中解释变量个数的增加,RSS 趋向于变小,即确定系数 R 2 变大。为考虑模型中解释变量个数的变化对 R2
的影响,调整的多重可决系数 R 2 定义如下,
s
(X
'
X
)-1
(6-35)
Var
(
ˆ
)也用
s2ˆ
表示。因为
s是
的无偏估计量,所以
s2ˆ
=s(X
'X
)-1
也是
Var( ˆ )= (X 'X )-1 的无偏估计量。
6.6.2 多重确定系数 R2
R2 = ESS Yˆ' Yˆ Ty 2
TSS Y Y - Ty 2
(6-41)
多重可决系数 R2 的取值范围在[0, 1]之间。R2 越接近 1,估计的回归函数对样
-多元线性回归模型
6.1.2 模型的假定条件 假定 ⑴ 随机误差项向量 u 是非自相关的,同方差的。其中每一项
都满足均值为零,方差为 2,相同且为有限值,即
1 0 0
E(u) = 0 = 0
0
0
(T 1)
,Var
(u)
=
2I
=
2
0
0
0
0
1
(T
T
)
假定⑵ 解释变量与误差项相互独立,即
E(X 'u) = 0 假定⑶ 解释变量之间线性无关。
1 x11 x12 1 27.4 2.450
X=
1 ...
1
x 21 ... x15 1
x 22 ...
=
x15 2
1 .1..
18.0 ...