第62节多元线性回归分析
(3) (n m 1)ˆ *2 / 2 ~ 2(n m 1) 证 (1) 由于(ˆ,Y%)为相互独立且服从正态分布的
Y1,Y2 ,L ,Yn的线性组合,因而由多元正态分布理论
可知,(ˆ ,Y%)服从正态分布,由性质3可知,ˆ与Y%不
相关,因而二者独立.
(2) 由于µ*2 Y%TY% ,结合(1)可知ˆ与ˆ *2相互独立.
nm1 = 1 (Y T Y T X ( X X )1 X )(Y X ( X X )1 X Y )
nm1
n
1 mY 1[In来自X(XX )1
X
]Y
1 [Y Y ˆ ( X Y )]
nm1
例1(p201例6.5) 某种水泥在凝固时放出的热量Y与水 泥中下列4种化学成份有关:
(1)x1 : 3CaO Al2O3; (2) x2 : 3CaO SiO2 (3)x3 : 4CaO Al2O3 Fe2O3; (4)x4 : 2CaO SiO2
Z T DX ( X T X )1 X T X ( X T X )1 X T DT Z
ZT DX ( X T X )1 X T DT Z Z T DBDT Z
=ZT DB
DT Z
ZT
Im1
0
Z12
Z
2 2
L
Z2 m 1
0
0
Z
由 Q Y T (In X ( X T X )1 X T )Y
2[n trIm1] 2[n m 1]
n
其中trA aii表示n n矩阵A的迹.
i 1
因此,由ˆ *2的定义可知:Eˆ *2
EQ
2
n m 1
定理6.2 若( xi1, xi2 ,L , xim ,Yi )(i 1, 2,L , n)满足多元
线性回归模型,则 (1)ˆ与Y%相互独立,且服从正态分布; (2)ˆ与ˆ *2相互独立;
n
m
(Yi ˆ j xij )xik 0, k 0,1,L , m
i 1
j0
将上式可以改写为
n
nm
mn
Yi xik
ˆ j xij xik ( xij xik )ˆ j , k 0,1,L , m
i 1
i 1 j0
j0 i 1
此式可以用矩阵表示为
X TY ( X T X )ˆ
因而 DB2DT DBDT
所以 i i2 i =1, i 1, 2,L , m 1
则
DBDT
Im1
0
0 0
做变换 Z D(Y X ) (Z1, Z2 ,L , Zn )T
EZ D(EY EX ) 0 cov(Z , Z ) D cov(Y X ,Y X )DT D cov( , )DT D 2 In DT 2 In
正态分布,即
Yi ~ N (0 1xi1 L m xim , 2 ), i 1, 2,L , n
因为 EY 0 1x1 L m xm ,则称
Yˆ 0 1x1 L m xm 为Y 关于x1, x2 ,L , xm的线性回归方程
为了表述方便,引入矩阵
1 x11
X
1 M
x21 M
x12 L x22 L M
1 xn1 xn2 L
x1m
x2m M
,
Y
Y1
Y2
M
,
xnm
Yn
0
1
M
,
1
2
M
.
m
n
则 Yi 0 1xi1 L m xim i , i~N (0, 2 ),
i 1, 2,L , n, i相互独立,此式可以用矩阵表示为
Y X
同时
EY X
1. 参数向量 的最小二乘估计 的最小二乘估计满足下式
n
m
n
m
(Yi
i 1
j0
ˆ j xij )2
min
i 1
(Yi
j xij )2
j0
其中xi0 1, i 1, ..., n
上式可以用矩阵表示为 || Y X ˆ ||2 min || Y X ||2 利用微分法求上式的解ˆ ,即
将ˆ代入回归方程,
Yˆ ˆ0 ˆ1x1 L ˆm xm
可以得到回归方程为
Yˆ 62.45 1.55x1 0.51x2 0.10x3 0.144x4
max(| i
Yi
Yˆi
|)
3.93,
min ( i
|
Yi
Yˆi
|)
0
三、估计量的分布及性质
由上一小节内容可知: ˆ的每一个分量都是Y1,Y2,L ,Yn的线性组合,因而由多
若令C 2( X T X )1,则ˆ服从m 1维正态分布,
其密度函数为
f
(x)
m1
(2 ) 2
|C
1
|2
exp{
1
(X
)T C 1( X
)},
2
其中 x Rm1.
性质1 ˆ是Y的线性函数,服从m 1维正态分布, 均值为 ,协方差矩阵为 2( X T X )1.
若估计量为Y的线性函数,则称其为线性估计.
此方程称为正规方程。由于X的秩为m 1,所以X T X
是正定矩阵,因而存在拟矩阵( X T X )1,则
ˆ ( X T X )1 X TY
将ˆ代入回归方程,可得
Yˆ ˆ0 ˆ1x1 L ˆm xm
此方程也称为线性回归方程用该方程可以对Y 预测.
3. 未知参数 2的估计
由6.1节可知, 2的估计为ˆ *2= 1
n
2
n
[Yi
i 1
(ˆ
ˆ xi )]2
类似地可以得到多元情形时, 2的估计为
ˆ *2= 1
n m 1
n
[Yi
i 1
m
ˆ j xij ]2
j0
其矩阵形式为:
ˆ *2 1 (Y X ˆ ) (Y X µ)
nm1 1 (Y X ( X X )1 X Y ) (Y X ( X X )1 X Y )
性质2 ˆ是的最小方差线性无偏估计.
证 设T是的任一线性无偏估计,则T必可表为 T AY
而且ET E( AY ) AEY AX .由的任意性,则
AX Im1 由于 cov(T ,T ) Acov(Y ,Y )AT 2( AAT )
cov(µ, µ) 2( XT X )1
cov(T ,T ) cov(µ, µ) 2 ( AAT ) 2 ( X T X )1 2[( AAT ) ( X T X )1]
通过实验得到下列数据:
序号
1 2 3 4 5 6 7 8 9 10
11
12
13
x1%
7 1 11 11 7 11 3 1 2 21
1
11
10
x2%
26 29 56 31 52 55 71 31 54 47
40
66
68
x3%
6 15 8 8 6 9 17 22 18
4
23
9
8
x4%
60 52 20 47 33 22 6 44 22 26
第6.2节 多元线性回归分析
一、多元线性回归模型 二、参数的估计 三、参数估计量的分布与性质 四、回归系数与回归方程的显著性检验 五、最优回归方程的选择 六、稳健回归
一、多元线性回归的数学模型
实际问题中的随机变量Y 通常与多个普通变量 x1, x2 ,L , xm (m 1)有关.
对于自变量x1, x2 ,L , xm的一组确定值,Y具有一 定的分布,若Y的数学期望存在,则它是x1, x2 ,L , xm 的函数.
又cov(T,T) cov(µ, µ) 2[( AAT ) ( XT X)1] 0
由T的任意性可知ˆ是的最小方差线性无偏估计.
令Y% Y X ˆ,则有Y% [In X ( X T X )1 X T ]Y ,
称其为残差向量.
性质3 Y%与ˆ互不相关
证 计算二者的协方差矩阵
cov(Y%, ˆ )
[In X ( X T X )1 X T ]cov(Y ,Y )[( X T X )1 X T ]T
2[In X ( X T X )1 X T ][( X T X )1 X T ]T 0
因而Y%与ˆ互不相关.
性质4 EY% 0
cov(Y%,Y%) 2[In X ( X T X )1 X T ]
又因为Z为正态随机向量,上式表明Z1, Z2 ,L , Zn
相互独立,同服从于N (0, 2 )分布. 由 X ˆ X X ( X T X )1 X TY X
X ( X T X )1 X T (Y X ) X ( X T X )1 X T DT Z
则 ||X µ X ||2 = (X µ X )T ( X µ X )
回归系数,设( xi1, xi2 ,L , xim ,Yi )(i 1, 2,L , n) 是( x1, x2 ,L , xm ,Y )的n个观测值,同时它们满 足关系
Yi 0 1xi1 L m xim i , i~N (0, 2 ), i 1, 2,L , n, i相互独立.
由于 i 相互独立,因而Yi 相互独立,且服从
n m 1 (3)设B=X ( X T X )1 X T ,由于B是n n非负定矩阵,秩为
m 1,则存在n阶正交矩阵D,使得
O
DBDT
m+1
0
0
0
O
0
其中DT D In , i 0, i 1, 2,L , m 1
由于 B2 BBT X ( X T X )1 X T [ X ( X T X )1 X T ]T B
EY
Y x1 , x2 ,L , xm