第13章多元线性回归
第13章 多元线性回 归
多元线性回归模型(对总体而言)
Y 0 1X1 2 X 2 p X p
1,2 ,p 为未知参数, 为随机误差项,反映其它
未列入回归模型的变量对因变量的影响。
Y,X均为为列向量
Y1 Y
Yn
X1i Xi
X1n
1
i
n
MSE=SS E/(n-k)
Butler运输公司的ANOVA表
方差来源 平方和 自由度
回归方程 21.601 2
均方 (mean square)
10.800
F统计量 32.88
误差
2.299 7
0.328
合计
23.900 9
2. 单个参数显著性的t检验:
与一元回归模型一样,模型估计的参数 bi
克服多重共线性:合并有相关关系的自变 量
多元回归模型的估计和预测
1.E(y)的点估计量和y的预测值 将自变量 x1, x2, , xp 的值代入估计方程,并利
用相对应的值作为y的点估计。 Bulter的例子:问当行驶里程为100英里,运货次
数为20次时,汽车行驶时间的点估计。
yˆ 0.8687 0.0611100 0.9234 2 7.092
5.误差项 服从正态分布,从而说明Y服从正态分布
对于总体的多元线性回归模型,由于总体参数未 知,我们只能利用样本数据进行估计,得到样本 回归模型(对样本而言)。
y b0 b1x1 b2 x2 bp xp e
b0, b1, bp分别为0,1 , p的估计。 其中真实值与估计值之间的差距用e来表示:
多重共线性带来的问题:
(1)系数估计可能有符号错误或估计不出来 (2)尽管回归关系的总显著性很强,但参数估计可
能有较大的标准差,单个参数检验的显著性水平 较低。不能通过检验。
(3)数据很小的变化会导致参数估计的很大变化。
检验多重共线性:
对于有两个自变量的情形,当他们的样本 相关系数大于0.7或小于-0.7时,将有可能 产生多重共线性。
服从正态分布
N
(
i
,
2 bi
)
构造统计量:bi i ~ N (0,1)
bi 由于总体方差未知,我们同样用MSE来近似替代
总体方差 2
此时的统计量用t替代:t
bi
i
~ t(n k)
T分布的构造特点:X1,X2独立,X1服从标准
sbi
正态分布,X2服从自由度为n的卡方分布,
X1/sqrt(x2/n)服从t分布
(Y
XBˆ )(Y
XB)
Bˆ
(Y
BˆX )(Y
XBˆ )
Bˆ
(Y Y
BˆX Y
Y XBˆ
BˆX XBˆ )
Bˆ
(Y Y
2BˆX Y
BˆX XBˆ )
2 X Y
2 X XBˆ
0
X 'Y X ' XBˆ, Bˆ ( X ' X )1 X 'Y
为了指定最佳工作计划表,Butler运输公司 的管理人员希望估计其司机每天行驶的时 间。起初,管理人员认为行驶时间y与行驶 的英里数x1关系密切。因此收集10项运输 任务的样本数据,利用excel统计分析,输 出结果为:
SUMMARY OUTPUT 回归统计
Multiple R R Square Adjusted R Square Standard error Obs
0.730874 0.534177 0.475949 0.781022
10
SSR SSE SST
ANOVA
df
SS
MS
F
P
1 5.596033 5.596033 9.17389 0.016338159
100
3
7.385 8.645 6.520 9.510
100
4
8.135 9.742 7.362 10.515
质量型自变量(虚拟变量)
例:某公司向客户提供水过滤的维修保养服 务。为了估计服务时间和成本,该公司希 望对客户的每一次维修请求都做维修时间 预测。维修时间y依赖于两个因素:1.前次 维修至今已使用的月数x1;2.需维修的故障 类型x2(机械型或电子型),其中x2是质量型 自变量,取值为:0代表机械类;1代表电 子类。
这里有:
X1= bi i ~ N(0,1)
bi
X2=
(n
k
)
s2 bi
2 bi
~ 2(n k)
T分布的构造特点为:X1/sqrt(x2/自由度)
检验的假设为:
H0: i 0 ;Ha: i 0
在H0为真的前提下,有检验统计量
t
bi
服从自由度为(n-k)的t分布。
sbi
拒绝法则:
F检验:
提出假设:H0: 1 2 p 0
Ha:至少有一个参数不等于0.
检验的统计量:F=MSR/MSE
拒绝法则:若F> F , p,n( p1) 则拒绝H0。
我们对Butler运输公司的模型进行F检验: H0: 1 2=0
Ha:参数至少有一个不等于0. 在H0为真的前提下,统计量F=MSR/MSE=32.9,F统
多元判定系数
SST=SSR+SSE 当增加自变量个数后,SSE会减 小,SSR会增大。需要调整。
R2
SSR SST
,Ra2
1
(n
1)(1 R2 ) n p 1
SSR ( yˆi y)2, SSE ( yi yˆi )2,
SST ( yi y)2
Ra2
1
9
(1 0.904) 10 2 1
以上回归方程分别为A地区、B地区、C地区的平均销售 量。
其中,
3 反映B地与A地平均销售量差异。
4 反映C地与A地平均销售量差异。
残差分析
1. 有关定义
第i次观测的残差:‘yi yˆi
第i次观测的标准化残差:
第i次观测残差的标准差:
Hi为第i次观测的杠杆率。
yi yˆi syi yˆi
发现模型的拟合度较低,希望追加另一个 变量以解释变差中的剩余部分。追加的第 二个变量是运货次数x2。
通过excel统计分析,我们来看看,增加的 变量是否有助于提高模型的解释度。
回归系数的解释
在多元回归情形下,回归系数的解释:当 所有其它自变量均保持不变时,bi是因变量 对应于自变量xi改变一个单位时,所作的改 变的估计值。
88%
模型的显著性检验
1. 整体显著性检验(test for overall significance) 原理:MSE给出了随机误差项方差的一个无偏估计
量。如果H0:1 2 p 0 成立,则有: MSR=SSR/(p+1-1)也为误差项方差的一个无偏估计, 且MSR和MSE的值将很接近。否则,MSR将高估 误差项方差,从而使MSR和MSE的比值较大。
关于多元线性回归模型的标准假设:
1. E( ) 0,可推知, E(Y ) 0 1X1 2 X 2 p X p
该方程称为回归方程。
2. 对于所有的X,误差项 的方差 2一样:即同方差
假定。
3.误差项 独立。其协方差为零,cov(i j ) 0
4.自变量是给定的变量,与误差项线性无关。
yˆ1 b0 b1x11 bp xp1 yˆ2 b0 b1x12 bp xp2 yˆn b0 b1x1n bp xpn
1
yˆ1 yˆn
1 1
x11 x12 x1n
xp1 xxppn2
b0
bp
我们用矩阵的形式来表述以上模型
E()
ˆ ˆ
1
E(Y1)
E( yn )
1 1
x11 x12 x1n
xp1 xxppn2
0
p
1
yˆ1 yˆn
1 1
x11 x12 x1n
xp1 xxppn2
b0
bp
求估计值B 令 Q e' e (Y XBˆ )(Y XBˆ ) 最小
Q Bˆ
Bˆ
ei yi pyˆi yi b0 b1x1i bp xpi
yˆ是y的一个估计值。
其中,
y1 y
yn
x1i
xi
x1n
e1
ei
en
多元回归模型的估计
最小二乘法:残差最小化,即令 ee 最小
数据 ( x1 j,x2 j , , xpj , y), j 1,2 n 估计的方程:
三地,管理者希望用回归方法来预测每周复印机 的销售量。假定令周销售量Y为因变量,销售人 数x1和广告费用x2为自变量,另外认量,令虚拟变量x3的取值为:0表示其它,1 表示B地区;虚拟变量x4的取值为:0表示其它, 1表示C地区。
当一个质量型变量有两个水平时,一般我们用一个虚拟变 量即可;若有三个水平时则需要两个虚拟变量。一般的, 若质量型变量的水平为k个,则必须有k-1个哑变量。
若|t|>t(a/2,n-k),则拒绝H0
由软件统计结果得到,
Intercept X Variable 1 X Variable 2
Coefficients stdev
t Stat
-0.8687 0.951548 -0.91294
0.061135 0.009888 6.182397
0.923425 0.221113 4.176251
syi yˆi s
1 hi
在多元回归中,我们由统计软件达到杠杆率和残 差的标准差。
2.检测离群值
与一元回归一样,我们可以将标准化残差的绝对值大于2
的观测值识别为离群值。
第i个观测值的标准化残差 yi yˆi = yi yˆi