第13章多元线性回归
质量型自变量(虚拟变量)
例:某公司向客户提供水过滤的维修保养服 务。为了估计服务时间和成本,该公司希 望对客户的每一次维修请求都做维修时间 预测。维修时间y依赖于两个因素:1.前次 维修至今已使用的月数x1;2.需维修的故障 类型x2(机械型或电子型),其中x2是质量型 自变量,取值为:0代表机械类;1代表电 子类。
b0, b1, bp分别为0,1 , p的估计。 其中真实值与估计值之间的差距用e来表示:
ei yi pyˆi yi b0 b1x1i bp xpi
yˆ是y的一个估计值。
其中,
y1 y
yn
x1i
1
yˆ1 yˆn
1 1
x11 x12 x1n
xp1 xxppn2
b0
bp
我们用矩阵的形式来表述以上模型
E()
ˆ ˆ
1
E(Y1)
E( yn )
8 4.879967 0.609996
9
10.476
Intercept X Variable 1
Coefficients 2.147273 0.304132
Stdev 0.604977 0.100412
t Stat 3.549344 3.028842
P-value 0.00752 0.01634
虚拟变量估计参数的解释 在上例中,引入虚拟变量后,实际上的E(y)有两个
Ra2
1
9
(1 0.904) 10 2 1
88%
模型的显著性检验
1. 整体显著性检验(test for overall significance) 原理:MSE给出了随机误差项方差的一个无偏估计
量。如果H0:1 2 p 0 成立,则有: MSR=SSR/(p+1-1)也为误差项方差的一个无偏估计, 且MSR和MSE的值将很接近。否则,MSR将高估 误差项方差,从而使MSR和MSE的比值较大。
1 1
x11 x12 x1n
xp1 xxppn2
0
p
1
yˆ1 yˆn
1 1
x11 x12 x1n
xp1 xxppn2
X1i Xi
X1n
1
i
n
关于多元线性回归模型的标准假设:
1. E( ) 0,可推知, E(Y ) 0 1X1 2 X 2 p X p
该方程称为回归方程。
2. 对于所有的X,误差项 的方差 2一样:即同方差
服从正态分布
N
(
i
,
2 bi
)
构造统计量:bi i ~ N (0,1)
bi 由于总体方差未知,我们同样用MSE来近似替代
总体方差 2
此时的统计量用t替代:t
bi
i
~ t(n k)
T分布的构造特点:X1,X2独立,X1服从标准
sbi
正态分布,X2服从自由度为n的卡方分布,
当一个质量型变量有两个水平时,一般我们用一个虚拟变 量即可;若有三个水平时则需要两个虚拟变量。一般的, 若质量型变量的水平为k个,则必须有k-1个哑变量。
SUMMARY OUTPUT 回归统计
Multiple R R Square Adjusted R Square Standard error Obs
0.730874 0.534177 0.475949 0.781022
10
SSR SSE SST
ANOVA
df
SS
MS
F
P
1 5.596033 5.596033 9.17389 0.016338159
2
若时维间修2。时若间0与,2故则障前0类者,型的则无期情关望况。维相修反时。间若大于2 后0者不的显期著望,维说修明
可用于预测维修时间的方程有两个:
yˆ 0.93 0.388 x1 yˆ 2.19 0.388 x1
电子类维修时间比机械类平均高出1.26小时。
xi
x1n
e1
ei
en
多元回归模型的估计
最小二乘法:残差最小化,即令 ee 最小
数据 ( x1 j,x2 j , , xpj , y), j 1,2 n 估计的方程:
yˆ1 b0 b1x11 bp xp1 yˆ2 b0 b1x12 bp xp2 yˆn b0 b1x1n bp xpn
发现模型的拟合度较低,希望追加另一个 变量以解释变差中的剩余部分。追加的第 二个变量是运货次数x2。
通过excel统计分析,我们来看看,增加的 变量是否有助于提高模型的解释度。
回归系数的解释
在多元回归情形下,回归系数的解释:当 所有其它自变量均保持不变时,bi是因变量 对应于自变量xi改变一个单位时,所作的改 变的估计值。
电子类 机械类
x1
需要不止一个虚拟变量的情形: 有时候我们要用到两个或两个以上的虚拟变量 例:某复印机制造商组织策划的销售区域为A,B,C
三地,管理者希望用回归方法来预测每周复印机 的销售量。假定令周销售量Y为因变量,销售人 数x1和广告费用x2为自变量,另外认为地区也是 一个重要因素。由于有三个地区,需要取两个虚 拟变量,令虚拟变量x3的取值为:0表示其它,1 表示B地区;虚拟变量x4的取值为:0表示其它, 1表示C地区。
b0
bp
求估计值B 令 Q e' e (Y XBˆ )(Y XBˆ ) 最小
Q Bˆ
Bˆ
(Y
XBˆ )(Y
XB)
Bˆ
(Y
BˆX )(Y
XBˆ )
Bˆ
(Y Y
BˆX Y
Y XBˆ
BˆX XBˆ )
多元判定系数
SST=SSR+SSE 当增加自变量个数后,SSE会减 小,SSR会增大。需要调整。
R2
SSR SST
,Ra2
1
(n
1)(1 R2 ) n p 1
SSR ( yˆi y)2, SSE ( yi yˆi )2,
SST ( yi y)2
区间
区间
50
2
3.146 4.924 2.414 5.656
50
3
4.127 5.789 3.368 6.548
50
4
4.815 6.948 4.157 7.607
100
2
6.258 7.926 5.500 8.683
100
3
7.385 8.645 6.520 9.510
100
4
8.135 9.742 7.362 10.515
t
bi
服从自由度为(n-k)的t分布。
sbi
拒绝法则:
若|t|>t(a/2,n-k),则拒绝H0
由软件统计结果得到,
Intercept X Variable 1 X Variable 2
Coefficients stdev
t Stat
-0.8687 0.951548 -0.91294
第13章 多元线性回 归
多元线性回归模型(对总体而言)
Y 0 1X1 2 X 2 p X p
1,2 ,p 为未知参数, 为随机误差项,反映其它
未列入回归模型的变量对因变量的影响。
Y,X均为为列向量
Y
2BˆX Y
BˆX XBˆ )
2 X Y
2 X XBˆ
0
X 'Y X ' XBˆ, Bˆ ( X ' X )1 X 'Y
为了指定最佳工作计划表,Butler运输公司 的管理人员希望估计其司机每天行驶的时 间。起初,管理人员认为行驶时间y与行驶 的英里数x1关系密切。因此收集10项运输 任务的样本数据,利用excel统计分析,输 出结果为:
方程:
E( y | x2 0) 0 1x1 E( y | x2 1) 0 1x1 2 0 2 1x1
不论是机械类故障,还是电子类故障,期望维修时 间都是x1的线性函数。
两个方程的斜率相同,但截距不同。
是电子类故障和机械类故障的期望维修时间之差。
MSE=SS E/(n-k)
Butler运输公司的ANOVA表
方差来源 平方和 自由度
回归方程 21.601 2
均方 (mean square)
10.800
F统计量 32.88
误差
2.299 7
0.328
合计
23.900 9
2. 单个参数显著性的t检验:
与一元回归模型一样,模型估计的参数 bi
同理对 2 做显著性检验,得到相同的结果。
3. 多重共线性 多重共线性指:自变量之间存在相关关系。
多重共线性带来的问题:
(1)系数估计可能有符号错误或估计不出来 (2)尽管回归关系的总显著性很强,但参数估计可
能有较大的标准差,单个参数检验的显著性水平 较低。不能通过检验。