当前位置:文档之家› 第二讲多元回归与建模详解

第二讲多元回归与建模详解


df
SS
MS
3 7.65E+10 2.55E+10
96 6.01E+10 6.26E+08
99 1.37E+11
F Significance F 40.7269 4.57E-17
CoefficienStstandard Error t Stat
Intercept 37717.59 14176.74 2.660526
方差分析
回归分析 残差 总计
df
SS
MS
F Significance F
1 15.8713 15.8713 15.81458 0.004080177
8 8.028696 1.003587
9 23.9
Intercept Miles Traveled
Coefficients 标准误差 t Stat P-value Lower 95% Upper 95%下限 95.0%上限 95.0% 1.273913 1.400745 0.909454 0.389687 -1.95621171 4.504038 -1.95621 4.504038
一个房地产经纪人认为房屋的售价可由房屋的面积、 卧室的个数和批量的大小来预测。他随机选取了100座 房屋并收集数据如下:
Price 124100 218300 117800
. .
Bedrooms 3 4 3 . .
H Size 1290 2080 1250 . .
Lot Size 3900 6600 3750 . .
观测值
10
方差分析
回归分析 残差 总计
df
SS
MS
F Significance F
2 21.60056 10.80028 32.87837 0.00027624
7 2.299443 0.328492
9
23.9
Coefficients 标准误差 Intercept -0.8687 0.951548 Miles Traveled 0.061135 0.009888 Number of Deliveries 0.923425 0.221113
拒绝域
F
MSR MSE
SSR/ p SSE /(n p1)
F ( p, n
p
1)
6
对回归系数的检验
检验假设H0 : i 0 H1 : i 0 检验统计量
t , bi
i
sbi
其中sbi是bi的标准误差
拒绝域
ti t /2 (n p 1)或者ti t /2 (n p 1)
7
例:巴特勒运输公司
巴特勒运输公司的主营业务地域为本地, 为了建立更好的工作日程表,经理们计划为 他们的驾驶员估计日常行驶时间。
8
Miles
Number
Traveled of Deliveries
100
4
100
2
50
2
80
2
75
3
65
4
90
3
90
2
Travel Time (hours) 9.3 4.8 8.9 6.5 4.2 6.2 7.4 6.0 7.6 6.1
0.067826 0.017056 3.976755 0.00408 0.028495691 0.107156 0.028496 0.107156
回归统计
Multiple R 0.950678
R Square 0.903789
Adjusted R Squ0a.8re763
标准误差 0.573142
第二讲 多元回归与建模
1
研究多个变量间的关系,因变量如何受到多个自变量 的影响,用多个自变量预测因变量的值。
例:
超市中商品的价格、摆放位置、促销手段如何影响销售量; 如何用客户的个人资料(职业、收入、家庭成员人数、婚姻
状况、是否有抵押等)进行信用预测; 连锁旅店的利润主要受哪些因素影响; 如何预测每个客户的流失概率; 如何在达到环保标准的前提下找到最佳生产条件; 如何给二手车定价; 如何预测故障维修时间; 如何定新员工的薪水及解聘员工的补偿金。
Bedrooms 2306.081 6994.192 0.329714
H Size
74.29681 52.97858 1.402393
yˆ 0.8687 0.0611Miles 0.9234Deliv
b1=0.0611 当送货次数不变时,行驶里 程每增加1英里,行驶时间期望的估计值 增加0.0611小时。
b2=0.9234 当行驶里程不变时,送货次 数每增加1次,行驶时间期望的估计值增 加0.9234小时。
13
例:房屋售价
14
Regression Statistics Multiple R 0.74833 R Square 0.559998 Adjusted R S0q.5u4a6re248 Standard Err2o5r022.71 Observations 100
ANOVA
Regression Residual Total
9
Travel time
10.0 8.0 6.0 4.0 2.0 0.0 0
20
40
60
80
100
120
Miles traveled
10
回归统计
Multiple R
0.814906
R Square
0.664071
Adjusted R Square 0.62208
标准误差
1.001792
观测值
10
2
多元回归模型
y 0 1x1 2 x2 p xp 假定误差项 ~ N (0, 2 ),那么
y ~ N (0 1x1 2 x2 p xp , 2 ) 使用最小二乘方法估计i ,i 0,1, p.
估计的回归方程是 yˆ b0 b1x1 b2 x2 bp xp
3
Y i X2
X1
4
认识R2
总变差的分解:SST=SSR+SSE; 判定系数: R2=SSR/SST; 多重相关系数R; 调整(修正)的判定系数:
Adj
R2
1 (1
R2)
n1 n p1
5
对回归方程的检验
问题:因变量和所有自变量的集合之间 是否存在显著的关系?
检验假设
H0 : 1 2 p 0
t Stat -0.91294 6.182397
4.176251
P-value 0.391634 0.000453
0.004157
Lower 95% Upper 95% -3.118752683 1.38135 0.037752041 0.084517
0.400575489 1.446275
回归系数的解释
相关主题