多元统计分析-线性回归
R2,F,
p 模型整体上可用
x1~资历(年) x2 = 1~ 管理,x2 = 0~ 非管理
中学:x3=1, x4=0;大 学:x3=0, x4=1; 更高: a4置信区间包含零点, 解释不可靠! x3=0, x4=0.
结果分析
ˆ 残差 e y y
残差分析方法
ˆ a ˆ0 a ˆ1 x1 a ˆ2 x2 a ˆ3 x3 a ˆ4 x4 y
价格差x1=其它厂家价格x3-本公司价格x4 估计x3 调整x4 控制x1 通过x1, x2预测y 控制价格差x1=0.2元,投入广告费x2=650万元
ˆ ˆ x ˆ x ˆ x2 8.2933 (百万支) ˆ y 0 1 1 2 2 3 2
销售量预测区间为 [7.8230,8.7636](置信度95%)
10.1 牙膏的销售量
问 题
建立牙膏销售量与价格、广告投入之间的模型 预测在不同价格和广告费用下的牙膏销售量 收集了30个销售周期本公司牙膏销售量、价格、 广告费用,及同期其它厂家同类牙膏的平均售价
本公司价 格 (元 ) 3.85 3.75 其它厂家 价格(元) 3.80 4.00 广告费用 (百万元) 5.50 6.75 价格差 (元) -0.05 0.25 销售量 (百万支) 7.38 8.51
500 0
-500
e ~ x1
-1000 0 5 10 15 20
500
0
-500
e ~组合
1 2 3 4 5 6
-1000
R2,F有改进,所有回归系数置信 区间都不含零点,模型完全可用
消除了不正常现象 异常数据(33号)应去掉
去掉异常数据后的结果
200
参数 参数估计值 置信区间 a0 11200 [11139 11261] a1 498 [494 503] a2 7041 [6962 7120] a3 -1737 [-1818 -1656] a4 -356 [-431 –281] a5 -3056 [-3171 –2942] a6 1997 [1894 2100] R2= 0.9998 F=36701 p=0.0000
e 与资历x1的关系
2000 1000
管理与教育的组合 组合 1 2 3 4 5 6 管理 0 1 0 1 0 1 教育 1 1 2 2 3 3
e与管理—教育组合的关系
2000 1000 0 -1000 -2000
0
-1000
-2000
0
5
10
15
20
1
2
3
4
5
6
残差大概分成3个水平, 6种管理—教育组合混在 一起,未正确反映 。
10.2 软件开发人员的薪金
建立模型研究薪金与资历、管理责任、教育程度的关系 分析人事策略的合理性,作为新聘用人员薪金的参考 46名软件开发人员的档案资料
编 号 01 02 03 04 薪金 13876 11608 18701 11283 资 历 1 1 1 1 管 理 1 0 1 0 教 育 1 3 3 2 编 号 42 43 44 45 46 薪金 27837 18838 17483 19207 19346 资 历 16 16 16 17 20 管 理 1 0 0 0 0 教 育 2 2 1 2 1
上限用作库存管理的目标值 下限用来把握公司的现金流
若估计x3=3.9,设定x4=3.7,则可以95%的把握
知道销售额在 7.83203.7 29(百万元)以上
模型改进
x1和x2对y 的影响独立 x1和x2对y 的影响有 交互作用
y 0 1 x1 2 x2 x
2 3 2
y的90.54%可由模型确定 p远小于=0.05
2的置信区间包含零点
F远超过F检验的临界值 模型从整体上看成立 x2对因变量y 的 影响不太显著
(右端点距零点很近)
x22项显著
可将x2保留在模型中
ˆ ˆ x ˆ x ˆ x2 销售量预测 y ˆ 0 1 1 2 2 3 2
完全二次多项式模型 2 2 y 0 1 x1 2 x2 3 x1 x2 4 x1 5 x2
MATLAB中有命令rstool直接求解
ˆ y
10 9.5 9 8.5 8 7.5 0 0.2 0.4 5.5 6 6.5 7
x1
x2
ˆ ( ˆ , ˆ , ˆ , ˆ , ˆ , ˆ) 从输出 Export 可得 0 1 2 3 4 5
第十章
统计回归模型
10.1 牙膏的销售量 10.2 软件开发人员的薪金
10.3 酶促反应
10.4 投资额与国民生产总值和 物价指数
数学建模的基本方法
机理分析
测试分析
由于客观事物内部规律的复杂及人们认识程度的限制, 无法分析实际对象内在的因果关系,建立合乎机理规 律的数学模型。 通过对数据的统计分析,找出与数据拟合最好的模型 回归模型是用统计分析方法建立的最常用的一类模型 • 不涉及回归分析的数学原理和方法 • 通过实例讨论如何选择不同类型的模型 • 对软件得到的结果进行分析,对模型进行改进
模型求解 y a0 a1 x1 a2 x2 a3 x3 a4 x4
参数 参数估计值 置信区间 a0 11032 [ 10258 11807 ] a1 546 [ 484 608 ] a2 6883 [ 6248 7517 ] a3 -2994 [ -3826 -2162 ] a4 148 [ -636 931 ] R2=0.957 F=226 p=0.000 资历增加1年薪 金增长546 管理人员薪金多 6883 中学程度薪金比更 高的少2994 大学程度薪金比更 高的多148
残差全为正,或全为负,管 理—教育组合处理不当 应在模型中增加管理x2与教育 x3, x4的交互项
进一步的模型 增加管理x2与教育x3, x4的交互项
y a0 a1 x1 a2 x2 a3 x3 a4 x4 a5 x2 x3 a6 x2 x4
参数 参数估计值 a0 11204 a1 497 a2 7048 a3 -1727 a4 -348 a5 -3071 a6 1836 R2=0.999 F=554 置信区间 [11044 11363] [486 508] [6841 7255] [-1939 -1514] [-545 –152] [-3372 -2769] [1571 2101] p=0.000
ˆ 8.3272(百万支) y
区间 [7.8953,8.7592]
ˆ 略有增加 y
预测区间长度更短
ˆ 与x1,x2关系的比较 两模型 y ˆ x ˆ x ˆ x2 ˆ xx ˆ ˆ x ˆ x ˆ x2 y ˆ ˆ y 0 1 1 2 2 3 2 4 1 2 0 1 1 2 2 3 2
ˆ y
x1 0.3
x1 0.1
x1 0.3
ˆ x ˆ x ˆ x2 ˆ xx ˆ 0 y 1 1 2 2 3 2 4 1 2
2 30 .2267 7.7558 x 2 0.6712 x 2
2 32.4535 8.0513 x 2 0.6712 x 2
y 0 1 x1 2 x2 x
2 3 2
y 0 1 x1
y 10
9.5 9 8.5 8 7.5 7 5 5.5 6 6.5 7
x1
y~被解释变量(因变量) x1, x2~解释变量(回归变量, 自变量)
0, 1 , 2 , 3 ~回归系数 ~随机误差(均值为零的
销售 周期 1 2
29 30
3.80 3.70
3.85 4.25
5.80 6.80
0.05 0.55
7.93 9.26
基本模型
y ~公司牙膏销售量 x1~其它厂家与本公司价格差 x2~公司广告费用
y 10
9.5 9 8.5 8 7.5 7 -0.2 0 0.2 0.4 0.6
正态分布随机变量)
2 y 0 1 x2 2 x2
7.5 x 2
MATLAB 统计工具箱 模型求解 2 y 0 1 x1 2 x2 3 x2 由数据 y,x1,x2估计 [b,bint,r,rint,stats]=regress(y,x,alpha)
资历~ 从事专业工作的年数;管理~ 1=管理人员,0=非管理人 员;教育~ 1=中学,2=大学,3=更高程度
分析与假设
y~ 薪金,x1 ~资历(年)
1, 中学 x3 0 , 其它
x2 = 1~ 管理人员,x2 = 0~ 非管理人员
教 育
1=中学 2=大学 3=更高
1, 大学 x4 0 , 其它
中学:x3=1, x4=0 ; 大学:x3=0, x4=1; 更高:x3=0, x4=0
资历每加一年薪金的增长是常数; 管理、教育、资历之间无交互作用 线性回归模型
y a0 a1 x1 a2 x2 a3 x3 a4 x4
a0, a1, …, a4是待估计的回归系数,是随机误差
Stats~ 检验统计量 R2,F, p
2 结果分析 y 0 1 x1 2 x2 3 x2
参数
参数估计值 置信区间 0 17.3244 [5.7282 28.9206] 1 1.3070 [0.6829 1.9311 ] 2 -3.6956 [-7.4989 0.1077 ] 3 0.3486 [0.0379 0.6594 ] R2=0.9054 F=82.9409 p=0.0000
价格差 x1=0.3
x2 7.5357
ˆ y
ˆ y
x1 0.1
10.5 10 9.5 9 8.5