当前位置:文档之家› 简单线性回归模型

简单线性回归模型


加强交通建设管理,确保工程建设质 量。08: 57:0108:57:0108:57F riday, October 30, 2020
安全在于心细,事故出在麻痹。20.10.3020.10.3008: 57:0108:57:01October 30, 2020
踏实肯干,努力奋斗。2020年10月30日上午8时57分 20.10.3020.10.30
3
描述学生人数和销售收入之间的关系
协方差(315.56)和相关系数(0.95),散点图;
250
季度销售收入/千美圆
200
150
100
50
0
0
5
10
15
20
25
30
学生人数/千人
根据这些你可以得到什么结论?
4
Types of Regression Models
Positive Linear Relationship
学生人数/千人
理解?
12
回归方程的判定系数
y的总变差的分解
SST ( yi y)2 ( yi yˆi yˆi y)2
( yi yˆi )2 ( yˆi y)2 SSE SSR
定义判定系数R2=SSR/SST. 判定系数的含义是什么? 阿姆德比萨饼连锁店的例子:R2=0.9027. 判定系数和相关系数的关系。
点估计:110
20
使用你建立的模型(二)
对于问题一,如何得到这种连锁店平均 销售收入的一个95%的置信区间?
对于给定的xp , yˆ p b0 b1xp是E( y p )的无偏估计。
yˆ p的分布是N (E( yp ),
2 yˆ p
), 其中
2 的估计是
yˆ p
s2 yˆ p
s
2
1 n
(xp x)2
使用EXCEL对阿姆德连锁店的数据 建立模型,并进行分析,基于EXCEL的输 出结果,你对该模型有些什么认识?
19
使用你建立的模型(一)
问题一:对于那些附近学校人数是1万的 连锁店,他们的季度销售收入一定是一 样吗?这种连锁店平均的季度销售收入 是多少?你能够给出一个估计吗?
问题二:某家连锁店附近学生总数约1万 人,你能够给出它的季度销售收入的一 个估计值吗?
变量x的确对y有解释作用吗?(H0: =0) 检验统计量
F=MSR/MSE 其中MSR=SSR/自变量的个数 拒绝域
F>F(1, n-2)
17
回归方程的方差分析表
方差来源 回归 误差 总计
平方和 SSR SSE SST
自由度 1 n-2 n-1
均方 F值 MSR MSR/MSE MSE
18
阿姆德连锁店的情形
13
Coefficients of Determination (r2) and Correlation (r)
Y r2 = 1,r = +1
Y r2 = 1, r = -1
X
Yr2 = .8, r = +0.9
X
Y r2 = 0, r = 0
X
X
14
的估计
理解误差平方和 SSE ( yi yˆi )2 ( yi b0 b1xi )2
连锁店
1
学生人数/千人 2
销售额/千元 58
2 3 4 5 6 7 8 9 10 6 8 8 12 16 20 20 22 26 105 88 118 117 137 157 169 149 202
根据以上数据,你能否判断学生人数(x)如何影 响到销售收入(y)?根据一家连锁店附近大学的人数, 你能够预测该家连锁店的季度销售收入吗?
好的事情马上就会到来,一切都是最 好的安 排。上 午8时57分1秒 上午8时 57分08:57:0120.10.30
专注今天,好好努力,剩下的交给时 间。20.10.3020.10.3008:5708:57:0108:57:01Oct-20
牢记安全之责,善谋安全之策,力务 安全之 实。2020年10月30日 星期五8时57分 1秒Fri day, October 30, 2020
第十讲
简单线性回归模型
1
建立两个变量X和Y间的关系模型,推断变量Y 如何依赖于变量X, 从而可以用X预测Y.
例:
广告费用和销售量
公司的市值与CEO的年薪
原始股的销售数量和期望价格
证券市场收益率与某只股票的收益率
商品价格和销售量
装配线的速度和次品数量
年收入与信用卡消费金额
年龄与手机话费
随机误 差
因变量(响 应变量,被 预测变量)
斜率
自变量(解释 变量,预测变 量)
7
Y
观测值
Yi 0 1Xi i 观测值
i
=
随机误差
Y 0 1X
X
8
模型的假定
1) E()=0; (E(y)=x) 2) 对于所有的x,Var()=. 3) 是服从正态分布N(0, ) 的. 4) 对于不同的x, 是相互独立的.
散点图; 利用学生化标准残差基本服从标 准正态分布来检测(落在2个标准差之外 时)。
32
带有异常值的散点图示例
80
70
60
50
40
30
20
10
0
0
1
2
3
4
5
6
7
33
检测有影响的观测值
什么是有影响的观测? 观测的杠杆率:
第i个观测的杠杆率 高杠杆率的点意hi 味 着1n 它(的x(ixi x自)x2)2变i 量 1距,2,离别n 的自变
追求至善凭技术开拓市场,凭管理增 创效益 ,凭服 务树立 形象。2020年10月30日星期 五上午8时57分 1秒08: 57:0120.10.30
严格把控质量关,让生产更加有保障 。2020年10月 上午8时 57分20.10.3008:57O ctober 30, 2020
作业标准记得牢,驾轻就熟除烦恼。2020年10月30日星期 五8时57分1秒08:57:0130 October 2020
这些假定意味着什么?
9
f
y 服从在回归直线附近的正态分布
对每个 x 值, y分布的方差相同.
Y
X2
X1 X
回归直线
10
估计的回归方程
如何估计参数和?
最小二乘准则
n
求解 min ( yi 0 1 xi )2 0 ,1 i1
得出达到最小值点(b0 , b1)为0和1的点估计
b1
xi yi ( xi2 (
xi xi
)
2
yi ) /n
/
n
,
b0 y b1 x
估计的回归直线 yˆ b0 b1x
11
阿姆德连锁店的回归直线
估计参数
b1=5
250
季度销售收入/千美圆
b0=60
200 150
回归直线
100
50
yˆ 60 5x
0
0
5
10
15
20
25
30
你对系数的含义怎么
35
树立质量法制观念、提高全员质量意 识。20.10.3020.10.30F riday, October 30, 2020
人生得意须尽欢,莫使金樽空对月。08:57:0108:57: 0108:5710/30/2020 8:57:01 AM
安全象只弓,不拉它就松,要想保安 全,常 把弓弦 绷。20.10.3008:57:0108:57O ct-2030-Oct-20
第i个标准化残差
其中
Std_ˆi ˆi / sˆi
sˆi s
1 hi ,
1
h i n
( xi x)2 ( xi x)2
26
如何分析残差图
如果模型是符合的,那么残差图上的散 点应该落在一条水平带中间,除此之外, 残差图上的点不应呈现出什么规律性。
使用EXCEL对阿姆德连锁店的数据产生残 差图。你能得到什么结论?
yˆ p t / 2 (n 2) sind
其中
s2 ind
s2 1
1 n
(xp x)2
xi2 ( xi )2 / n
( 76.13, 143.87)
22
两种区间的关系
均值的置信区间 预测区间边界
xp
23
对模型作进一步的探讨
回忆我们使用的模型; 对模型作了什么假定? 逻辑问题:如何判断我们的问题符合这
量的值距离较大的点。 识别影响的观测: 杠杆率>6/n的观测.
34
对于建立简单线性回归模型, 你知道了些什么?
什么情况下需要建立简单线性回归模型? 对模型的假定有哪些? 如何估计模型的参数? 如何检验模型及其参数的显著性? 如何使用你建立的模型进行预测? 如何分析你的问题符合对模型做的假定?
相信相信得力量。20.10.302020年10月 30日星 期五8时57分1秒20.10.30
谢谢大家!
27
非线性
ˆ
✓ 线性
ˆ
X
X
ห้องสมุดไป่ตู้28
方差不等
ˆ
✓ 方差相等
ˆ
X
X
29
不独立
ˆ
✓ 独立
ˆ
X
X
30
一个残差不独立的例子
0.8 0.6 0.4 0.2
0 -0.2 -0.4 -0.6 -0.8
31
异常值的检测
异常值是与其它点显示的趋势不合的点。 检查它是否可能是被错误输入的数据。 检测异常值的方法:
的一个无偏估计 s2=MSE=SSE/(n-2)
15
关于回归系数的假设检验
H0 : 1 0 H1 : 1 0
相关主题