残差分析
则回归直线yˆ bˆx aˆ 0.06x 0.32
(3)当x 6时, yˆ 0.06 6 0.32 0.68
由于所有的样本点不共线,而只是散布在某一直线的附近, 所以身高和体重的关系可以用线性回归模型来表示:
y bx a e
其中a和b为模型的未知参数,e称为随机 误差.
步骤1:计算线性回归方 例程1的线性回归方程为$y 0.849x 85.712(①散点图,②线性回归计算)
步骤2:计算残差,列表
编号 身高/cm
1
2
3
4
5
6
7
8
165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
体重估计/kg 54.373 54.373 47.581 58.618 62.863 54.373 45.883 58.618
ei yi bxi a,i 1, 2,...n,其估计值为ei yi yi yi b xi a,i 1, 2,...n
ei 称为相应于点(xi,yi)的残差。
4.如何发现数据中的错误?如何衡量随机模型的拟合
效果?
(1)计算线性回归方程$y=b$x a$.
残差
-6.373 2.627 2.419 -4.618 1.137 6.627 -2.883 0.382
步骤3:画残差图(横坐标可以是编号、体重、体重估计值,纵坐标是
残差)
残差
身8
高6
异
与4
常
体2
重
O -2
1234567
8 9 编号
残 -4
点
差 -6
图 -8
步骤4:残差分析
第一个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为错误。如果数据采集 错误,就予以纠正,然后再重新利用线性回归模型拟合数据;如果数据采集没有错误,则需寻找其他原
x 135 7 y 2.2 4.3 4.8 6.7
(1).画出散点图 (2).求x, y满足的线性回归方程. (3).预测x 6时y的值.
时间x 1 2 3 4 5 命中率y 0.4 0.4 0.5 0.6 0.6
(1).画出散点图 (2).求x, y满足的线性回归方程. (3).预测小李打篮球6小时的投篮命中率.
时间x 1 2 3 4 5 命中率y 0.4 0.4 0.5 0.6 0.6
(2).求x, y满足的线性回归方程. (3).预测小李打篮球6小时的投篮命中率.
函数模型与“回归模型”的关系
函数模型:因变量y完全由自变量x确定 回归模型: 预报变量y完全由解释变量x和随机误差e确定
问题二:在线性回归模型中,e是用bx+a预报真 实值y的随机误差,它是一个不可观测的量,那么 应如何研究随机误差呢?
e=y-(bx+a)
残差:一般的对于样本点(x1,y1),(x2,y2),...,(xn,yn ),它们的随机误差为
解(2):设所求的线性回归方程为yˆ bˆx aˆ
n
n
x 3, y 0.5 , xi yi 8.1, xi2 =55.
n
i 1
i 1
bˆ
xi yi
i1
n
xi2
nxy
2
nx
8.1 55
5 3 0.5 5 32
0.06
i1
aˆ y bˆx 0.5 0.063 0.32
回归分析的基本思想及其初步应用 第2课时
问题1:现实生活中两个变量间的关系有哪些
呢?
不相关
函数关系:确定性关系 1、两个变量的关系
线性相关$y b$x a$
相关关
系
非线性相关
相关关系:对于两个变量,当自变量取值一定时, 因变量的取值带有一定随机性的两个变量之间的关 系。
随堂练习
3.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系, 下表记录了小李某月1号到5号每天打篮球时间x(单位 : 小时)与当 天投篮命中率y之间的关系:
(2)计算eµi yi µyi yi b$xi a$ (i 1,2,...n)
①查找异常样本数据
(4)分析残差图
②拟合效果
模型合适:残差点分布在水平带状区域中 拟合高精度 : 带状区域的宽度窄
范例点击
(1).画出散点图 (2).求x, y满足的线性回归方程. (3).画残差图
作业
已知x, y的取值如下表所示
x
246 8
y
4.5 7.8 10.7 13.6
(1).画出散点图 (2).求x, y满足的线性回归方程. (3).预测x 5时y的值. (4).画出残差图.
作业
已知x, y的取值如下表所示
另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这样的带状区域的宽 说明模型拟合精度越高,回归方程的预报精度越高。
随堂练习
为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系, 下表记录了小李某月1号到5号每天打篮球时间x(单位 : 小时)与当 天投篮命中率y之间的关系:
时间x 1 2 3 4 5 命中率y 0.4 0.4 0.5 0.6 0.6