回归直线方程—最小二乘法
问题:在一次对人体脂肪含量与年龄关系的研究中, 研究人员获得了一组样本数据:
年 龄 23 27 39 41 45 49 50 53 54 56 57 58 60 61
脂 肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
? ?
上面三种方法都有一定的道理,但总让人感到 可靠性不强.
回归直线与散点图中各点的位置用数学的方法 来刻画应具有怎样的关系?
方法汇总
法一
1.选取两点 作直线 ps:使直线 两侧 的点的 个数基本相 同。
法二
法三
1.画一条直线 2.测量出各点 与它的距离 3.移动直线, 到达某一位置 使距离的和最 小,测量出此 时直线的斜率 与截距,得到 回归方程。
下面讨论如何表达这些点与一条直线y=bx+a 之间的距离。
最小二乘法的公式的探索过程如下:
1.设已经得到具有线性相关关系的变量的一组数据:
(x1,y1),(x2,y2),…,(xn,yn)
2.设所求的回归直线方程为Y=bx+a,其中a,b是待 定的系数。当变量x取x1,x2,…,xn时,可以得到
Yi=bxi+a(i=1,2,…,n) y 3.它与实际收集得到的yi之间偏差是
1.在散点图中 多取几组点, 确定出几条直 线的方程 2.分别求出各 条直线的斜率、 截距的平均数 3.将这两个平 均数当成回归 方程的斜率与 截距。
法四
最 小 二 乘 法
求回归方程的关键
——如何使用数学方法来刻画“从整体上看,
各点到此直线的距离最小”。
假设两个具有线性相关关系的变量的一组数 据:(x1, y1),(x2, y2),...... (xn, yn)
这样通过求此式的最小值而得到回 归直线的方法,即使得样本数据的 点到回归直线的距离的平方和最小
的方法叫做最小二乘法.
根据有关数学原理推导,a,b的值由下列公式给出
n
n
xi x yi y
xi yi nx y
b i1 n
2
xi x
i 1 n
求线性回归方程的步骤:
(1)求平均数
;
(2)计算xi 与 yi 的乘积,再
求
;
(3)计算
;
(4)将上述有关结果代入公式,写出回归 直线方程.
14
年 龄 23 27 39 41 45 49 50 53 54 56 57 58 60 61 脂 肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
xi 2
2
nx
i 1
i 1
a y bx
n
Σ(yi-Yi)的最小值
i=1
n
Σ|yi-Yi|的最小值
i=1
n
Σ(yi-Yi)2的最小值
i=1
n
(xi x)( yi y)
b 1 n
( xi x)2
1
a y b x
Q=(y1-bx1-a) 2+(y2-bx2-a) 2+…+(yn-bxn-a) 2 当a,b取什么值时,Q的值最小,即总体偏差最小
Q y1 bx1 a2 y2 bx2 a2 yn bxn a2
yi bxi a
(x1,y1)
(xi,yi) (xn,yn)
(x2,y2)
SUCCESS
THANK YOU
2020/1/15
Q y1 bx1 a2 y2 bx2 a2 yn bxn a2
思考:将表中的年龄作为x代入回归方程,看看 得出的数值与真实数值之间的关系,从中你体会 到了什么? y 0.577x 0.48
存在样本 点不在直线上
x=27时,y=15.099% x=37时,y=20.901%
可利用回归方程 预测不同年龄段 的体内脂肪含量 的百分比。
(2012山东临沂二模,20,12)假设关于某设备的使 用年限x和所有支出的维修费用y(万元),有如下 表的统计资料:
(xi ,yi )
yi-Yi
yi-Yi=yi-(bxi+a)(i=1,2,…,n)
(x1,y1)
这样,用这n个偏差的和来刻画 “各点与此直线的整体偏差” 是比较合适的。
(x2,y2)
(x1 ,y1)
(xi ,yi)
(x2 ,y2)
yi-(bxi+a)
因此用 表示各点到直线y=bx+a的“整体距离”
散
回
点 图
归 直
线
回归直线概念:散点图中心的分布从整体上看 大致是一条直线附近,该直线称为回归直线
求出回归直线的方程
我们就可以比较清楚地了解年龄与体 内脂肪含量之间的相关性
由此可以预测相应年龄段的脂肪含量
那我们又该如何具体求这个回归方程呢?
方法汇总
法一
1.选取两点 作直线 ps:使直线 两侧 的点的 个数基本相 同。
根据最小二乘法公式,
利用计算机可以求出
其回归直线方程
回
归
散
y 0.577x 0.48 点
图
直 线
年 龄 23 27 39 41 45 49 50 53 54 56 57 58 60 61
脂 肪 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
法二
法三
1.画一条直线 2.测量出各点 与它的距离 3.移动直线, 到达某一位置 使距离的和最 小,测量出此 时直线的斜率 与截距,得到 回归方程。
1.在散点图中 多取几组点, 确定出几条直 线的方程 2.分别求出各 条直线的斜率、 截距的平均数 3.将这两个平 均数当成回归 方程的斜率与 截距。
法四
由于绝对值使得计算不方便,在实际应用 中人们更喜欢用
Q y1 bx1 a2 y2 bx2 a2 yn bxn a2
yi bxi a
(x1,y1)
(xi,yi) (xn,yn)
(x2,y2)
这样,问题就归结为:当a,b取什么值时Q最小?即
点到直线 y bx a 的“整体距离”最小.
使用年 限x
2
3
4
5
6
维修费 用y
2.23Biblioteka 85.56.57.0
若由资料可知y对x呈线性相关关系,试求: (1)线性回归直线方程 (2)估计使用年限为10年时,维修费用是多少?