曲线拟合
列表计算:
机动 目录
o
上页 下页 返回 结束
t
i
0 7
ti 0 7 28
ti2 0 49 140
yi 27.0 24.8 208.5
yi ti 0 137.6 717.0
140 a 28b 717 得法方程组 28 a 8b 208 .5 解得 a 0.3036 , b 27.125 , 故所求经验公式为
评价方式
• SSE(The sum of squares due to error)
– – 和方差、误差平方和 A value closer to 0 indicates a better fit.→0
ˆi )2 SSE Wi ( yi y
i 1
n
• MSE(Mean squared error)
p1=2255
q1=83.1
Sum of Sine
f(x)=a1*sin(b1*x0.0420 9
c1=1.693
fitting Exponential Fourier Gaussian Polynomial Rational
SSE 0.1224 0.01768 0.01916 0.1082 0.1374
x
150 160 170
X
165
160 140
180
190
200
Back
• 从图上虽可看出,个子高的父亲确有生出个子高的 儿子的倾向,同样地,个子低的父亲确有生出个子 低的儿子的倾向。得到的具体规律如下:
y a bx u ˆ 84.33 0.516x y
• 如此以来,高的伸进了天,低的缩入了地。他百思 不得其解,同时又发现某人种的平均身高是相当稳 定的。最后得到结论:儿子们的身高回复于全体男 子的平均身高,即“回归”——见1889年F.Gallton 的论文《普用回归定律》。 • 后人将此种方法普遍用于寻找变量之间的规律
– 基础型是 a1*exp(-((x-b1)/c1)^2)
• Interpolant:插值逼近,有4种类型
– linear、nearest neighbor、cubic spline、shapepreserving
• Polynomial:多形式逼近,有9种类型
– linear ~、quadratic ~、cubic ~、4-9th degree ~
常见曲线拟合方法(一)
• Exponential:指数逼近,有2种类型
– a*exp(b*x) 、 a*exp(b*x) + c*exp(d*x)
• Fourier:傅立叶逼近,有7种类型
– 基础型是 a0 + a1*cos(x*w) + b1*sin(x*w)
• Gaussian:高斯逼近,有8种类型
Curve Fitting The least square method
•
在处理数据时,常要把实验获得的一系 列数据点描成曲线表反映物理量间的关系。 为了使曲线能代替数据点的分布规律,则 要求所描曲线是平滑的,既要尽可能使各 数据点对称且均匀分布在曲线两侧。由于 目测有误差,所以,同一组数据点不同的 实验者可能描成几条不同的曲线(或直线), 而且似乎都满足上述平滑的条件。那么, 究竟哪一条是最曲线呢?这一问题就是 “曲线拟合”问题。一般来说,“曲线拟 合”的任务有两个:
常见曲线拟合方法(二)
• Power:幂逼近,有2种类型
– a*x^b 、a*x^b + c
• Rational:有理数逼近,分子、分母共有的类 型是linear ~、quadratic ~、cubic ~、4-5th degree ~;此外,分子还包括constant型 • Smoothing Spline:平滑逼近 • Sum of Sin Functions:正弦曲线逼近,有8种 类型,基础型是 a1*sin(b1*x + c1) • Weibull:只有一种,a*b*x^(b-1)*exp(-a*x^b)
2 [ y f ( x )] min i i i 0 n
y
来确定近似函数 f (x) .
最小二乘法原理:
设有一列实验数据
o
x
, 它们大体
分布在某条曲线上, 通过偏差平方和最小求该曲线的方
法称为最小二乘法, 找出的函数关系称为经验公式 .
机动
目录
上页
下页
返回
结束
特别, 当数据点分布近似一条直线时,问题为确定 a, b 使 y a x b 满足: y
– 均方差、方差
– →0
– 均方根、标准差
1 n ˆi )2 MSE SSE / n Wi ( yi y n i 1
• RMSE(Root mean squared error)
– →0
– 确定系数
• R-square(Coefficient of determination):
– →1
最小二乘法的地位与作用
• 现在回归分析法已远非道尔顿的本意,已 经成为探索变量之间关系最重要的方法, 用以找出变量之间关系的具体表现形式。
• 后来,回归分析法从其方法的数学原理— —误差平方和最小出发,改称为最小二乘 法。
最小二乘法的思路
• 1.为了精确地描述Y与X之间的关系,必须使用这 两个变量的每一对观察值,才不至于以点概面。 • 2.Y与X之间是否是直线关系(协方差或相关系 数)?若是,将用一条直线描述它们之间的关系。 • 3.什么是最好?—找出判断“最好”的原则。 最好指的是找一条直线使得这些点到该直线的纵 向距离的和(平方和)最小。
最小二乘法
问题的提出: 已知一组实验数据 求它们的近似函数关系 y=f (x) . 需要解决两个问题: 1. 确定近似函数的类型 • 根据数据点的分布规律
y
• 根据问题的实际背景
o
x
2. 确定近似函数的标准 •实验数据有误差,不能要求 yi f ( xi )
机动 目录 上页 下页 返回 结束
• 偏差 ri yi f ( xi ) 有正有负, 为使所有偏差的绝对 值都较小且便于计算, 可由偏差平方和最小
function
parameter 1 a=27.13
parameter 2 b=-0.01161
paramete r3
parameter 4
Exponent f(x) = a*exp(b*x) ial Fourier
f(x)=a0+a1*cos(x*w)+b1*sin a0=(x*w) 5.171e+05
y f (t ) 0.3036 t 27.125
为衡量上述经验公式的优劣, 计算各点偏差如下:
机动
目录
上页
下页
返回
结束
0
1
2
3
4
5
6
7
27.0 26.8 26.5 26.3 26.1 25.7 25.3 24.8
27.125 26.518 25.911 25.303 26.821 26.214 25.607 25.000
最小二乘法产生的历史
• 最小二乘法最早称为回归分析法。由著名 的英国生物学家、统计学家道尔顿 (F.Gallton)——达尔文的表弟所创。 • 早年,道尔顿致力于化学和遗传学领域的 研究。 • 他研究父亲们的身高与儿子们的身高之间 的关系时,建立了回归分析法。
父亲的身高与儿子的身高之间关系的研究
Back
• 一 是物理量y与x间的函数关系已经确定, 只有其中的常数未定(及具体形式未定) 时,根据数据点拟合出各常数的最佳值。 • 二 是在物理量y与x间函数关系未知时,从 函数点拟合出 y 与 x 函数关系的经验公式以 及求出各个常数的最佳值。
解决问题的办法
• 寻找变量之间直线关系的方法很多。于是,再接下 来则是从众多方法中,寻找一种优良的方法,运用 方法去求出线性模型 —y=a+bx+u 中的截距a= ? ; 直线的斜率b= ? (最小二乘法)。 • 所得直线可靠吗?怎样衡量所得直线的可靠性? • 最后才是如何运用所得规律——变量的线性关系?
0.9954
0.9936
0.06023
例2. 在研究某单分子化学反应速度时, 得到下列数据: 1 2 3 4 5 6 7 8 3 6 9 12 15 18 21 24 57.6 41.9 31.0 22.7 16.6 12.2 8.9 6.5 其中 表示从实验开始算起的时间, y 表示时刻 反应
R-square 0.9692 0.9956 0.9952 0.9728 0.9655
Adjusted R-square 0.9641 0.9922 0.9933 0.9683 0.9597
RMSE 0.1429 0.06648 0.06191 0.1343 0.1513
Sum of Sine
0.01814
(线性函数)
机动 目录 上页 下页 返回 结束
因此 a , b 应满足法方程组:
k ln yk ln yk
k 1 k 1 8
8
经计算得 解得:
所求经验公式为
y 78.57 e
其SSE=0.08823
0.104
机动
目录
上页
下页
返回
结束
小结:通过计算确定某些经验公式类型的方法:
物的量. 试根据上述数据定出经验公式 y f ( ). m y k e 解: 由化学反应速度的理论知, 经验公式应取 其中k , m 为待定常数. 对其取对数得 ln y m ln k (常用对数)
令 Y ln y , X , a m , b ln k
Y a X b
yi f (ti ) -0.125