当前位置:
文档之家› 最小二乘法和一元线性回归分析[1]
最小二乘法和一元线性回归分析[1]
y (xi,yi) yi
xi
图4么? 2. 如何确定 a, b ?
3. 如何确定 a, b 的置信度和测量列的离散程度? 4. 用直线作为回归方程是否合理?
x
从实验点 ( xi , y i ) 作回归直线 y = a + bx
下面我们分别来讨论这些问题。假定测量满足以下条件: (1)测量是等精度的; (2 ) x i 的 测量误差要比 y i 的测量误差小得多。 对于每一个测量点所对应的 x i 值,测量值 y i 和由理论回归方程 y = a + bx 计算所得的 y 值 (我们不妨称为理论值)的偏差为 ∆y i = y i − (a + bx i ) 。按统计学上的最小二乘法的原理,最佳 的 a, b 值应使所有测量点 y i 的测量值与理论值的偏差的平方和为最小。 于是寻找最佳线性回归方 程 y = a + bx 就相当于一个数学问题:如何选择 a, b ,使得 ϕ = 小值?对 ϕ 求一阶偏导数并令其为零,即
2
(16.1)
a = y − bx
其中字母上方的横线表示对所代表的变量求平均, 即x=
(16.2)
1 n
∑x
i =1
n
i
,y =
1 n
∑y
i =1
n
i
,xy =
1 n
∑x y
i =1
n
i i
,
x2 =
1 n
∑x
i =1
n
i
2
。把根据 n 组实验数据求出的 a, b 值代入方程 y = a + bx 便是最佳拟合曲线。
最小二乘法和一元线性回归分析
回归分析是通过一组实验数据找出物理量之间的解析表示式的数学方法。设有证据显示, 物 理 量 x, y 之 间 可 能 存 在 线 性 依 赖 关 系 y = a + bx 。 已 有 的 n 对 测 量 数 据 为 (xi , y i ) , 其 中
i = 1,2,...n 。我们要解决的问题是
∂ (∆y i ) ∂ (∆y i ) = −1 及 = − xi ,我们可以得到关于 a, b 应满足的方程组 ∂a ∂b na + b
∑
i =1
n
xi =
∑y
i =1
n
i
a
由此可以解出
∑
i =1
n
xi + b
∑
i =1
n
x i2 =
∑x y
i =1
n
i i
b=
x ⋅ y − xy x − x2
∑ (∆yi )
i =1
n
2
=
∑ ( yi − a − bxi )
i =1
n
2
取得最
∂ϕ =2 ∂a i =1
n
(∆y ) ∑
i
n
∂ (∆y i ) =0 ∂a ∂ (∆y i ) =0 ∂b
(15.1 )
∂ϕ =2 ∂b i =1
注意到
(∆y ) ∑
i
(15.2)
i i =1
n
2
(17 )
由于测量列存在误差,导致拟合方程的参数 a, b 也存在误差。参数 a, b 的标准误差可以用误 差传递公式计算:
σ ai = σ yi
x2 n( x 2 − x )
1
2
(18.1 )
σ bi = σ yi
n( x 2 − x )
2
(18.2 )
用回归分析法求的回归方程,首要任务是选择合适的函数形式。上面介绍的方法没有涉及 如何选择函数形式的问题。原则上,我们可以用以上的方法对任何一组实验数据用直线来拟合。 对于同一组实验数据, 用不同形式的函数去拟合可以得到完全不同的结果。 为了判断所得结果是 否合理,往往需要作进一步的考证。对于一元线性回归,可以通过计算相关系数 γ 来判断用直线 拟合的合理程度。相关系数 γ 定义为
γ =
xy − x ⋅ y
( x 2 − x )( y 2 − y )
2 2
(19)
可以证明 γ ≤ 1 。若 γ 越接近于 1,表示实验结果的数据越接近线性分布,否则应考虑用其 它形式的函数去拟合。 当实验数据的相互关系明显偏离线性时, 可以考虑以下两种方法。 一是通过变量代换把关系变成
线性,例如对于 y = x 2 的关系,如果把 u = x 2 看作一个新变量,则 y 和 u 的关系就是线性了。二 是直接用计算机拟合, 把参数待定的函数形式和实验数据输入计算机, 计算机就会根据使所有测 量点 y i 的测量值与理论值的偏差的平方和
实验点对拟合曲线的离散度用测量列的标准误差 σ yi 来衡量。由于拟合曲线的参数 a, b 是由
n 组实验数据计算得出,参数 a, b 实际上成为 n 组实验数据的 2 个约束条件,实验数据的剩余自
由度为 (n − 2 ) 。进一步的分析可以证明测量列的标准误差 σ yi 为
σ yi =
1 n−2
∑ (∆y )
∑ (y
i =1
n
i
− y ) 为最小的原则找出最佳的参数。但值得注
2
意的是,无论采用那种方法,与线性情况相比,测量列的标准误差 σ yi ,拟合参数的标准偏差以 及相关系数 γ 的计算公式会有不同。