第五章 回归分析和曲线拟合
y
^
y0落在
y0
S
范围内的可能性为68%
y
利用此关系,对于指定的x0,我们有95%的把握说,在x x0
^
^
处的实际观测值y0介于
y0
2S
与
y
y0
2S
y
之间
即:
^
^
y0 2Sy y0 y0 2Sy
这样,预报问题就得到了解决
量S
y
称为剩余标准差。S
用来衡量预报的精确度
y
27
(二)控制问题 控制问题只不过是预报的反问题。若要求观测值y0 在y1 y0 y2范围内取值,则可从 a 2Sy bx1 y(1 或a 3Sy bx1 y1) 及 a 2Sy bx2 y(2 或a 3S2 bx2 y2) 中分别解出x1、x2,只要将x的取值控制在x1与x2之间, 我们就能以95%(或99.7%)的把握保证,y0在y1与 y2范围内取值。
^
一般来说,对于固定x0处的观测值y0,其取值是以 y0 为
^
中心而对称分布的。愈靠近 y0 的地方,出现的机会愈大,
^
离 y0 愈元的地方,出现的机会少,而且y0的取值范围与量
Sy
Q N 2
有下述关系: 26
^
y0落在
y0
3S
范围内的可能性为99.7%
y
^
y0落在
y0
2S
范围内的可能性为95%
_
_
a y b x
b Lxy Lxx
(6 19)
r lxy
(6 20) U Lxy2
(6 21)
lxx l yy
Lxx
33
序号
x
y
x2
y2
1
5
4
25
16
2
5
6
25
363108Fra bibliotek100
64
4
20
13
400
169
5
30
16
900
256
6
40
17
1600
289
7
50
19
2500
361
8
60
25
N i 1
yi
求得a,b后,回归方程为:
^
y a bx
便可以确定,b称为回归系数
(6 5) (6 6)
11
三、回归方程检验方法
(一)方差分析法
回顾方差分析的基本特点:
把所给数据的总波动分解为两部分,一部分反映水平
变化引起的波动,另一部分反映由于存在试验误差而引起
的波动。然后把各因素水平变化引起的波动与试验误差引 起的波动大小进行比较,而达到检验因素显著性的目的.
f
=1
U
fQ=N-2
三者之间仍然有:f总 fU fQ
15
可用F检验考察回归直线的显著性:
(1)计算F= U/fu Q/fQ
(N
2) U Q
(2)对于选定的显著性水平a=0.0(5 或0.01),从F分布
上找出临界值Fa (1, N 2) (3)比较F与Fa的大小。
若F>Fa,则回归方程有意义,反之则说明方程意义不大
16
(二)相关系数检验法
N^ _
N
_
由U ( yi y)2 U [(a bxi ) (a b x)]2
i=1
i=1
N
_
b2 (xi x)2
i=1
N
^
^_
代入 Lyy [( yi yi ) ( yi y)]2整理后可得
i=1
N
_
N
_
( yi yi )2
(xi x)2
11
11
回归方程为: y 4.37 .323x
(2)显著性检验
相关系数
N^ _
第二项 U ( yi y)2 i=1
(6 8)
U反映了总变动中,由于x与y的线性关系而引起y变化的
一部分,称为回归平方和
第三项为零
Lyy U Q
(6 9)
14
每一个变动平方和(即Lyy、U、Q)都有一个“自由度”
和它们对应,Lyy自由度称为总自由度,记做f总。
f总=观测值个数-1=N-1
i1 i1 i1
i 1
i 1
_
x
495
11
_
y
208
11
Lxy
13755 1 495 208 11
48345 11
Lxx
35875
1 11
4952
149600 11
35
b Lxy 48345 0.328 Lxx 149600
_ _ 208
495
a y b x 0.323 4.37
28
进行预报和控制,通常也采用图解法。其作法是:在
散点图上作两条平行与回归直线的直线
y a bx1 2Sy
(6 17)
y a bx2 2Sy
y
y a bx 2Sy
y
y2
^
y a bx
y2
(6 18) y a bx 2Sy
^
y1
y a bx 2Sy
x y1
x1 x2
i 1
i 1
Q反映了全部观测值yi (i 1,2,..., N )对直线的偏离程度,显
然,离差平方和Q越小,愈能较好地表示x, y之间的关系。
用最小二乘法原理,通过选择合适的系数a,b,使Q最小 9
Q
N
a
2 ( yi
i 1
a bxi ) 0
Q
b
N
2
i 1
( yi
a
bxi )xi
0
联合求解得:
回归分析主要解决以下几方面的问题: (1)确定几个特定变量之间是否存在相关关系,
如果存在的话,找出她们之间合适的数学表达式 (2)根据一个或几个变量的值,预报或控制另一
个变量的取值,并且要知道这种预报或控制的精确 度 (3)进行因素分析,确定因素的主次以及因素之 间的相互关系等等
4
一元线性回归分析,只要解决: (1)求变量x与y之间的回归直线方程 (2)判断变量x和y之间是否确为线性关系 (3)根据一个变量的值,预测或控制另一变量
n-2 0.05 0.01
11 0.553 0.684 12 0.532 0.661 13 0.514 0.641 14 0.479 0.623 15 0.482 0.606 16 0.468 0.590 17 0.456 0.575 18 0.444 0.561 19 0.433 0.549 20 0.413 0.537
腐蚀时间x(秒) 5 5 10 20 30 40 50 60 65 90 120 腐蚀深度y(μ) 4 6 8 13 16 17 19 25 25 29 46
31
作散点图,即(xi,yi)图
y
40
30
20
10
10 20 30 40 50 60 70 80 90 100 110 120
x
可见x与y之间无确定的函数关系,而表现为相关关系
的取值
5
二、一元线性回归方程的确定
数学上判定直线合理的原则: 如果直线与全部观测数据yi (i 1, 2,..., N )的离差平方和, 比任何其它直线与全部观测数据的离差平方和更小,该 直线就是代表x与y之间关系较为合理的一条直线,这条 直线就是x和y之间的回归直线。
6
设y* a bx是平面上的一条任意直线,(xi , yi )(i 1,2, ..., N)是变量x,y的一组观测数据。 那么,对于每一个xi,在直线y* a bx上确可以确定一 个yi* a bxi的值,yi*与xi处实际观测值yi的差:
3600
625
9
65
25
4225
625
10
90
29
8100
841
11 120
46
14400
2116
495
208
35875
5398
xy
20 30 80 260 480 680 950 1500 1625 2610 5520 13755
34
具体计算格式如下:
N
N
N
N
N
列表计算xi2、yi2、xi yi以及 xi, yi, xi2, yi2, xi yi
i=1 N
_
1 b2
i=1 N
_
(6 11)
( yi y)2
( yi y)2
17
i=1
i=1
N
_
N
^
(xi x)2
( yi yi )2
令
r2 b2
i=1 N
_
1
i=1 N
_
( yi y)2
( yi y)2
i=1
i=1
N
_
(xi x)2
r b
i=1 N
_
( yi y)2
Lyy ( yi y)2 [( yi yi ) ( yi y)]2
i=1
i=1
N
^
N^ _
N
^ ^_
( yi yi )2 ( yi y)2 2 ( yi yi )( yi y)
i=1
i=1
i=1
13
N
^
第一项 Q ( yi yi )2
i=1
Q是观测值与回归直线的离差平方和,反映了误差的大小
‹#›
‹#›
变量S的值随t而定,这就是说,如果t去了固定 值,那么S的值就完全确定了
这种关系就是所谓的函数关系或确定性关系