当前位置:文档之家› 4第四章 试验数据的回归分析

4第四章 试验数据的回归分析

第四章 试验数据的回归分析
4.1 基本概念

在生产过程和科学实验中,总会遇到多个变量, 同一过程中的这些变量住住是相互依赖相互制约 的,也就是说它们之间存在相互关系,这种相互 关系可以分为两种类型:确定性系和相关关系。
2013-9-13
试验设计与数据处理
2
确定性关系和相关关系

确定性关系


当一个或几个变量取一定值时,另一个变量有确定值与之相对 应,也就是说变量之间在着严格的函数关系,这种关系就称为 确定性关系。 例如,当溶液的体积V一定时,溶液的摩尔浓度c与溶质的质量 W之间就有确定的函数关系。c=W/(MV)(M为溶质的分子 量),当W确定后,c也就完全确定了。
2013-9-13
试验设计与数据处理
36
相关系数检验法

在实际计算复相关系数时,一般不直接根据其定 义式,而是先计算出决定系数R2,然后求其决定 系数的平方根。

这里0≤R≤1,当R=1时,表明y与变量x1,x2,…,xm 之间存在严格的线性关系;当R=0时,则表明y 与变量x1,x2,…,xm之间不存在任何线性相关 关系,但可能存在其他非线性关系;当0<R<1时, 表明变量之间存在一定程度的线性相关关系。可 以证明,当m=1,即一元线性回归时,复相关系 数R与一元线性相关系数r是相等的。
2013-9-13
试验设计与数据处理
4
回归分析(regression analysis)


回归分析是一种处理变量之间相关关系最常用的 统计方法,用它可以寻找隐藏在随机性后面的统 计规律。 确定回归方程,检验回归方程的可信性等是回归 分析的主要内容。 回归分析的类型



研究一个因素与试验指标间相关关系的回归分析称为 一元回归分析; 研究几个因素与试验指标问相关关系的称为多元回归 分析。 可以分为线性回归和非线性回归两种形式。


在一些情况下,n(n>2)对试验值xi,yi。 (i=1,2,…,n)作出的散点图,即使一看就 知道这些点不可能近似在一条直线附近,即x与y 不存在线性相关关系,但是仍可以利用最小二乘 法求得x与y的线性拟和方程,这样求得的方程显 然没有意义。 因此,我们不仅要建立从经验上认为有意义的方 程,还要对其可信性或拟和效果进行检验或衡量。 下面介绍几种检验方法。
2013-9-13
试验设计与数据处理
38
4.3.3 因素主次的判断方法

两种判断因素主次的方法


偏回归系数的标准化 偏回归系数的显著性检验
2013-9-13
试验设计与数据处理
39
偏回归系数的标准化

在多元线性回归方程中,偏回归系数b1,b2,…,bm表示了xi 对y的具体效应,但在一般情况下,bj本身的大小并不能 直接反映自变量的相对重要性,这是因素的取值会受到 对应因素的单位和取值的影响。如果对偏回归系数bi进 行标准化,则可解决这一问题。设偏回归系数hi的标准 化回归系数为Pj,Pj的计算式为:
试验设计与数据处理 5
2013-9-13
4.2 一元线性回归分析


4.2.1 一元线性回归方程的建立 4.2.2 一元线性回归效果的检验
2013-9-13
试验设计与数据处理
6
4.2.1 一元线性回归方程的建立


一元线性回归分析(linear regression)又称直线 拟和,是处理两个变量之间关系的最简单模型。 一元线性回归分析虽然简单,但从中可以了解回 归分析方法的基本思想、方法和应用。
2013-9-13
试验设计与数据处理
20


对于给定的显著性水平,显著性检验要求 |r|>rmin时,才说明x与y之间存在密切的线性关系, 或者说用线性回归方程来描述变量x与y之间的关 系才有意义,否则线性相关不显著,应改用其他 形式的回归方程。 其中rmin称为相关系数临界值,它与给定的显著 性水平和试验数据组数n(n>2)有关,可从附录5 查得。
n
上述方程组称为正规方程组。对方程组求解,可得回归系数a,b的 计算式:
a y bx b
x
i 1 n i 1
n
i
yi n x y n( x ) 2
x
2 i
2013-9-13
试验设计与数据处理
10


为研究某合成物的转化率T与试验中的压强 p(atm)的关系,得到下表数据。用最小二乘法确 定转化率与压强的经验公式。
试验设计与数据处理 37
2013-9-13
修正自由度的决定系数

由于回归平方和SSR会受到试验次数n影响,所以在多元 线性回归分析中,还有一个常用的评价指标,成为修正 自由度的决定系数,计算式:
n 1 2 R 1 (1 R ) n m 1
2

可以看出,R2≤R2 给定的R2和n值,自变量个数m越多R2 越小。
2013-9-13
试验设计与数据处理
13
解பைடு நூலகம்
2013-9-13
试验设计与数据处理
14
采用最小二乘法的基本步骤



根据试验数据画出散点图; 确定经验公式的函数类型; 通过最小二乘法得到正规方程组; 求解正规方程组,得到回归方程的表达式。
2013-9-13
试验设计与数据处理
15
4.2.2 一元线性回归效果的检验


首先计算每个偏回归系数的偏回归平方和SSj SSj=bjLjy SSj的大小表示了xj对y影响程度的大小,其对应的 自由度dfj=1,所以MSj=SSj,于是有 Fj=MSj/MSe=SSj/MSe 对于给定的显著性水平,如果F<Fa(1,n-m-1),则说明xj对y的影响 是不显著的,这是可将它从回归方程中去掉,变成(m-1)元回 归方程。
2013-9-13
试验设计与数据处理
11
分析

根据表中数据,在普通直角坐标系中画出T~p散点图, 由图中可以看出,这些点近似于直线分布,故可设T~p 经验公式为 T=a+bp
若将上表的数值代入经验公式 可得到不同的解
2013-9-13
试验设计与数据处理
12



根据题意,试验次数n=5,T~p为一元线性关系 根据最小二乘法原理有


其中xi,yi是已知试验值,故残差平方和SSe为a,b的函数。 将上式分别对a,b求偏导数,并令其等于0,即可求得a,b之值。
n n n Q a 2 ( yi a bxi ) 0 na b xi yi i 1 i 1 i 1 即 n n n n Q 2 a x b x x y 2 ( yi a bxi ) xi 0 i i i b i i 1 i 1 i 1 i 1
当一个或几个相互关系的变量取一定数值时,与之对应的另一 变量的值虽然不确定,但它仍按某种规律在一定的范围内变化, 变量之间的这种关系称为相关关系。 例如,在食品加工过程中,处理温度与食品中维生素C含量之间 的关系,虽然我们知道温度越高,维生素C含量会降低,但这一 规律很难用一个确定的函数式来准确表达,两看问存在相关关 系。
2013-9-13
试验设计与数据处理
23
F检验法

F检验实际上就是方差分析


非常显著和显著的结果说明y的变化主要是由x的变化 造成的。 不显著的结果说明y的变化与x的变化关系不大
2013-9-13
试验设计与数据处理
24
残差分析
2013-9-13
试验设计与数据处理
25
4.3 多元线性回归分析



4.3.1 多元线性回归方程 4.3.2 多元线性回归方程显著性检验 4.3.3 因素主次的判断方法
2013-9-13
试验设计与数据处理
26
4.3.1 多元线性回归方程

在解决实际问题时,往往是多个因素都对试验结果有影 响,这时可以通过多元回归方差分析(multiple regression analysis)求出试验指标(因变量)y与多个试 验因素(自变量)xj之间的近似函数关系 y=f(x1,x2,…,xm)
34
F检验法
2013-9-13
试验设计与数据处理
35
相关系数检验法

在多元线性回归分析中,复相关系数R反映了一个变量y 与多个变量xj之间的线性相关程度。定义式如下:

复相关系数的平方成为多元线性回归方程的决定系数用 R2表示。决定系数的大小反映了回归平方和SSR再总离差 平方和SST中占的比重,即:
2013-9-13
试验设计与数据处理
18
相关系数检验法
2013-9-13
试验设计与数据处理
19
相关系数检验法
分析可知,相关系数r 越接近1,x与y的线 性相关程度越高,然 而r的大小未能回答其 值达到多大时,x与y 之间才存在线性相关, 采用线性关系才属合 理,所以须对相关系 数r进行显著性检验。

根据标准化回归系数Pj的大小就可以直接判断各因素xi 对试验结果y的重要程度,P越大,则对应的因素越重要。
试验设计与数据处理 40
2013-9-13
偏回归系数的显著性检验


在多元回归方程的F检验中,回归平方和SSR反映了所有 自变量对实验指标y的总的影响,如果对每个偏回归系数 进行方差分析,就可以知道每个偏回归系数的显著性 , 从而判断他们对应因素的重要程度 步骤
2013-9-13
试验设计与数据处理
7
一元线性回归方程

设有一组试验数据,试验值xi,yi(i=1,2,…,n),其 中x是自变量,y是因变量。若x,y符合线性关系,或己 知经验公式为直线形式,都可拟和为直线方程,即:
相关主题