当前位置:文档之家› 回归正交试验设计

回归正交试验设计

回归正交试验设计一、概述(1)回归分析与正交试验设计的主要优缺点回归分析的主要优点是可以由试验数据求出经验公式,用于描述自变量与因变量之间的函数关系。

它的主要缺点是毫不关心试验数据如何取得,这样,不仅盲目地增加了试验次数,而且试验数据还往往不能提供充分的信息。

因此,有些工作者将经典的回归分析方法描述成:“这是撒大网,捉小鱼,有时还捉不到鱼”。

所以说,回归分析只是被动地处理试验数据,并且回归系数之间存在相关关系,若从回归方程中剔除某个不显著因素时,需重新计算回归系数,耗费大量的时间。

正交试验设计的主要优点是科学地安排试验过程,用最少的试验次数获得最全面的试验信息,并对试验结果进行科学分析(如方差分析),从而得到最佳试验条件,但是它的主要缺点是试验结果无法用一个经验公式来表达,从而不便于考察试验条件改变后,试验指标将作如何变化。

(2)回归正交试验设计回归正交试验设计,实际上就是将线性回归分析与正交试验设计两者有机地结合起来而发展出的一种试验设计方法,它利用正交试验设计法的“正交性”特点,有计划、有目的、科学合理地在正交表上安排试验,并将试验结果用一个明确的函数表达式即回归方程来表示,从而达到既减少试验次数、又能迅速地建立经验公式的目的。

根据回归模型的次数,回归正交试验设计又分为一次回归试验设计和二次回归试验设计。

二、一次回归正交试验设计(一)一次回归正交试验设计的概念一次回归设计研究的是一个因素z (或多个因素z 1,z 2,……)与试验指标y 之间的线性关系。

当只研究一个因素时,其线性回归模型:y =β0+β1z +e (1)其回归方程为:z y ∧∧∧+=10ββ (2)式中∧0β、∧1β称为回归系数,e 是随机误差,是一组相互独立、且服从正态分布N(0,σ2)的随机变量。

可以证明,∧0β、∧1β和∧y 是β0、β1和y 的无偏估计,即E(∧0β)=β0,E(∧1β)=β1,E(∧y )=y一次回归正交试验设计是通过编码公式x =f(z) −− 即变量变换,将式(2)变为:x b b y 10+=∧(3)且使试验方案具有正交性,即使得编码因素X的各水平之和为零:∑==mi ix1(4)式中m 是因素x 的水平数。

在回归分析中,回归系数的计算公式为:x b y b 10-=xxxy l l b =1 (5)式中:∑==Ni i y Ny 11, ∑==Ni ixN x 11∑∑∑===-=-=Ni Ni Ni i i i xxx N x x x l 112122)(1)((6)∑∑∑∑====-=--=N i Ni Ni iN i i i i i i xyyx N y x y y x x l 11111))((式中:xx l —— x 偏差平方和;xy l —— x 偏差与y 偏差的乘积之和N—— 试验总数因此,在一次回归正交试验设计中,由于试验方案具有正交性,则有:y b =0∑∑===N i i Ni ii x yx b 1211 (7)(∑∑===⇒=m i Ni i i x x 11,00 ∵正交表各水平的出现次数相同!)显然,回归正交试验设计大大简化了计算,同时,编码因素x 的水平数一般不大于3,使试验方案制定的目的性明确,便于安排试验,可减少试验次数。

(二)回归正交试验设计的一般步骤1、确定因素的变化范围,对因素水平进行编码如前所述,回归正交试验设计的基本点是,利用正交试验设计安排试验,运用回归分析方法处理数据,从而减少试验次数,迅速得到回归方程。

而连接这两种方法的“桥梁”是对因素的水平进行编码。

试验前,每个因素各水平的取值,必须满足编码的要求,数据处理时才能大大简化计算。

因此,编码是回归正交试验设计的关键环节,也是回归正交试验设计与一般的正交试验设计的主要区别。

所谓因素的水平编码,就是对因素水平的取值作适当的线性变换,构造因素水平与“编码”的一一对应关系,编码后,使因素各水平变换成最简单的整数字码,如-1,+1;-1,0,+1;等等。

通过编码使计算大大简化。

欲研究p 个因素z 1,z 2, …, z p 与指标y 的数量关系,须先要确定它们的变化范围。

对因素z j ,用z 1j 和z 2j 分别表示其变化的下界值与上界值,即因素z j 的变化区间为[z 1j ,z 2j ]。

若试验在z 1j 和z 2j 上进行,则分别称z 1j 和z 2j 为因素的下水平(用-1表示)和上水平(用+1表示),并称它们的算术平均值:)(2121j j oj z z z += (8)为因素的基准水平或零水平(用O 表示),而称它们差值的一半:)(2112j j j z z -=∆ (9)为因素的变化区间。

为使具有正交性,须对因素z j 作线性变换,即令:jjj j z z x ∆-=0 (10)将式(8)和式(9)代入式(10),得: jj j j j j z z z z z x 1221)(2-+-=或者1)(2122+--=jj j j j z z z z x(11)显然,当z j =z 1j 时,x j =x 1j =-1;当z j =z oj 时,x j =x oj =0; 当z j =z 2j 时,x j =x 2j =+1.于是,因素的水平值z j 与编码x j ,建立了一一对应的关系。

通常,因素的水平编码多在表格上进行,如表1所示。

表1 因素水平编码表通过编码,y对变量z1,z2,…,z p的回归问题就转化为y对变量x1, x2, …, x p的回归回题。

因此,可以在以x1, x2, …, x p为坐标轴的编码空间选择试验点,进行试验设计与回归分析。

这时,回归系数的计算变得十分简单[见式(7)]。

2、选择合适的正交表一次回归正交试验设计,一般选L n(m k)型等水平正交表,如L4(23)、L8(27)、L12(211)、L9(34)、L27(313)等二水平或三水平正交表。

为符合对因素进行编码的需要,对2k型(二水平)正交表,将表中的1、2分别用-1、+1代换;对3k型(三水平)正交表,将表中的1、2、3分别用-1、0、+1代换;对4k型(四水平)正交表,将表中的1、2、3、4分别用-2、-1、+1、+2代换;等等。

经过变换后,正交表中的-1、+1、-2、+2等既表示因素水平,又表示因素水平变化的数量大小。

同时,交互作用列可直接由表中相应元素列的对应水平相乘得到,故原交互作用列表失去作用。

显然,变换前后的两种正交表之间并无本质差别,故仍用原符号L4(23)、L8(27)等表示。

变换后的二水平正交表L4(23), 如表2所示。

表2 L4(23)3、回归系数的计算设p 个变量x 1, x 2,…, x p 与y 之间存在线性相关关系,y =0β + 1βx 1 +2βx 2 + … +p βx p + e (12)式中随机误差e 相互独立,且e ~ N(0,2σ)。

若用正交试验法做N 次试验,则有i ip p i i i e x x x y +++++=ββββ 22110 (13)(i=1,2,…,N ) 其结构矩阵为:⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡=Np N N p p x x x x x xx x x X ...1......1 (12)12222111211(14)对于L n (2k )型二水平正交表,上式中的x ij 均为 +1或 -1(i=1,2, …,N;j=1,2, …,p )。

因为回归正交试验设计满足正交性要求,故矩阵Ⅹ中除常数列(即第1列)外,任何一列元素之和为零;任两列对应元素的乘积之和为零;任一列的平方和为N ,即:⎪⎪⎪⎭⎪⎪⎪⎬⎫==≠====∑∑∑===),...,2,1(,),,...,2,1,(,0),...,2,1(,01211p j N x j i p j i x x p j x Nk kj Nk kj ki Nk kj(15)信息矩阵(即系数矩阵)为A = X ’X = ⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡=⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣⎡∑∑∑===N NNN x x xN Nk kp Nk k Nk k 12122121(16) 相关矩阵为:C = A -1 = ⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡N N N 111(17)由上可见,因为回归正交试验设计具有正交性特点,所以信息矩阵和相关矩阵都是对角矩阵,这使计算工作量大大减少。

常数项矩阵为:⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎢⎣⎡=⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛==∑∑∑∑====p N k k kp N k k k N k k k N k k B B B B y x y x y x y Y X B 210112111' (18) 于是参数β的最小二乘估计b=A 1-B ,即b 0=,110y yNN B Nk k==∑=()p j y x N N B b Nk k kj jj ,...,2,1,11===∑= (19) ∴ 回归方程为:p p x x x y ∧∧∧∧∧++++=ββββ (22210)=p p x b x b x b b ++++...22110 (j j b =∧β) (20)用式(10)将式(20)复原成原变量z 1,z 2,p z , 的回归方程:pp p p p p z b z b z b b z z b z z b z z b b y '22'11'0'020*********......++++=⎪⎪⎭⎫⎝⎛∆+++⎪⎪⎭⎫⎝⎛∆-+⎪⎪⎭⎫ ⎝⎛∆-+=∧(21)式中:⎪⎪⎭⎫ ⎝⎛∆++∆+∆-=p pp z b z b z b b b 0022201110'... (22) ),...,2,1(,'p j b b jj j=∆=回归系数∧0β,∧1β,∧2β,∧p β...,可列表计算,如表3所示。

表中的2j j j j b N B b Q ==为变量x j 的偏回归平方和,回归系数b j 的绝对值大小反映了x j 作用的大小。

一般把b j 与零相差不大的因子剔除,归入误差项,而不必重新计算系数与方差检验。

经正交试验设计后,回归系数之间的相关性消除了。

这是因为相关矩阵C 是对角矩阵,从回归方程中剔除某一变量时,其余回归系数不变。

表3 一次回归正交试验设计计算表4、回归方程和回归系数的显著性检验(1) 回归方程的显著性检验总偏差平方和(S T )及其自由度(f T ):S T =∑∑∑===-=-=-Nk Nk kNk kk N B y y N y y y 112021222)( ,(23)f T = N -1回归平方和(S Q =S 回)及其自由度(f Q =f 回)S Q =∑=Pj j Q 1(24)pfQ=剩余平方和(S e=S剩)及其自由度(f e=f剩):S e = S T -S Qf e = N-p-1 (25) 对回归方程(20)的显著性检验,采用F检验,即用统计量)1(--==pNSpSfSfSFeeQQ剩回(26)对给定显著性水平α, 若)1,(-->pNpFFα则认为在显著性水平α下回归方程显著。

相关主题