当前位置:文档之家› 方差分析简介

方差分析简介

方差分析简介1. 引言方差分析(analysis of variance,简称ANOV A)是一种假设检验方法,即基本思想可概述为:把全部数据的总方差分解成几部分,每一部分表示某一影响因素或各影响因素之间的交互作用所产生的效应,将各部分方差与随机误差的方差相比较,依据F分布作出统计推断,从而确定各因素或交互作用的效应是否显著。

因为分析是通过计算方差的估计值进行的,所以称为方差分析。

方差分析的主要目标是检验均值间的差别是否在统计意义上显著。

如果只比较两个均值,事实上方差分析的结果和t检验完全相同。

只所以很多情况下采用方差分析,是因为它具有如下两个优点:(1)方差分析可以在一次分析中同时考察多个因素的显著性,比t检验所需的观测值少;(2)方差分析可以考察多个因素的交互作用。

方差分析的缺点是条件有些苛刻,需要满足如下条件:(1)各样本是相互独立的;(2)各样本数据来自正态总体(正态性:normality);(3)各处理组总体方差相等(方差齐性:homogeneity of variance)。

因此在作方差分析之前,要作正态性检验和方差齐性检验,如不满足上述要求,可考虑作变量变换。

常用的变量变换方法有平方根变换,平方根反正弦变换、对数变换及倒数变换等。

方差分析在医药、制造业、农业等领域有重要应用,多用于试验优化和效果分析中。

2. 单因素方差分析2.1 基本概念(1)试验指标:在一项试验中,用来衡量试验效果的特征量称为试验指标,有时简称指标,也称试验结果,通常用y表示。

它类似于数学中的因变量或目标函数。

试验指标用数量表示称为定量指标,如速度、温度、压力、重量、尺寸、寿命、硬度、强度、产量和成本等。

不能直接用数量表示的指标称为定性指标。

如颜色,人的性别等。

定性指标也可以转化为定量指标,方法是用不同的数表示不同的指标值。

(2)试验因素:试验中,凡对试验指标可能产生影响的原因都称为因素(factor),也称因子或元,类似于数学中的自变量。

需要在试验中考察研究的因素,称为试验因素,有时也称为因素,通常用大写字母A、B、C、……表示。

在试验中,有些因素能严格控制,称为可控因素;有些因素难以控制,称为不可控因素。

试验因素是试验中的已知条件,能严格控制,所以是可控因素。

通常把未被选作试验因素的可控因素和不可控因素都称为条件因素,统称为试验条件。

(3)因素水平:因素在试验中所处的各种状态或所取的不同值,称为该因素的水平(level),也简称为水平或位级,通常用下标1、2、3、……表示。

若一个因素取K种状态或K个值,就称该因素为K水平因素。

因素的水平,有的可以取得具体值,如6Kg、10cm;有的只能取大致范围或某个模糊概念,如软、硬、大、小、好、较好等;但也有无法用数值表征的,如履带的不同形式,轮胎花纹的不同种类,机器的不同操作方式,大豆的不同品种等。

(4)处理组:所有试验因素的水平组合所形成的试验点称为处理组(treatment group),也称组合处理。

三因素试验中,A1B2C3是一个组合处理,它表示由A因素1水平、B因素2水平和C因素3水平组合而形成的一个试验点。

2.2 主要步骤假设我们在实验中只考虑因素A,该因素有p个水平,每个水平做r次重复试验,设第i个水平的第j次重复试验的数据为ij y ,如表1所示。

表1 试验数据... ... 1 ... (2)……… ……… …… …j……… …… … … … … r……根据这些数据,可以计算全体数据的均值y 和和各水平对应数据的均值.i y :111p r ij i j y y rp ===∑∑,.11ri ij j y y r ==∑,i=1, 2, …, p进一步,可以计算全体数据的偏差平方和T S 、因素A 对应的偏差平方和A S ,以及误差的偏差平方和e S :下一步,需要计算这三个偏差平方和所对应的自由度。

之所以要计算自由度,是因为如果用偏差平方和除以对应的数据项数,得到的统计量并不是方差的无偏估计。

而偏差平方和与对应的自由度的商才是方差的无偏估计。

设有n 个数据x 1, x 2, …, x n ,它们的平方和21n ii S x==∑的自由度取决于{x i }之间有多少个线性约束关系。

设X=(x 1, x 2, …, x n )T ,若存在秩为m 的矩阵A ,满足 则S 的自由度是n-m 。

下面来求S T 的自由度。

令k ij x y y =-,1,2,...,i p =,1,2,...,j r =,(1)k i r j =-+,则{x i }之间存在一个线性约束即m=1,A=(1, 1, …, 1),故1T f rp =-。

同理可得1A f p =-,e f rp p =-。

可以证明(证明本文从略),对于偏差平方和与其对应的自由度,如下关系成立:T A e S S S =+,T A e f f f =+这就是Fisher 偏差平方和加性原理,它是全部方差分析的基础。

在得到偏差平方和及其对应的自由度后,就可以得到因素A 和误差e 对应的平均偏差平方和/A A A S S f =,/e e e S S f =平均偏差平方和是反映数据波动大小的一个测度,比较A S 和e S 的大小可以看出因素A 的不同水平带来的试验指标的波动是否与随机误差相同,所以,可以由此判断因素A 对试验指标是否有显著影响。

判断A S 和e S 是否相同的方法采用F 检验(基于F 分布的假设检验),令则可认为F 服从自由度为A f 和e f 的F 分布。

用求出的F 值查F 分布表可得到对应的P 值,一般取置信水平α=0.05,即当P 值小于0.05时拒绝原假设,认为因素A 对试验指标的影响显著,否则维持原假设,认为影响不显著。

2.3 数学模型设因素A 取了p 个水平,每个水平重复了r 次试验,在水平A i 下的第i 次实验结果y ij 可以分解为其中,i μ表示在水平Ai 下的理论指标值,ij ε是试验误差。

我们把试验误差ij ε认为是相互独立的随机变量,且服从正态分布2(0,)N σ,这是方差的基本假设之一。

为了看出因素各水平的影响大小,将i μ再进行分解,令i i a μμ=-,i=1, 2, …, p则ij i ij y a με=++,i=1, 2, …, p; j=1, 2, …, r显然{a i }之间有关系a i 表示水平A i 对试验结果产生的影响,它称作水平A i 的效应。

方差分析的数学模型就是建立在这么几条假定的基础上的: (1)ij i ij y a με=++,i=1, 2, …, p; j=1, 2, …, r (2)10pi i a ==∑(3)ij ε相互独立且都服从分布2(0,)N σ 由这三条建立的模型叫做线性模型。

建立模型以后,统计分析需要解决下列问题:1. 参数估计。

即通过试验估计μ和{a i },它们的估计量用ˆμ和{ˆi a }表示。

可以证明(本文从略),ˆμ和{ˆi a }是μ和{a i }的无偏估计。

2. 假设检验。

如果因素A 对指标有影响,效应{a i }不全为0,如果因素A 对指标没有影响,则效应{a i }全为0。

因此,要检验因素A 对指标影响是否显著就是检验假设这需要选择一个合适的统计量。

令.11r i ij j r εε==∑,111p rij i j rp εε===∑∑则故如果原假设H 0成立,则12...0p a a a ====,有因为ij ε相互独立且都服从分布2(0,)N σ,由统计理论推知2A S σ服从自由度为(1)A f p =-的2χ分布,2e S σ服从自由度为()e f n p =-的2χ分布,而且两者独立,从而服从自由度为A f ,e f 的F 分布。

所以可以采用F 统计量作为假设检验的统计量(这种假设检验称为F 检验),通过查F 分布表确定拒绝域或P 值,从而作出推断结论。

3. 多因素方差分析所谓多因素方差分析,就是同时检验多个因素影响是否显著的方差分析方法。

多因素方差分析。

方差分析的一大优势就是可以同时考虑多个试验因素对试验指标的影响,这样,既节省了试验次数,试验误差也比进行多次单因素方差分析要小。

在多因素方差分析中,有一个很重要的问题,就是试验设计(DOE: Design of Experiment)。

其主要目的是通过设计每次试验中因素水平的搭配,用尽可能少的试验次数和试验数据满足方差分析的要求,获得较好的分析结果。

最常用的试验设计有析因设计和正交设计。

前者是对所有因素的所有水平组合都进行试验,因此又称交叉分组设计;后者是按照某种正交表设计试验,以较少的试验次数即可接近析因设计的效果。

因此,析因设计一般用于两个因素且水平数较少的情况,而因素和水平较多时则多采用正交设计。

除正交设计外,还有其它许多实验设计方法,如系统分组设计(嵌套设计)、正交拉丁方设计、裂区设计等,它们一般用在并非任意组合都可以实现或找不到合适的正交表的情况。

实验设计确定的一个水平组合,如A 1B 2A 3,称作一个处理组。

如果在一个处理组内做多次重复试验得到多个试验数据,则称为有重复试验的设计,否则称无重复试验的设计。

在方差分析中,一般要求各处理组内的重复试验数相等。

对于不相等的情况,方差分析也可以计算,但公式略有差别,而且可靠性差,所以一般采用其它方法如通用线性模型(GLM: General Linear Model )来计算。

在多因素方差分析中,还有一个重要的概念,这就是因素间的交互作用(interaction ),它是指几个因素的某些水平互相增强或互相削弱的现象。

表2中,当A 从A 1变化到A 2时,指标都增加,与B 取B 1或B 2无关;同样,B 从B 1变到B 2时,指标都增加,与A 的水平无关,此时,我们说A 和B 之间没有交互作用。

而在表3中,因素A 对指标的影响与B 的水平有关,此时我们说A 和B 之间存在交互作用,记作A ×B 。

表2 无交互作用的试验数据 A 1 A 2 B 1 2 5 A 2 7 10表3 有交互作用的试验数据A 1 A 2B 1 2 5 A 2733.1 析因设计的方差分析由于析因设计主要用于因素和水平数较少的情形,所以本文以双因素试验为例,介绍析因设计的方差分析的主要步骤。

设考虑两个试验因素A 和B ,A 有p 个水平,B 有q 个水平,每个处理组内做r 次重复试验,在A i B j 条件下的第k 次实验的数据记作y ijk ;在A i B j 条件下做的全部试验数据之和记作Y ij ,显然 令Ai K 表示在i A 条件下试验数据之和,Bj K 表示在j B 条件下试验数据之和,即 它们的平均值记为Ai k 和Bj k 整个试验的总平均则总偏差平方和T S ,因素A 和B 的偏差平方和A S ,B S ,误差的偏差平方和e S ,交互作用的偏差平方和A B S ⨯分别计算如下21()p AA ii S qr k y ==-∑,21()qB B j j S pr k y ==-∑它们的自由度分别为需要注意的是:如果各处理组中没有重复试验,即r=1,那么按上式计算出的e S =0,这将导致后续步骤无法开展。

相关主题