当前位置:文档之家› 数理统计(研究生课程):第四章方差分析

数理统计(研究生课程):第四章方差分析

r ni r ni 1 2 2 2 2 ST X ij nX X ij T.. n i 1 j 1 i 1 j 1 r r X i2 X i2 1 2 S A . nX 2 . T.. n i 1 ni i 1 ni S E ST S A S A /(r 1) F S E /(n r ) r ni
反映X ij 之间的波动.令
ST ( X ij X ) 2
i 1 j 1 r ni
1 r ni 其中X X ij n i 1 j 1

r
X i . X ij ,
j 1
ni r ni
ni
1 Xi. ni
X
j 1
ni
ij
则ST ( X ij X ) 2 ( X ij X i . X i . X ) 2
因此
(ni 1) Si2
~ 2 (ni 1), i 1,2,, r

SE
2

i 1
r
(ni 1) Si2

2
~ 2 (n r )
柯赫伦(Cochran)分解定理 : 设X 1 , X 2 ,..., X n为n个 相互独立的N (0,1)随机变量, Q j 是某些X 1 , X 2 ,..., X n的 线性组合的平方和, 其自由度分别为f j , 如果 Q1 Q2 ... Qk ~ 2 (n) 且 则 f1 f 2 ... f k n Q j ~ 2 ( f j ), j 1,2,..., k
§1 单因子方差分析
§1.1 基本概念
为了考察某个因素 A 对试验指标(即随机变量 X) 的影响,在试验时,保持其他因素不变,而仅让因素 A 改变,这种试验称为单因子(单因素)试验. 设试验结 果如下表:
水平 A1 A2 … Ar
观测值 x11 x21 … xr1 x12 x22 … xr2 ... … … … x1n1 x2n2 … xrnr
§1.4 检验过程
由此可知,当H 0 : 1 2 ... n 0为真时, S A /(r 1) F ~ F (r 1, n r ) S E /(n r ) 按照显著性检验程序, 对给定的显著性水平 , 当F
F1 (r 1, n r )时, 拒绝假设H 0 , 认为因子各水平间在显 著性水平下有显著差异.否则接受H 0 , 认为因子各水平 间在显著性水平下无显著差异.
• 在实际问题中影响总体均值的因素可能不止一 个.我们按试验中因子的个数,可以有单因子方差 分析,双因子分析,多因子分析等.例中是一个单因 子方差分析问题. • 设在某试验中,因子A有r个不同水平 A1,A2,...,Ar,在Ai水平下的试验结果Xi服从正态 分布N(μi,σ2),i=1,2,...,r,且X1,X2,...,Xr间 相互独立.现在水平Ai下做了ni次试验,获得了ni 个试验结果Xij,j=1,2,...,ni这可以看成是取自Xi 的一个容量为ni的样本,i=1,2,...,r.
这里r 5, t 4, n 20
xij 5236
i 1 j 1
5
i 1
记 S E ( X ij X i .) 2
i 1 j 1
r
ni
S A ni ( X i . X ) 2
i 1
rHale Waihona Puke 则 ST S E S A 为一个平方和分解式.
下面我们来看各式的意义 1 r ni X X ij 是所有数据的平均值, 称为总平均值. n i 1 j 1 1 ni X i . X ij 是从第i个总体中抽得的样本平均值, 称 ni j 1
为组平均值.
ST ( X ij X ) 表示所有数据与总平均值
2 i 1 j 1
r
ni
的离差平方和, 是描述全部数据离散程度的一个 指标, 称为总偏差平方和(总离差平方和).
S E ( X ij X i .) 2 表示每个数据与其组平均值
i 1 j 1 r ni
fr n 1 f A r 1 fE n r
其中n ni为试验的总次数, X i. X ij , T.. X ij .
i 1 j 1 i 1 j 1
r
ni
等重复试验计算表 试验号 1 水平 1 2 … r x11 x21 … xr1 2 x12 x22 … xr2 … 各水平的 t 和 xi. 和平方 x2i.
且Q1 , Q2 ,..., Qk 相互独立.
由于

ST
2


SA
2


SE
2
及n 1 (r 1) (n r )
可知柯赫伦分解定理的条件全部满足, 故有

SA
2
~ (r 1)
2
且S A与S E 相互独立.
由于S A反映的是因子不同水平均值之间的差 异程度, 故当假设H 0 : 1 2 ... r 0为真时, S A的值不应太大, 从而 S A /(r 1) F S E /(n r ) 也不应太大, 当F值过大时, 可以认为假设H 0不真.
的离差平方和, 反映了试验中的随机误差, 称为误差 偏差平方和(组内离差平方和).
S A ni ( X i . X ) 2 表示组平均值与总平均值的离差
i 1 r
平方和, 反映了各总体(因子A的不同水平)均值之间的 差异程度, 称为因子偏差平方和(组间离差平方和).
§1.3 检验统计量的构造
• 由于Xij~N(μi,σ2) ,故Xij与μi的差可以看成一个 随机误差εij~N(0,σ2) .这样一来,可以假定Xij具有下 述数据结构式:
Xij= μi+ εij,i=1,2,...,r;j=1,2,...,ni 其中诸εij~N(0,σ2),且相互独立.要检验的假设是 H0:μ1=μ2=…=μr • 为了今后方便起见,把参数的形式改变一下,并 r 记 1 r ni i n ni
… x1t … x2t … … … xrt
方差分析表 方差来源 平方和 自由度 均方和 F 值 显著性 SA r-1 SA /(r-1) 因子影响 F SE n-r SE /(n-r) 随机误差 ST n-1 总和
• 例:为寻求适应本地区的高产油菜品种,今选了 五种不同品种进行试验,每一品种在四块试验田上 得到在每一块田上的亩产量如下:
• 我们要研究的问题是诸不同品种的平均亩 产量是否有显著差异.
• 在本例中只考虑品种这一因子对亩产量的影响 ,五个不同品种就是该因子的五个不同水平.由于 同一品种在不同田块上的亩产量不同,我们可以认 为一个品种的亩产量就是一个总体,在方差分析中 总假定各总体独立地服从同方差正态分布,即第i 个品种的亩产量是一个随机变量,它服从分布 N(μi,σ2), i=1,2,3,4,5.
品种 A1 A2 A3 A4 A5 田块 1 256 244 250 288 206 2 222 300 277 280 212 3 280 290 230 315 220 4 298 275 322 259 212
• 我们要研究的问题是诸不同品种的平均亩 产量是否有显著差异.
• 解:先列表计算
计算表 田块 品种 A1 A2 A3 A4 A5 1 256 244 250 288 206 2 222 300 277 280 212 3 280 290 230 315 220 4 和 各水平的 和平方 1115136 1229881 1164241 1304164 722500 298 1056 275 1109 322 1079 259 1142 212 850
• 例:为寻求适应本地区的高产油菜品种,今选了 五种不同品种进行试验,每一品种在四块试验田上 得到在每一块田上的亩产量如下:
品种 A1 A2 A3 A4 A5 田块 1 256 244 250 288 206 2 222 300 277 280 212 3 280 290 230 315 220 4 298 275 322 259 212
当H 0 : 1 2 ... n 0为真时, 一切X ij ~ N ( , 2 ), 且相互独立.
r ni
ST ( X ij X ) 2 (n 1) S 2
i 1 j 1
其中S 2是全体样本的样本方差 .
故 ST (n 1) S 2 ~ 2 (n 1)
n
i 1 i 1
i i ,
i 1,2,..., r ,
称μ为一般平均,αi为因子A的第i 个水平的效应.
• 在这样的改变下,单因子方差分析模型中的数 据结构式可以写成:
X ij i ij , i 1,2,..., r; j 1,2,..., ni
i 1 j 1
ni
i 1 j 1
ni
( X ij X i .) 2 ( X i . X ) 2 2 ( X ij X i .)( X i . X )
i 1 j 1 i 1 j 1 i 1 j 1
r
r
r
ni
( X ij X i .) ni ( X i . X ) 2
• 试验的目的就是要检验假设 H0:μ1=μ2=μ3=μ4=μ5
是否成立.若是拒绝 ,那么我们就认为这五种品种 的平均亩产量之间有显著差异;反之,就认为各品 种间产量的不同是由随机因素引起的.方差分析就 是检验假设的一种方法.
• 实际上,方差分析是检验同方差的若干正态总体 均值是否相等的一种统计方法.
2
2
对于各组样本有
( X ij X i. ) 2 (ni 1) S i2
相关主题