当前位置:
文档之家› 研究生 统计学讲义 第5讲 第5章 方差分析
研究生 统计学讲义 第5讲 第5章 方差分析
输出结果
第三节
配伍组设计资料的方差分析及多重比较
一、配伍组设计资料的方差分析
配伍组设计的多个样本均数比较,符合方差分析 条件时,可用无重复数据的两因素方差分析(Two-way ANOVA)。两因素是指主要的处理因素和配伍因素。 配伍组设计试验的结果按处理和配伍两个因素纵横排 列构成多行多列资料,每个格子中仅有一个数据,故 称无重复数据。 例5.4 为了控制年龄因素对治愈某病所需时间的影响 ,采用了配伍组设计,选定5个年龄组,每组3个病人 ,随机分配到不同的处理组中去,资料如表6-2,试分 析三种疗法治愈某病所需时间是是否相等。
年龄组 (岁 )
疗
中西医结 合
7 8 9 10 11
法
中 医
9 9 9 9 12
西医
10 10 12 12 14
20以下 20~ 30~ 40~ 50及以上
处理组 H0:μ1 =μ2 =μ3,即不同疗法治愈天数的总 体均数相等;H1:不同疗法治愈天数的总体均数有不 等或全不相等。α= 0.05
配伍组H0:不同年龄治愈天数的总体均数相等; H1:不同年龄的治愈天数的总体均数有不等或全不等 。α= 0.05
3.方差分析的优点 方差分析的优点有:① 不受对比的 组数之限制;② 可同时分析多个因素的作用;③ 可分 析因素间的交互作用。
第二节
完全随机设计资料的多个样本均数比较
一、完全随机设计资料的方差分析 单因素方差分析(one-way ANOVA) H0:μ1=μ2=……=μn ,H1:μ1,μ2 ,…,μn不等或不全等; α=0.05。
2.方差分析的应用条件 (1) 各样本是相互独立的随机样本。 (2) 正态性(normality),各样本来自正态分布总体。方 差分析的这一应用条件是对样本含量较小时的资料而言 ,对于样本含量较大的资料来说,则样本不论来自什么 总体,方差分析都是强有力的分析方法。因为当各组的 样本含量较大时,样本均数近似正态分布。 (3) 各比较组总体方差相等(σ12=σ22=…=σk2),称为方差 齐性(homogeneity of variance)。方差分析的这一应 用条件主要是对完全随机设计资料而言,注意:无重 复数据的方差分析,如配伍设计、交叉设计、正交设 计的方差分析,因每个单元格子中只有一个观察数据 ,不需考虑正态性和方差齐性的要求。
多个实验组分别与一个对照组比较常用Dunnett法 。每两个均数的比较常用最小显著差值(LSD)、 SNK(Student-Newman-Keuls)法,又称 q 检验;也 常用Tukey法、Bonferroni校正法、 Duncan的多重极 差检验 。 Bonferroni校正法的思想是考虑到若以 m 代表 t 检 验次数, 每次使用α水平进行比较, m 次比较均不犯Ⅰ类 错误的概率为:
显然SS总 还与总例数N(=∑nj)的多少有关,确切地说 与总的自由度df总(df总=N-1)有关。 (2) 组内变异(within group variation):四个样本组各组 内部E-SFE值也大小不等,这种变异称为组内变异。它 反映了E-SFC的随机误差(包括个体差异以及观测误差), 其大小可用四样本内部每个观察值 xij 与自已所在样本 组均数 x j 之差的平方和(记为SS组内)来表示,
SS组 间
n (X
j j 1
k
i
X 总)
同样,组间变异SS组间的大小还与其自由度df组间(df组间 =k-1)有关,所以计算组间方差,称为组间均方(between groups mean square,记为MS组间),
MS组间=SS组间 /df组间=
SS组间 k 1
SS总=SS组间+SS组内,且df总=df组间 + df组内 H0:μ1=μ2=μ3=μ4,F=MS组间 / MS组内 >1 F 要大于1 多少才有统计意义呢?可查F 界值表( 见附表6)得 P 值,按 P 值的大小作出推断结论。
例如有4个样本均数间的两两比较有C42 =4!/[2 !(4-2)!]=6 种情况,即可有 6 次对比,若每次比较 的检验水准α=0.05,则每次比较不犯第一类错误的概 率为0.95,按概率的乘法定理,6 次比较均不犯第一类 错误的概率为(1-0.05)6,这时,总的检验犯第一类错误 的概率为1- 0.956=0.2649,比0.05大多了。 例5.2 曾经有人观察甲、乙两种性激素对成四种中 药纤维细胞生长的影响,以安慰剂为对照,三组样本 含量均为10,结果是甲组为36±4,乙组为39±3,安 慰剂组为40±4。按检验水准α=0.05,使用 t 检验作两 两比较,结论:甲组与乙组组比较 t =1.897,P>0.05 ,差异无统计学意义;乙组与安慰剂组比较,t=0.632 ,P>0.05,差异无统计学意义;甲组与安慰剂组比较 ,t=2.236,P≈0.04,差异有统计学意义。显然在逻辑 上是矛盾的。
因一般都按组成统计量F的分子大于分母计算F值。 所以附表6中 F 界值都大于1。方便方差分析时用。 F分布具有倒数性质:
F1 ( df 1,df 2 )
1 F ( df 2 ,df1 )
例如,查附表6,F0.05(2,5) =5.7861,F 界值表中没有 列出F0.95(5,2) ,利用F分布的倒数性质可得F0.95(5,2) =1/F0.05(2,5) =1/5.7861 = 0.1728 。 下面的性质是F分布用于方差分析和两样本比较时 的方差齐性检验的重要依据:
SS组 内
j 1 i 1
k
nj
( X ij X j ) 2
( n j 1) S 2 j
显然SS组内的大小还与各样本例数 nj 的多少有关, 确切地说与自由度df组内(df组内=Σnj - k)有关,所以计算 组内方差,称为组内均方(within group mean square ,记为MS组内,MS组内=SS组内 / df组内=[Σ(nj -1)sj2 ]/ (Σnj -k)。 (3) 组间变异(between groups variation):四组间E-SFC 值的样本均数 x j 也大小不等,这种变异称为组间变异, 它反映了不同处理(中药)的影响,也包括了随机误差。 其大小可用各组均数分别与总均数之差的平方和(记为 SS组间)来表示,
方差分析首先要进行F 检验,统计量为F,我们先 介绍其统计量的分布─F分布。
定义:如果随机变量X1、X2分别服从自由度为df1 ,df2的2分布,则称随机变量
X 1 / df1 F X 2 / df2
服从自由度为df1, df2的F分布(Fdistribution)。
F0.05(5 ,10) =3.33, P (F >3.33) = 0.05;P (F<3.33) = 0.95;
第5章 方差分析 analysis of variance,ANOVA 方差分析目的是利用变异的关系来判别多组资料 的总体平均值是否有差别。基本思想是:先假设(H0 )各总体均数全相等;将总变异SS总,按设计和资料 分析的需要分为两个或多个组成部分,其自由度也相 应地分为几个部分,以随机误差为基础,按F分布的 规律作统计推断。 预备知识
查附表6,界值F0.01(3,5) =12.1,df1=3,df2=5时, P (F >12.1) =0.01,P (F <12.1) = 0.99
查附表6, F0.01(3,5) =12.1 , df1=3 , df2=5时 , P (F >12.1) =0.01 , P (F <12.1) = 0.99 ; 查附表6 ,F0.025(7,2) = 39.36, df1=7,df2= 2时,P(F >39.36) = 0.025 , P (F <39.36) =0.975。
单因素方差分析(完全随机设计多个样本均数比 较的方差分析)检验统计量为 F 值:
F=MS组间 / MS组内 (6.6)
如果F<Fα,则P>α,在α水平上不拒绝H0,认为多 个总体均数间差别无统计学意义, 如果F ≥Fα,则P ≤α,在α水平上拒绝H0,认为多个 总体均数间差别有统计学意义,但并不意味着任何两 总体均数有差别,只能说至少有两组有差别,可能有 的组间没有差别,要了解哪些组间有差别,哪些组间 没有差别,需要进一步作多个样本均数间的两两比较 。 二、多重比较 多重比较(multiple comparison)即多个样本均数间 的两两比较,由于涉及的对比组数大于2,若仍用t检 验作每两个对比组比较的结论,会使犯第一类错误的 概率α增大,即可能把本来无差别的两个总体均数判 为有差别。
21
24
24
20
18
22
17
182217源自192118
18
23
22
20
19
18
23
本例属于完全随机设计资料,从表5-1资料可以看到 三种性质不同的变异(用离均差平方和表示变异): (1) 总变异(total variation):
SS总
k nj
j 1 i 1
( X ij X 总 ) 2
本例方差分析的F=2.96;根据组间自由度df组间=k-1 =3-1=2,组内自由度df组内=N-k=30-3=27,F 界值 F0.05(2,27)=3.35,F<F0.05,P > 0.05,所以,正确的结果 应当是三组之间差异并无统计学意义。
多个样本均数比较一般有两种情况:一种是在研究 设计阶段未预先考虑或未预料到,经数据结果的提示 后,才决定用多个均数间的两两比较,常见于探索性 研究,这种情况下,往往涉及到任意两个均数的比较 。另一种是在设计阶段就根据研究目的或专业知识而 决定的某些均数间的两两比较,常见于事先有明确假 设的证实性实验研究,例如多个处理组分别与一个对 照组的比较,处理后不同时间分别与处理前的比较等 。
Pmin