第十一讲 秩和检验
适用范围
1、成组设计的两样本计量数据,不符合 t 检 验的条件(方差相等,且服从正态分布); 2、两组等级资料或两端无确切值的资料。
一、原始数据的两样本比较
基本思想: • 假定:两组样本的总体分布形式相同(即 H0成立),则两样本来自同一总体,且任 一组秩和不应太大或太小 。即T 与平均秩 和 n1(N+1)/2应相差不大。 N = n1+n2
• 前面介绍的检验方法首先假定分析变量 服从特定的已知分布(如正态分布), 然后对分布参数(如均数)作检验。这 类 检 验 方 法 称 参 数 检 验 ( parametric test)。 • 今天介绍的检验方法不对变量的分布作 严格假定,这类检验称非参数检验 (nonparametric test)。
非参数统计
(nonparametric statistics)
对总体的分布类型不 作特殊要求 ,统计 推断时不涉及参数 不受总体参数的影响,比 较的是分布或分布位置
依赖于特定分布类 型,比较的是参数
非参数统计的适用情况
• • • • • 等级资料 偏态分布资料 分布不明资料 个别数据偏离过大的资料 各组方差明显不齐的资料
• 确定P值: 以较小绝对值的秩和为T值。 本例T=3.5 以n=11查附表6(P268,单侧) p<0.005, • 判定结果: 按α=0.05水准,拒绝H0,接受H1,故可以 认为该厂工人尿氟含量高于当地健康人。
第二节 成组设计两样本比较 的秩和检验
Wilcoxon rank sum test
这下面一行(记为Ri)就是上面一行数 据Xi的秩。
秩和检验原理
• 秩和检验(rank sum test):是通过对数 据依小到大排列的秩次,以求秩次之和来 进行假设检验的方法。
• 例如:欲比较两个班级学生身高均值的大 小,可先将两个班的学生混合按高矮顺序 排队,报数。然后分别清点各班级报数的 总和。
二、单一样本与总体中位数比较
1、建立检验假设:调查资料的总体中位数等 于已知总体中位数; 2、用各观察值与已知总体中位数求差值,按 差值绝对值从小到大编秩,加上符号; 3、分别求正、负秩和,任取正、负秩和之一 作为统计量T; 4、查T界值表,若T在上下界范围内,P大于 a,在T上下界范围外,P小于a 。
第七章 秩和检验 (秩转换的非参数检验)
问题的提出
• 前面学习了连续型资料两组样本均数差异 的假设检验方法: • 小样本用t检验,条件是变量服从正态分布 和总体方差齐; • 如果是小样本,变量的分布不清,或者已 知不服从正态分布或经变量转换后仍不服 从正态分布时,如何检验两个样本或多个 样本均数差异的统计学意义呢? • 需要一种不依赖于分布假定的检验方法, 即非参数检验。
0.005 0.010 0~36 1~44 … 68 ~257
• 确定P值: 以较小绝对值的秩和为T值。 本例T=3.5 以n=9查附表6(P268,双侧) 0.02<p<0.05, • 判定结果: 按α=0.05水准,拒绝H0,接受H1,故可以 认为甲乙两种方法测定大气中SO2日平均浓 度有差别。
秩和检验的基本步骤
1、建立检验假设,但假设中不涉及参数; 2、编秩(依实验设计方法不同而异),计算统 计量“秩”; 3、确定P值(小样本查表,超出表的范围用 正态近似或卡方近似),下结论。
第一节 Wilcoxon符号秩和检验
(Wilcoxon signed rank test)
Wilcoxon符号秩和检验的应用
尿氟含量 ( 1)
2.15 2.10 2.20 2.12 2.42 2.52 2.62 2.72 3.00 3.18
差值 (2)=(1)-2.15 0.00 -0.05 0.05 -0.03 0.27 0.37 0.47 0.57 0.85 1.03
秩次 ( 3) -2.5 2.5 -1.0 4 5 6 7 8 9 T+=62.5,T- =3.5
秩和
病人数 合计(4)
秩次 范围 (5)
平8)=(3)(6)
107 24 53 24 208
1~107 108~131 132~184 185~208 -
54.0 119.5 158.0 196.5 -
3510 2151 4740 2554.5 T2=12955.5
判断资料分布类型的途径
• 据文献或以往经验 • 频数表 • 正态性检验
– 若测定值(都是正值)服从正态分布, 则一般来说,标准差s不会大于均值,更 不会是均值的若干倍。
秩和检验
• 什么是一个数据的秩呢?一般来说,秩就 是该数据按照升序排列之后,每个观测值 的位置。例如我们有下面数据
Xi Ri 15 7 9 5 18 9 3 1 17 8 8 4 5 2 13 6 7 3 19 10
3 确定P值作结论: ①查表法 :(n1≤10,n2n1≤10)时查表 • 如果T 位于检验界值区间内,p>a,不拒绝 H0;否则,p<a, 拒绝H0。 ②正态近似法: | T n1 (N 1)/2 | 0.5 u n1n2 (N 1)/12 *校正公式(当相同秩次较多时)
3 uc u / c ; c 1 ( t 3 t ) /( N N ); j j
p268附表6 T界值表(配对比较的符号秩和检验用)
n
5 6 7 8 9 … 25
0.025 单侧:0.05 0.05 双侧:0.10 0~15 2~19 0~21 3~25 2~26 5~31 3~33 8~37 5~40 … … 100 ~ 225 89 ~236
0.01 0.02 0~28 1~35 3~42 … 76~249
t j 为第j个相同秩号的数据个数
• 例7.3 研究不同饲料对雌鼠体重增加的关系 ,资料如表7.3,试比较两种饲料对雌鼠体 重增加是否不同?p73 • 建立假设: H0:两种饲料所喂雌鼠增重的总体分布相同 H1:两种饲料所喂雌鼠增重的总体分布不相同 α=0.05 • 计算统计量T值
1 编秩: 将两组数据从小到大统一编秩 2 求秩和:分别求秩和。两组例数不等,以例 数较小者的秩和为统计量: 高蛋白组:n1=12;T1=145.5 低蛋白组:n2=7;T2=44.5 此时n=7较小,故T=44.5 查T值表(P269附表7),表左侧找到较小 样本n1, 表上方找到n2-n1(本例为5),交叉 处即为T的界值,确定概率,0.02<p<0.05 判定结果: …不同。
• 例7.2 已知某地正常人尿氟含量的中位数为 2.15mmol/L,今在该地某工厂随机抽取12 名工人的尿氟如表7.2,问该厂工人的尿氟 含量是否高于当地正常人? • 建立假设:
H0 :该厂……总体中位数等于2.15mmol/L H1:该厂……总体中位数不等于2.15mmol/L 单侧单侧α=0.05 • 计算统计量
T分布与正态分布
当H0成立,从总体随机抽取任一个样本, 所得T值在均数附近的概率最大,而T值远离 均数概率较小,随着n增大,T的分布逐渐逼 近均数为n(n+1)/4,方差为n(n+1)(2n+1)/24的 正态分布,当n>25时,T分布已近似正态分 布。当n>50时可用正态近似法做u检验。
正态近似法
T μT 0.5 T n(n 1)/4 0.5 u σT n(n 1)(2n 1)/24
相同秩序较多时作同分校正:
uc T n(n 1)/4 0.5 n(n 1)(2n 1) 24
3 (t j t j)
48
如秩次中遇有相同秩次:3.5,3.5,6,6,6,则 ∑(tj3-tj) =(23 – 2)+ (33 – 3)=30
t j为第j个相同秩号的数据个数
u
8780.5 82 (208 1) / 2 0.5 82 126 (208 1) / 12
3 j
0.4974
(t c 1
tj)
N N 3 3 (107 107) ... (24 24 ) 1 0.8443 3 208 208
检验步骤
1、建立检验假设:差值总体中位数为0; 2、求差值,按差值绝对值从小到大编秩(注 意取平均秩次),加上符号; 3、分别求正、负秩和,任取正、负秩和之一 作为统计量T; 4、当对子数小于等于50时查T界值表,若T在 上下界范围内,P大于a,在T上下界范围外, P小于a ; 5、当对子数大于50时,用正态近似法。
3
uc u / c 0.4974 / 0.8443 0.5413
• Uc=0.5413<1.96, P>0.05 • 按α =0.05,不能认为……分布不同.
甲法 ( 2) 210 40 320 30 232 35 35 300 45
乙法 差值d 秩次 (3) (4)=(2)-(3) ( 5) 225 -15 -6.5(6) 45 -5 -2.5(2) 335 -15 -6.5(7) 37 -7 -4 (4) 250 -18 -8 (8) 30 5 2.5 ( 3) 34 1 1 ( 1) 327 -27 -9 (9) 53 -8 -5 (5) T+=3.5 T-=41.5
二、频数表或等级资料的两样本比较
1 建立检验假设: H0: 两总体分布相同
H1:两总体分布不相同
2 按组段计算两样本合计,编秩次范围,计 算平均秩次,以各组例数与平均秩次相乘, 计算两组秩和。
n1 n 2时 :以较小样本的秩和为T值 T n1 n 2时 :以较小秩和为T值
• 例7.4 某医生将老年慢性支气管炎按是否合 并肺气肿分为两类,用某药治疗这两类病 人208人,其中未合并肺气肿126人,合并 肺气肿82人,疗效如表7.4,问该药对两种 病型的疗效有无不同? 1 建立检验假设:两总体分布相同 2 按组段计算两样本合计,编秩次范围,计 算平均秩次,以各组例数与平均秩次相乘, 计算两组秩和。