第九章 基于秩次的非参数检验一、配对资料的符号秩和检验参数检验VS. 非参数检验n参数检验的定义:在总体分布类型已知(如正态分布)的条件下,对其未 知参数检验。
如 t 检验和方差分析,都是基于总体分布为正态分布、 总体方差相等的前提下对总体均数进行的检验。
参数检验 VS. 非参数检验n非参数检验的定义:若总体分布未知或已知总体分布与检验所要求的条件不 符,经数据转换也不能使其满足参数检验的条件,这时需要 采用一种不依赖于总体分布形式的检验方法。
这种方法不是 对参数进行检验,而是检验总体分布位置是否相同,因而称 为非参数检验(nonparametric test)。
参数检验 VS. 非参数检验 n非参数检验的适用条件:1. 总体分布类型不明2. 总体分布呈偏态分布3. 数据一端或两端有不确定值的资料4. 总体方差不齐5. 有序分类变量资料基于秩次的非参数检验本章介绍的秩和检验(rank sum test),是一类常用的非参 数检验。
秩和检验是首先将数据按从小到大,或等级从弱到强转 换成秩后,再求秩和,计算检验统计量━━秩和统计量,做 出统计推断。
配对资料的符号秩和检验符号秩和检验(Wilcoxon signedrank test)──Frank Wilcoxon(1945)配对资料的符号秩和检验例1. 对11份工业污水测定氟离子浓度(mg/L),每份水样同时 采用电极法及分光光度法测定,结果见表。
问就总体而言, 这两种方法的测定结果有无差别?表1 两法测定11份工业污水中氟离子浓度结果样品号 氟离子浓度(mg/L)差值d i 秩次 电极法 分光光度法1 10.5 8.8 1.7 42 21.6 18.8 2.8 93 14.9 13.5 1.4 3 4 30.2 27.6 2.6 85 8.4 9.1 0.7 -1.56 7.7 7.0 0.7 1.5 7 16.4 14.7 1.7 58 19.5 17.2 2.3 69 127.0 155.0 28.0 -10 10 18.7 16.3 2.4 7 119.59.50.0-差值d i 正态性检验 W =0.4561, P =0.0001Wilcoxon 符号秩和检验Wilcoxon符号秩和检验 1. 建立检验假设,确定检验水准n H 0 :差值的总体中位数等于0n H 1 :差值的总体中位数不等于0n a =0.05Wilcoxon符号秩和检验2. 计算检验统计量T值(1)求差值d(2)编秩:依差值的绝对值由小到大编秩 ; 差值为0,不编秩,且总的对子数相应减少;差值的绝对值相等,称为相持,取平均秩。
(3)分别求正、负秩和表1 两法测定11份工业污水中氟离子浓度结果样品号 氟离子浓度(mg/L) 差值d i 秩次 电极法 分光光度法 1 10.5 8.8 1.74.5 2 21.6 18.8 2.8 9 3 14.9 13.5 1.4 3 4 30.2 27.6 2.6 8 5 8.4 9.1 0.7 1.5 6 7.7 7.0 0.7 1.5 7 16.4 14.7 1.7 4.5 8 19.5 17.2 2.3 6 9 127.0 155.0 28.0 10 10 18.7 16.3 2.4 7 119.5 9.50.0-+ T =43.5 T =11.5Wilcoxon符号秩和检验2. 计算检验统计量T值(1)求差值d(2)编秩:依差值的绝对值由小到大编秩 ; 差值为0,不编秩,且总的对子数相应减少;差值的绝对值相等,称为相持,取平均秩。
(3)分别求正、负秩和:T+=43.5,T=11.5(4)确定统计量T :T=43.5或T=11.5Wilcoxon符号秩和检验3. 确定P值,做出推断(1) 查表法(n≤50)根据n(非零对子数)和T值,查T界值由n=10,T=11.5或T=43.5,查表,得双侧P>0.10。
按照a =0.05 ,故据此资料尚不能认为两法测定结果有差别。
水准不拒绝HWilcoxon配对符号秩和检验的基本思想n在配对样本中,由于随机误差的存在,各对差值的产生不可避 免,假定两种处理的效应相同,则差值的总体分布为对称分布, 并且差值的总体中位数为0。
若此假设成立,样本差值的正秩和 与负秩和应相差不大,均接近n(n+1)/4 ;当正负秩和相差悬殊,T + +T =n(n+1)/2超出抽样误差可解释的范围时,则有理由怀疑该假设,从而拒 绝H0。
(2)正态近似法(n >50):作正态近似检验※ 校正公式:有相同秩次t j 表示第j 次相持的个数24/ ) 1 2 )( 1 ( 5. 0 | 4 / ) 1 ( | + + - + - =n n n n n T Z 48) ( 24 ) 1 2 )( 1 ( 5. 0 | 4 / ) 1 ( | 3j j c t t n n n n n T Z - S -+ + - + - =第九章 基于秩次的非参数检验二、两组独立样本比较的秩和检验(一)两组独立样本比较的秩和检验Wilcoxon秩和检验(Wilcoxon rank sum test)推断连续型变量资料或有序变量资料的两个独立样本代 表的两个总体分布是否有差别。
两组连续型变量资料的秩和检验例2 用两种药物杀灭钉螺,采集了14批活钉螺,随机分为两 组分别用甲、乙药物,用药后清点钉螺的死亡数,并计算每 批钉螺的死亡率(%),结果见表。
问两种药物杀死钉螺的效 果有无差别?Wilcoxon秩和检验Wilcoxon秩和检验1. 建立检验假设,确定检验水准n H 0 :两种药物杀灭钉螺死亡率的总体中位数相等n H 1 :两种药物杀灭钉螺死亡率的总体中位数不相等 n a =0.05Wilcoxon 秩和检验2、计算检验统计量T 值(1) 编秩:将两组数据混合,由小到大统一编秩;不同组遇到相同数 据取平均秩次。
(2)求各组秩和:以样本例数较小者为n 1 ,其秩和为T 1。
(3) 确定检验统计量T 值 : 若n 1 ≠n 2 ,则T =T 1 ;若n 1 =n 2 ,则T =T 1 或T =T 2。
Wilcoxon 秩和检验的基本思想假设含量为n 1 与n 2 的两个样本(且n 1 ≤n 2 ),来自同一总 体或分布相同的两个总体,则n 1 样本的秩和T 1 与其理论秩和 n 1(N +1)/2相差不大,即[T 1 n 1 (N +1)/2]仅为抽样误差所致。
当 二者相差悬殊,超出抽样误差可解释的范围时,则有理由怀 疑该假设,从而拒绝H 0。
(N (N +1)/2)/2Wilcoxon秩和检验3、确定P值,做出推断(1)查表法≤10,且n 2 n 1 ≤10时,查T界值表。
当n1内大外小双侧0.01<P<0.02按照 a =0.05水准,拒绝H 0 ,可以认为两种药物杀灭钉螺的效果有 差别。
(2)正态近似法t j 表示第j 次相持的个数v n 1 >10或 n 2 n 1>10 v 相持(tie)cZ Z C =)( ) 1 33N N t t c j j- - = å - ( 12 / ) 1 ( 5 . 0 | 2 / ) 1( | 21 1 + - + - =N n n N n T Z第九章 基于秩次的非参数检验二、两组独立样本比较的秩和检验(二)两组有序分类变量资料的秩和检验例3 某医科大学营养教研室为了解居民体内核黄素营养状况, 于某年夏冬两个季节收集成年居民口服5mg核黄素后4小时的 负荷尿,测定体内核黄素含量,结果见表,试比较该地居民 夏冬两个季节体内核黄素含量有无差别?表3 某地居民夏冬两个季节体内核黄素营养状况比较核黄素 营养状况例数合计 秩次范围 平均秩次 夏季 冬季(1) (2) (3) (4) (6) (7) 缺乏 10 22 32 1~32 16.5 不足 14 18 32 33~64 48.5 适宜 16 4 20 65~84 74.5 合计 40 44 84 - -1、建立检验假设,确定检验水准n H 0 :夏冬两个季节居民体内核黄素含量的 总体分布位置相同n H 1 :夏冬两个季节居民体内核黄素含量的 总体分布位置不同n a =0.052、计算检验统计量T值(1)编秩:将两组数据合并,按等级由小到大统一编秩。
先计算各等级合计数,并确定各等级秩次范围,求出各等级的平均 秩次。
表3 某地居民夏冬两个季节体内核黄素营养状况比较核黄素 营养状况例数合计 秩次范围 平均秩次 夏季 冬季(1) (2) (3) (4) (5) (6) 缺乏 10 22 32 1~32 16.5 不足 14 18 32 33~64 48.5 适宜 16 4 20 65~84 74.5 合计 40 44 84 - -(2) 求各组秩和:各等级的平均秩次分别乘以各组在各等级的例数, 再求和,即得到各组秩和。
n 1 =40,n 2 =44,N =n 1 +n 2=84 T 1=16.5×10+48.5×14+74.5×16=2036 T 2=16.5×22+48.5×18+74.5×4=1534 (3)确定统计量T 值: T =T 1=2036。
3、确定P 值,做出推断3333 ()(3232)+(3232)+(2020)=73452j j t t - å= 331)()0.1239j j c t t NN =-- å ( - = 203640(841)/20.56.56194044(841)/12Z -´+- == ´´+ n 1=40,正态近似法 P <0.001。
按照a =0.05水准,拒绝H 0 ,接受H 1,故可认为夏冬两个 季节居民体内核黄素含量有差别。
0106. 7 = = cZZ C第九章 基于秩次的非参数检验三、多组独立样本比较的秩和检验(一)多组独立样本比较的秩和检验KruskalWallis H检验推断定量变量或有序分类变量的多个总体分布有无差别。
━ Kruskal & Wallis (1952)定量变量多组独立样本的秩和检验例4 某医院用3种不同方法治疗15例胰腺癌患者,每种方法 各治疗5例。
治疗后生存月数见表,问这3种方法对胰腺癌患 者的疗效有无差别?表4 3种方法治疗胰腺癌患者的生存月数比较甲法 乙法 丙法生存月数 秩次生存月数秩次生存月数秩次 (2) (4) (6)3 2.5 6 6 2 14 4 9 12 3 2.57 7.5 10 13 5 58 10 12 14 7 7.5 8 10 13 15 8 10 Ri34 – 60 – 26ni5 – 5 – 51、建立检验假设,确定检验水准n H0:3种方法治疗后患者生存月数的总体中位数相等n H1:3种方法治疗后患者生存月数的总体中位数不全相等 n a =0.052、计算检验统计量H值(1)编秩 将三组数据合并,其余步骤同两组定量变量资料(2)求各组秩和R i表4 3种方法治疗胰腺癌患者的生存月数比较甲法 乙法 丙法生存月数 秩次 生存月数 秩次 生存月数 秩次(1) (2) (3) (4) (5) (6)3 2.5 6 6 2 14 4 9 12 3 2.57 7.5 10 13 5 58 10 12 14 7 7.58 10 13 15 8 1034 – 60 – 26Ri5 – 5 – 5ni2、计算检验统计量H 值(1)编秩(2)求各组秩和R i : R 1 =34,R 2 =60,R 3 =26 (3)确定检验统计量H 值 :å + - + = ) 1 ( 3 ) 1 ( 12 2N n R N N H ii222 12346026 ()3(151) 6.3215(151)555H =++-´+= ´+ ) ( ) ( 1 33 N N t t c jj - - - = å cH H c=3、确定P值,做出推断(1)查H界值表≤5时,可查H界值表得到P值。