第十一章 非参数检验
第十一章 非参数检验方法
李金德
一、非参数检验
第一节 非参数检验的基本概念及特 点
(一)什么是“非参数” 非参数模型:缺乏总体分布模式的信息。 (二)非参数检验的定义 非参数检验:不需要假设总体是否为正态分布或 方差是否为齐性的假设检验称非参数检验。
(三)非参数检验的优点和缺点
1、优点: 一般不涉及总体参数,其假设前提也比参数假 设检验少得多,适用面较广。 计算简便。
(一)秩统计量
秩统计量指样本数据的排序等级。 假设从总体中反复抽取样本,就能得到一个 对应于样本容量n1和n2的秩和U的分布。这是 一个间断而对称的分布。
当n1和n2都大于10时,秩和的U分布近似于 正态分布。
(二)计算过程
(1)排序:所有数据混合由小到大等级排列;
1、小样本:两个样本容量均小于10(n110,n210)
随机区组设计:弗里德曼双向等级方差分析
一、秩和检验法
第二节 两个独立样本的非参数检验方 法
秩和检验法也叫Mann-Whitney-Wilcoxon检验,简称 M-W-W检验,也称Mann-Whitney U检验。
秩和即秩次的和或等级之和。 与参数检验法中独立样本的t检验法相对应。; 当两个样本都为定序(顺序)变量时,也需使用秩 和法进行差异显著性检验。
查秩和检验表,当n1=5,n2=6, T1=19, T2=41, 因为 19<25<41, 即T1<T<T2,
所以接受虚无假设,拒绝研究假设,差异不 显著。说明两种训练的成绩无显著差异。
分布近期近似正态分布,其平均数为:
n1 n1 n2 1 T 2
2、大样本:当n1和n2都大于10时,秩和的U
2)统计多个样本在中数上下的次数,列出列联表。 实验组 10 5 15 控制组 5 10 15 ∑ 15 15 30
>
>Mdn 的次数 <Mdn 的次数 ∑
3)求 2 值
2
30 10 10 5 5 3.33 15 15 15 15
2
(3)比较与决策
3.33 <
1)建立假设 单侧检验 H0:P+<PH1: P+ >P2)标记配对数据之差的符号。见上表。 3)统计符号总数N。符号总数中不包含0,只包 括正号和负号个数和,即 N n n =2+6=8 4)将n+和n-中的较小者记为r,即
r minn , n
n 2
5)比较与决策
著差异
(1)提出假设 H0: Amdn B mdn ,即两组中位数相等,或两组成绩无显 H1 : Amdn B mdn ,即两组中位数不等,或两组成绩有
显著差异
(2)计算统计量
1)求混合中数。将数据按大小排列,确定中数。
Mdn X N 1 X 311 X 16 16.9
2 2
(二)、计算过程
1、小样本(样本容量N≤25时) (1)对于两样本每对数据之差(Xi-Yi),不计大 小,只记符号。n+、n_分别表示差值正、负 号的多少,零不计。 (2)记N= n++n_,r=min(n+, n_); (3)根据N与r, 直接查符号检验表。在某一显 著性水平下,若r值大于表中的临界值时,表 示差异不显著,这与查其他参数检验临界值表 时不同。
实习组:
68,50,84,78,46,92
假设两组学生初始水平相同,则两种训练方式有无显 著差异?
(1)建立假设 H 0: R R
1
2
H1: R1 R2
,即两样本无显著差异 ,即两样本有显著差异
(2)计算统计量
1)将数据从小到大排列,见下表。
2)混合排列等级,即将两组数据视为一组进 行等级排列,见上表。 3)计算各组的秩和,并确定值,即 T =min (T1,T2)=min(25,41)=25
女生:(n2=17)
25,30,28,34,23,25,27,35,30,29,29,33,35,37,24,34,32
检验过程:
(1)建立假设
H0: R1 R2 H1: R1 R2 (2)计算统计量
1)求秩和。先混合排列等级,再计算和。排序 如下:5, ,27, .5, .5, .5,21.5,21.5,13.5,4, .5, .5, , 1.5, . 3 23 1 8 8 11 11 17 男生:
r与临界值(CR)比 P值 较 r>r0.05 P>0.05 r0.01<r≤r0.05 0.01<P≤0.05 r≤r0.01 P≤0.01 差异显著性 不显著 显 著 极显著
查附表15,N=8时,临界值为0(0.05水平), 而实得r = n+= 2> r0.05。所以差异不显著,接受虚 无假设,不能认为新法显著优于传统方法。
例11-4:用配对设计方法对9名运动员不同方法 训练,每一个对子中的一名运动员按传统方法训 练,另一名运动员接受新方法训练。课程进行一 段时间后对所有运动员进行同一考核,结果如下。 能否认为新训练方法显著优于传统方法
配 对 传统 X 新法 Y Xi—Yi 1 85 90 -5 2 88 84 4 3 87 87 0 4 86 85 1 5 82 90 -8 6 82 94 -12 7 70 85 -15 8 72 88 -16 9 80 92 -12
13.5 4 11.5 11.5 17 174
2)求Z值
n1 n1 n 2 1 14 (14 17 1) T= 224 2 2
T
n1n 2 n1 n 2 1 1417 (14 17 1) 25.2 12 12
2、缺点:
统计效能远不如参数检验方法。由于当数据满 足假设条件时,参数统计检验方法能够从其中广 泛地充分地提取有关信息。非参数统计检验方法 对数据的限制较为宽松,只能从中提取一般的信 息,相对参数统计检验方法会浪费一些信息。
(四)非参数检验的特点
1、它不需要严格的前提假设; 2、特别适用于顺序数据; 3、适用于小样本,且方法简单; 4、最大的不足是不能充分利用资料的全部信 息;
实验组:(n1=16) 16.7, 16.8, 17.0, 17.2, 17.4, 16.8, 17.1, 17.0, 17.2, 17.1,
17.2, 17.5, 17.2, 16.8, 16.3, 16.9
控制组:(n2=15) 16.6, 17.2, 16.0, 16.2, 16.8, 17.1, 17.0, 16.0, 16.2, 16.5, 17.1, 16.2, 17.0, 16.8, 16.5
Z
T - T
T
174 224 1.98 25.2
3)比较与决策
Z 1.98 Z 0.05 / 2 ,p<0.05,拒绝虚无假设,差异
达到显著性水平。说明男女在注意稳定性上有显
著差异。
二、中数检验法
(一)适用条件
中数检验法对应着参数检验中两独立样本平均
数之差的t检验。
中数检验法的基本思想是将中数作为集中趋势
8.5, .5, , , , .5, .5, .5, .5, , , , .5, , , , .5 19 15 27 5 8 13 29 19 17 17 25 29 31 6 27 23
女生: T= .5 23.5 3 27 1.5 8.5 8.5 21.5 21.5 1
(二)计算过程
1、排序:将两个样本数据混合从小到大排列;
2、确定中数:求混合排列的中数;
3、做四格表:分别找出每一样本中大于和小于混 合中数的数据个数,列成四格表。 4、进行卡方检验。若卡方检验结果显著,则说明 两样本的集中趋势(中数)差异显著。
例11-3:为了研究RNA核糖核酸是否可以作为记 忆促进剂,以老鼠为对象分成实验组与控制组,实 验组注射RNA,控制组注射生理盐水,然后在同样条 件下学习走迷津,结果如下(以所用时间作为指 标),试检验两组结果是否有显著差异?
表11-1 两种训练方式的成绩
模拟器组 (5人) 考核成绩 56 62 42 72 76 实习组 (6人) 68 50 成绩排列 42 56 62 72 76 46 50 等级 1 4 5 7 8 2 3 等级和
T1=25
84 78 46 92
68 78 84 92
6 9 10 11
T2=41
(3)比较与决策
5、不能处理“交互作用”,即多因素情况。
四种测量变量及适宜的统计量 测量变量 数学性质 描述统计量 分类变量 众数 =,≠ 频率 列联系数 顺序变量 中数 百分位数 =, >, Kendallτ ≠, (肯德尔秩相关) < Spearman rs
(斯皮尔曼等级相关)
适合的统计检验 非参数检验
非参数检验 参数检验 非参数检验 参数检验 非参数检验
N 2
2
例11-5 :在教学评价活动中,要求学生对教师的
教学进行7点评价(即1-7分),表格(P348)是
某班学生对一位教师期中与期末的两次评价结果,
试问两次结果差异是否显著?
解: 1)建立假设
单侧检验 H0:P+<PHa: P+ >P2)确定正、负号数目,正负号总数N的r值 。 统计符号总数N。符号总数中不包含0,只包括 正号和负号个数和,即 N n n = 8 + 19 = 27 将n+和n-中的较小者记为r,即
2、大样本(样本容量N>25时)
n+和n-服从二项分布,当N>25时,将二项分布近 似看成正态分布。根据二项分布的原理,有:
p q 1 2
Np
1 N 2
Npq N