吴喜之《非参数统计》第35页例子
现在用一个例子来说明如何应用Wilcoxon符号秩检验,并表明它和符号检验在解决同样的位置参数检验问题时的不同。
下面是亚洲十个国家1966年的每1000新生儿中的(按从小到大次序排列)死亡数(按世界银行:“世界发展指标”,1998)
这里想作两个检验作为比较。
一个是H
0:M≥34H
1
:M<34,
另一个是H
0:M≤16H
1
:M>16。
之所以作这两个检验是因为34和16在这一列数中的位置是对称的,如果用符号检验,结果也应该是对称的。
现在来看Wilcoxon符号秩检验和符号检验有什么不同,先把上面的步骤列成表:
上面的Wilcoxon符号秩检验在零假设下的P-值可由n和W查表得到,该P-值也可以由计算机统计软件把数据和检验目标输入后直接得到。
从上面的检验结果可以看出,在符号检验中,两个检验的p-值都是一样的(等于0.3770)不能拒绝任何一个零假设。
而
利用Wilcoxon符号秩检验,不能拒绝H
0:M≥34,但可以拒绝H
:M≤16。
理由很明显。
34和16虽然都是与其最近端点间隔4个数(这也是符号检验结果相同的原因),但34到它这边的4个数的距离(秩)之和(为W=29)远远大于16到它那边的4个数的距离之和(为W=10)。
所以说Wilcoxon 符号秩检验不但利用了符号,还利用了数值本身大小所包含的信息。
当然,Wilcoxon 符号秩检验需要关于总体分布的对称性和连续性的假定。
详细计算过程
Wilcoxon 符号秩检验
亚洲十国,每千人婴儿中的死亡数为:4、6、9、15、33、31、36、65、77、88 假设检验:16:0=D M H ;16:<-D M H
手算
由D 的符号和D 绝对值的秩可以算得:
根据n=10,45=+T 查表得到+T 的右尾概率为P=0.042,由于P<0.05,因此拒绝0H 。
SPSS
P值为0.042小于显着性水平0.05,故拒绝
H。
SAS
data a;
input id x;
cards;
1 4
2 6
3 9
4 15
5 31
6 33
7 36
8 65
9 77
10 88
run;
proc univariate mu0=16;
var x;
run;
UNIVARIATE 过程
变量: x
矩
N 10 权重总和10
均值36.4 观测总和
364
标准偏差30.4638219 方差
928.044444
偏度峰度-0.9927987
未校平方和21602 校正平方和8352.4
变异系数83.6918184 标准误差均值
基本统计测度
位置变异性
均值36.40000 标准偏差
30.46382
中位数32.00000 方差
928.04444
众数. 极差
84.00000
四分位极差
56.00000
位置检验: Mu0=16
检验--统计量--- -------P 值-------
学生t t 2.117609 Pr > |t| 0.0633
符号M 1 Pr >= |M|
0.7539
符号秩S 17.5 Pr >= |S|
0.0840
分位数(定义5)
分位数估计值
100% 最大值88.0
99% 88.0
95% 88.0
90% 82.5
75% Q3 65.0
50% 中位数32.0
25% Q1 9.0
10% 5.0
5% 4.0
1% 4.0
0% 最小值 4.0
极值观测
---最小值--- ---最大值---
值观测值观测
4 1 33 6
6 2 36 7
9 3 65 8
15 4 77 9
31 5 88 10
得到符号秩检验的双侧概率为0.0840,则单侧概率P=0.0420,,小于显着性水平
0.05,故拒绝
H
Wilcoxon检验
亚洲十国新生儿死亡率的Wilcoxon符号秩检验:
在这里假定亚洲十国新生儿死亡率是对称性分布。
建立假设组为:
H 0:M≥34H
1
:M<34
为做出判定,需要计算T+、T-,计算过程见下表
T+=2+8+9+10=29
T-=10(10+1)/2-29=26
根据n=10,T+=29查表,得到T+的右尾概率为0.461>0.05,因此数据支持了原假设,即亚洲十国新生儿死亡率可以认为是千分之34.
下面是SPSS输出结果:
R程序:
x<-c(4,6,9,15,33,31,36,65,77,88)
wilcox.test(x, mu=34, alternative="greater",exact=TRUE,correct=FALSE, conf.int=TRUE)
R输出结果:
Wilcoxon signed rank test
data: x
V = 29, p-value = 0.4609
alternative hypothesis: true location is greater than 34
95 percent confidence interval:
17.5 Inf
sample estimates:
(pseudo)median
34.5
SAS输出结果:
data x;
input x;
cards;
-30
-28
-25
-19
-1
-3
2
31
43
54
;
run;
proc univariate data=x; var x;
run;。