Shapiro-Wilk 检验含义:Shapiro —Wilk 检验法是S.S.Shapiro 与
M.B.Wilk提出用顺序统计量W来检验分布的正态性,对研究的对象总体先提出假设认为总体服从正态分布,再将样本量为n的样本按大小顺序排列编秩,然后由确定的显著性水平a ,以及根据样本量为n时所对应的系数a i,根据特定公式计算出检验统计量W.最后查特定的正态性W检
验临界值表,比较它们的大小,满足条件则接受假设认为总体服从正态分布,否则拒绝假设,认为总体不服从正态分布•
W检验全称Shapiro-Wilk检验,是一种基于相关性的算法。
计算可得到一个相关系数,它越接近1就越表明数据和正态分布拟合得越好。
w检验是检验样本容量8< n < 50,样本是否符合正态分布的一种方法。
计算式为:
E-Lj k -訓
其检验步骤如下:
①将数据按数值大小重新排列,使x1<x2<-< xn
②计算上式分母;
③计算a值,可查表得出;
④计算检验统计量W ;
⑤若W值小于判断界限值W(可通过查表求得),按表上行写明的显著性水平a舍弃正态性假设;若W>W,接受正态性假设。
正态分布是许多检验的肚础,比如F检验,t检验,卡方检验等在总体不是正太分布是没有任何盘义。
因此,対一个样本是否来口正态总、体的检验是至关巫要的。
当然,我们无法证明某个数据的确来口正态总体,但如果使用效率高的检验还•无法否认总体是正太的检验,我『]就没有理山否认那些和正太分布有关的检验有意义,下而我就对正态性检验方法进行简单的归纳和比较。
一.图示法
1.P-P 图
以样本的累计频率作为横坐标,以按照正态分布计算的相应累计概率作为纵坐标,以样本值表现为直角坐标系的散点。
如果数据服从 F态分布,则样本点应鬧绕第一象限的对角线分布。
2.Q-Q 图
以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为直角坐标系的散点。
如果数据服从正太分布,则样本点应围绕第一彖限的对角线分布。
以上两种方法以Q-Q图为佳,效率较高。
3.直方图
判断方法:是否以钟型分布,同时可以选择输出正态性曲线。
4.箱线图
判断方法;观察矩形位置利中位数,若矩形位于中间位置且中位数位于矩形的中间位迓,则分布较为对称,否则是偏态分布。
5.茎叶图
判断方法:观察图形的分布状态,是否是对称分布。
二. 偏度、峰度检验法;
1. S,K 的极限分布
样本偏度系数s 二一写
(时
该系数用于检验对称性,S>0时,分布呈正偏态,S<0时,分布呈 负偏态Q
该系数用于检验峰态,K>0时为尖峰分布,S<0时为扁平分布;半 S 二0, K=0时分布呈正态分布。
H o : F (X )服从正态分布 F (x )不服从正态分布
当原假设为真时,检验统计童
2. Jarque-Bera 检验(偏度和峰度的联合分布检验法)
JB 过大或过小时,拒绝原假设。
三. 非参数检验方法
1. Kolmogorov-Smirnov Hi 态性检验(J 衣于经验分布函数(ECDF ) 的检验)
D 二max 比⑴-丘(工)|
巧(刃表示一组随机样本的累计概率函数,兀(巧表示分布的分布函 数。
样本峰度系数K 二
(材 S y/6f n
对于给定的a
中入=U 匕 1 —
检验统计景为
JB 二 n-k 52
~N(O,1)
当原假设为真时,D的值应校小,若过大,则怀疑原假设,从而,拒绝域为R = [D>cl}
对于给定的 a p = P{D>d}=a又p = P{D n>D\
2.Lilliefor IE态性检验
该检验是对Kolmogorov-Smirnov检验的修正,参数未知时,山〃 =^,<72=52可计算得检验统计量鸟的值。
3.Shapiro-Wilk (W 检验)
检验统计量:
当原假设为真时,W的值应接近于1,若值过小,则怀疑原假设,从而拒绝域为R={lF<c}
在给定的a水平卞 P
4.才拟合优度检验(也是茶于经验分布函数(ECDF)的检验)
检验统计戢为
工是被估参数的个数
若原假设为真时,才应较小,否则就怀疑原假设,从而拒绝域为R = {X1^d}f对于给定的。
P{X2>d}=a又p = P{/2 ^z2}
四•方法的比较
1•图示法相对于氏他方法血言,比较直观,方法简单,从图中可以直
接判断,无需计算,但这种方法效率不是很髙,它所捉供的信息只是正态性检验的重要补充。
2.经常使用的才拟合优度检验和Kolmogorov-Smirnov检验的检验功效较低,在许多计算机软件的Kolmogorov-Smirnov检验无论是大小样本都用大样本近似的公式,很不精准,一般使用Shapiro-Wilk检验和Lilliefor 检验。
3.Kolmogorov-Smirnov检验只能检验是否一个样本来自于一个已知样本,rfl] Lili iefor检验可以检验是否来白未知总体°
4.Shapiro-Wilk检验和Lilliefor检验都是进行大小排序后得到的,所以易受杲常值的影响。
5.Shapiro-Wilk检验只适用于小样本场合(3<n<50),其他方法的检验功效一般随样本容虽的增大而增大。
6.才拟合优度检验和Kolmogorov-Smirnov检验都采用实际频数利
期望频数进行检验,前者既可用于连续总体,又可用于离散总体,闻Kolmogorov-Smirnov检验只适用于连续和定虽数据。
7.才拟合优度检验的检验结采依赖于分纽,而其他方法的检验结果
与区间划分无关.
乩偏度利峰度检验易更开常恒的影响,检验功效就会障低口
9•假设检验的|_|的是拒绝原假设,Jp值不是很大时,应根拯数拯背景再作讨论.
参考文献:
[L]王星;《非養数筑计》2005
⑵吴喜匕《罪参数统1的9
[31WT^何晓黠、金点班:■季》2008
L4]耶临松、冏更5? t擬率论与数理统计》2008
[刃吴耳之s赵博如:(非蚕数筑计》2009
[6](査料的正态性检验穴总)2009
【转】常用的相关系数(Pearson相关、Spearman相关、
Kendall 相关)
标签:
2013-01-16 16:41 阅读(2063)常用的相关系数
Pearson 相关系数
亦称积差相关系数(coefficient of product-moment correlation ),用r表示样本相关系数,P
表示总体相关系数。
它是说明有直线关系的两变量间,相关关系密切程度和相关方向的统计指标。
计
算公式:
注意事项:
U变量是正态分布,没有奇异值噪音。
所以做相关性分析之前要去除可能的奇异值,而且如果不是
正态分布,可以通过取对数来近似获得。
U另外,对于某些数据样本,考查两个变量之间的相关性,按照某类属性将样本分割,分别考查,
或许会获取更有价值的知识。
Spearman 相关系数
又称秩相关系数、等级相关系数,或顺序相关系数,是利用两变量的秩次大小作线性相关分析,具
体是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的
一种统计量。
Spearma n对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。
计算等级相关系数,可以将数据变换成等级以后用原有的相关系数公式计算,也可以将算岀每一对样
本的等级之差di,然后用下列公式计算,所以又称为等级差数法”。
Kendall 相关系数:
肯德尔系数又称和谐系数(the Kendall coefficient of concordance)是表示多列等级变量相关程
度的一种方法。
这种资料的获得一般采用等级评定的方法,即让K个被试(或称评价者)对N件事物或N 种作品进行等级评定,每个评价者都能对N 件事物(或作品)好坏、优劣、喜好、大小、高低等排岀一个等级顺序。
因此,最小的等级序数为1,最大的为N,这样,K个评价者便可得到K列从
1至N的等级变量资料,这是一种情况。
另一种情况是一个评价者先后K次评价N件事物或N件
作品,也是采用等级评定的方法,这样也可得到K列从1至N的等级变量资料。
这类K列等级变
量资料综合起来求相关,可用肯德尔系数。
如欲考察几位老师对多篇作文的评分标准是否一致(又称评分者信度),就应该使用肯德尔系数。
德尔和谐系数常用符号W 表示。
其公式为:
Ri 为每一件被评价事物的K 个等级之和,
N 为被评价事物的件数即等级数,
K 为评价者的数目或等级变量的列数。
W 值介于0 与1 之间,计算值都为正值,若表示相关方向,可从实际资料中进行分析。
这种方法的原理是基于这样一种思想:如果各列变量完全一致,那么各被评价的事物(或人),其各评价者所评的等级应该相同,其等级和的最大方差即最大可能的S 应为K2(N3-N)/12 。
如果评价的等级不同,则S 变小,一致性程度降低,如果完全没有相关,则所评各等级之和应该相等,其最大可能方差(S)应为零,这样实际资料等级和的方差与最大可能的方差的比值,便是和谐系数,其值必介于0 与1之间。