Shapiro-Wilk 检验含义:Shapiro —Wilk 检验法是S.S.Shapiro 与
M.B.Wilk提出用顺序统计量W来检验分布的正态性,对研究的对象总体先提出假设认为总体服从正态分布,再将样本量为n的样本按大小顺序排列编秩,然后由确定的显著性水平a,以及根据样本量为n时所对应的系数a i,根据特定公式计算出检验统计量W.最后查特定的正态性W检
验临界值表,比较它们的大小,满足条件则接受假设认为总体服从正态分布,否则拒绝假设,认为总体不服从正态分布•
W检验全称Shapiro-Wilk检验,是一种基于相关性的算法。
计算可得到一个相关系数,它越接近1就越表明数据和正态分布拟合得越好。
w检验是检验样本容量8< n < 50,样本是否符合正态分布的一种方法。
计算式为:
■
1X1他「球
其检验步骤如下:
①将数据按数值大小重新排列,使x1<x2<-< xn
②计算上式分母;
③计算a值,可查表得出;
④计算检验统计量W ;
⑤若W值小于判断界限值W(可通过查表求得),按表上行写明的显著性水平a舍弃正态性假设;若W>W,接受正态性假设。
正态分布是许多检验的廉础'比如F检验,1•检验,卡方检验等在
总体不是正太分布是没有任何意义。
悶此,对一个样本是否来门正态总体的检验是至关虛要的。
为然,我们无法证明某个数据的确来自正态总体,但如果使
用效率高的检验还无法否认总体是正太的检验,我门就没有理山否认那些和正太分布有关的检验有意义,卜面我就对正苦性检验方法进行简单的归纳利比较。
一. 图示法
LP-P 图
以样本的累计频率作为横坐标,以按照JF态分布计算的相应累计概率作为纵坐标』以样本值表现为直角坐标系的散点。
如果数拯服从正态分布,则样本点应围绕第一象限的对角线分布,
2.Q-Q 图
以样本的分位数作为横坐标,以按愿正态分布计算的相应分位点作为纵坐标、把样本表现为宜角坐标系的散点。
如果数拥服从正太分布,则样本点应鬧绕第一象限的对角线分布円
以上两种方法以Q-Q图为佳,效率较高。
3.直方图
判断方袪:是否以钟型分布,同时可以选择输出正态性曲线&
4.箱线图
判断方法:观察矩形位置和中位数,若矩形位于中间位置且中位数位于矩形的中间位置,则分布较为对称,否则是偏态分布。
5.茎叶图
判断方法:观察图形的分布状态,是否是对称分布.
二. 偏度、竦度检验法:
L S,K的极限分布
样本偏度系数s=£
(时
该系数用于检验对称性,30时,分布呈正偏态,S<0时,分布呈
负偏态°
样本峰度系数牟-3
(即
该系数用于检验峰态,K>0时为尖峰分布,S<0时为扁平分布;当S二0, K二0时分布呈正态分布。
H D:F(X)服从正态分布H l; F⑴不服从正态分布
当原假设为真时,检验统计最
扁沁9K
-^=-N(O T1)
J24 / n
对于给定的OC Z島Z島网其中心丐
2.Jarque-Bera检验(偏度和峰度的联合分布检验法)检验统计量为JB=二罟[◎+扌秽]~才(2)
JB过大或过小时,拒绝原假设。
三. 非参数检验方法
L Kolmogorov-Smirnov正态性检验(靠于经验分布函数(ECDF)的检验}
D = mK\F n(x)-F0(x)\
E(x)表示一组随机样本的累计概率函数,吒(力表示分布的分布函数。
当原假设为真时,D的價应较小,杵过大,则怀疑原假设,从而, 拒绝域为R = {D>d}
对于给定的口p=P{D>ci}=a>4}
2.Lilliefor正态性检验
该检验是对Ko 1 mo^orov-Sinirnov检验的修正,参数未知时,山fi = X^= W可计算得检验统计量0的值。
3.Shapiro-Wilk (W 检验)
检验统计忻:
w=
热-可欲(厂可
当原假设为真时,W的值应接近于1,若值过小,则怀腿原假
込从而拒绝域为R = ^<e}
在给定的茨水平下P {职£厲二欢
4.才拟合优度检验(也是翠于经验分布函数(ECDF)的检验)
检验统计最为
说一1)
r是被估参数的个数
若原假设为真时,F应较小,否则就怀疑廉假设,从血拒绝域为
R = >d},对于给定的u 尸用工叭又p = I f{/2
四•方法的比较
L图示法相对于其他方法而言,比较直观,方法简单,从图中可以直
接判断,无需计算,但这种方法效率不是很髙,它所捉供的佶息只是正态性检验的重要补充。
2.经常使用的才拟合优度检验和Kolmogorov-Sm让nov检验的检验功效较低,在许多计算机软件的Kolmogarov-Smirnov检验无论是大小样本都用大样本近似的公式,很不粘准,一般使用Shapiro-Wilk检验利Lil lief or 检验。
3.Ku 1 tuogorov-Srnirnov检验只能检验是否一个样本来门于一个已知样本,[fijLillielor检验可以检验是否来口未知总体。
4.Shapiro-ffilk检验和L订liefor检验都是进行大小排序启得到的,所以易受异常值的影响。
5.Shapiro-Wilk检验只适用于小样本场合(3<n<50),其他方法的
检验功效一般随样本容虽的增大而增大。
6.才拟件优度检验和Kolmogorov - Smirnov检验都采用实际频数和
期望频数进疔检验,前者既可用于连续总体,乂町用于离散总体,而
Ko 1 mogurov-Smirnov检验只适用于连续和定駅数据口
7.於拟合优度检验的检验结果依赖于分组,而艮他方法的检验结果
与区间划分无关。
&偏度和峰度检验易受异常值的影响,检验功效就会降低。
9.假设检验的口的是拒绝原假设,当p值不杲很大时,应根抓数拯背
景再作讨论。
参考文献畫
[1]王星:住非舂数统计》2005
[刃吴喜之:(非参数统计》1999
[3] 負俊平、何晓群、金勇进:£統计学》2008
[4] 弗诗松、周纪茅:《槪帑论与数理缰计》2008
吴喜之、赵博姐:《非参数统计3 2009
「6] I说料的正态性检验沢总》2009
【转】常用的相关系数(Pearson相关、Spearman相关、
Kendall 相关)
标签:相关系数
2013-01-16 16:41 阅读(2063)评论(0)常用的相关系数
Pearson 相关系数
亦称积差相关系数(coefficient of product-moment correlation ),用r表示样本相关系数,P
表示总体相关系数。
它是说明有直线关系的两变量间,相关关系密切程度和相关方向的统计指标。
计算公式:
注意事项:
U变量是正态分布,没有奇异值噪音。
所以做相关性分析之前要去除可能的奇异值,而且如果不是正态分布,可以通过取对数来近似获得。
U另外,对于某些数据样本,考查两个变量之间的相关性,按照某类属性将样本分割,分别考查,或许会获取更有价值的知识。
Spearman 相关系数
又称秩相关系数、等级相关系数,或顺序相关系数,是利用两变量的秩次大小作线性相关分析,具体是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的
一种统计量。
Spearma n对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。
计算等级相关系数,可以将数据变换成等级以后用原有的相关系数公式计算,也可以将算岀每一对样
本的等级之差di,然后用下列公式计算,所以又称为等级差数法”。
Ken dall 相关系数:
肯德尔系数又称和谐系数(the Kendall coefficient of concordanee)是表示多列等级变量相关程
度的一种方法。
这种资料的获得一般采用等级评定的方法,即让K个被试(或称评价者)对N件事物或N种作品进行等级评定,每个评价者都能对N件事物(或作品)好坏、优劣、喜好、大小、高低
等排岀一个等级顺序。
因此,最小的等级序数为1,最大的为N,这样,K个评价者便可得到K列从
1至N的等级变量资料,这是一种情况。
另一种情况是一个评价者先后K次评价N件事物或N件
作品,也是采用等级评定的方法,这样也可得到K列从1至N的等级变量资料。
这类K列等级变
量资料综合起来求相关,可用肯德尔系数。
如欲考察几位老师对多篇作文的评分标准是否一致(又称评分者信度),就应该使用肯德尔系数。
德尔和谐系数常用符号W表示。
其公式为:
Ri为每一件被评价事物的K个等级之和,
N为被评价事物的件数即等级数,
K为评价者的数目或等级变量的列数。
W值介于0与1之间,计算值都为正值,若表示相关方向,可从实际资料中进行分析。
这种方法的
原理是基于这样一种思想:如果各列变量完全一致,那么各被评价的事物(或人),其各评价者所评的等级应该相同,其等级和的最大方差即最大可能的S应为K2(N3-N)/12 。
如果评价的等级不同,
则S变小,一致性程度降低,如果完全没有相关,则所评各等级之和应该相等,其最大可能方差(S)
应为零,这样实际资料等级和的方差与最大可能的方差的比值,便是和谐系数,其值必介于0与1
之间。