当前位置：文档之家› 正态分布检验

正态分布检验

Shapiro-Wilk 检验含义:Shapiro —Wilk 检验法是S.S.Shapiro 与
M.B.Wilk提出用顺序统计量W来检验分布的正态性，对研究的对象总体先提出假设认为总体服从正态分布，再将样本量为n的样本按大小顺序排列编秩，然后由确定的显著性水平a，以及根据样本量为n时所对应的系数a i,根据特定公式计算出检验统计量W.最后查特定的正态性W检
验临界值表，比较它们的大小，满足条件则接受假设认为总体服从正态分布,否则拒绝假设，认为总体不服从正态分布•
W检验全称Shapiro-Wilk检验，是一种基于相关性的算法。

计算可得到一个相关系数，它越接近1就越表明数据和正态分布拟合得越好。

w检验是检验样本容量8< n < 50,样本是否符合正态分布的一种方法。

计算式为:
■
1X1他「球
其检验步骤如下：
①将数据按数值大小重新排列，使x1<x2<-< xn
②计算上式分母；
③计算a值，可查表得出；
④计算检验统计量W ；
⑤若W值小于判断界限值W（可通过查表求得），按表上行写明的显著性水平a舍弃正态性假设；若W>W,接受正态性假设。

正态分布是许多检验的廉础'比如F检验，1•检验，卡方检验等在
总体不是正太分布是没有任何意义。

悶此，对一个样本是否来门正态总体的检验是至关虛要的。

为然，我们无法证明某个数据的确来自正态总体，但如果使
用效率高的检验还无法否认总体是正太的检验，我门就没有理山否认那些和正太分布有关的检验有意义，卜面我就对正苦性检验方法进行简单的归纳利比较。

一. 图示法
LP-P 图
以样本的累计频率作为横坐标，以按照JF态分布计算的相应累计概率作为纵坐标』以样本值表现为直角坐标系的散点。

如果数拯服从正态分布，则样本点应围绕第一象限的对角线分布，
2.Q-Q 图
以样本的分位数作为横坐标，以按愿正态分布计算的相应分位点作为纵坐标、把样本表现为宜角坐标系的散点。

如果数拥服从正太分布，则样本点应鬧绕第一象限的对角线分布円
以上两种方法以Q-Q图为佳，效率较高。

3.直方图
判断方袪：是否以钟型分布，同时可以选择输出正态性曲线&
4.箱线图
判断方法：观察矩形位置和中位数，若矩形位于中间位置且中位数位于矩形的中间位置，则分布较为对称，否则是偏态分布。

5.茎叶图
判断方法：观察图形的分布状态，是否是对称分布.
二. 偏度、竦度检验法:
L S,K的极限分布
样本偏度系数s=£
（时
该系数用于检验对称性，30时，分布呈正偏态，S<0时，分布呈
负偏态°
样本峰度系数牟-3
（即
该系数用于检验峰态，K>0时为尖峰分布，S<0时为扁平分布；当S二0, K二0时分布呈正态分布。

H D:F（X）服从正态分布H l； F⑴不服从正态分布
当原假设为真时，检验统计最
扁沁9K
-^=-N(O T1)
J24 / n
对于给定的OC Z島Z島网其中心丐
2.Jarque-Bera检验（偏度和峰度的联合分布检验法）检验统计量为JB=二罟［◎+扌秽］~才（2）
JB过大或过小时，拒绝原假设。

三. 非参数检验方法
L Kolmogorov-Smirnov正态性检验（靠于经验分布函数（ECDF）的检验}
D = mK\F n（x）-F0（x）\
E（x）表示一组随机样本的累计概率函数，吒（力表示分布的分布函数。

当原假设为真时，D的價应较小，杵过大，则怀疑原假设，从而, 拒绝域为R = {D>d}
对于给定的口p=P{D>ci}=a>4}
2.Lilliefor正态性检验
该检验是对Ko 1 mo^orov-Sinirnov检验的修正，参数未知时，山fi = X^= W可计算得检验统计量0的值。

3.Shapiro-Wilk （W 检验）
检验统计忻:
w=
热-可欲（厂可
当原假设为真时，W的值应接近于1,若值过小，则怀腿原假
込从而拒绝域为R = ^<e}
在给定的茨水平下P {职£厲二欢
4.才拟合优度检验（也是翠于经验分布函数（ECDF）的检验）
检验统计最为
说一1）
r是被估参数的个数
若原假设为真时，F应较小，否则就怀疑廉假设，从血拒绝域为
R = >d},对于给定的u 尸用工叭又p = I f{/2
四•方法的比较
L图示法相对于其他方法而言，比较直观，方法简单，从图中可以直
接判断，无需计算，但这种方法效率不是很髙，它所捉供的佶息只是正态性检验的重要补充。

2.经常使用的才拟合优度检验和Kolmogorov-Sm让nov检验的检验功效较低，在许多计算机软件的Kolmogarov-Smirnov检验无论是大小样本都用大样本近似的公式，很不粘准，一般使用Shapiro-Wilk检验利Lil lief or 检验。

3.Ku 1 tuogorov-Srnirnov检验只能检验是否一个样本来门于一个已知样本，［fijLillielor检验可以检验是否来口未知总体。

4.Shapiro-ffilk检验和L订liefor检验都是进行大小排序启得到的，所以易受异常值的影响。

5.Shapiro-Wilk检验只适用于小样本场合(3<n<50)，其他方法的
检验功效一般随样本容虽的增大而增大。

6.才拟件优度检验和Kolmogorov - Smirnov检验都采用实际频数和
期望频数进疔检验，前者既可用于连续总体，乂町用于离散总体，而
Ko 1 mogurov-Smirnov检验只适用于连续和定駅数据口
7.於拟合优度检验的检验结果依赖于分组，而艮他方法的检验结果
与区间划分无关。

&偏度和峰度检验易受异常值的影响，检验功效就会降低。

9.假设检验的口的是拒绝原假设，当p值不杲很大时，应根抓数拯背
景再作讨论。

参考文献畫
[1]王星：住非舂数统计》2005
[刃吴喜之：(非参数统计》1999
[3] 負俊平、何晓群、金勇进：£統计学》2008
[4] 弗诗松、周纪茅：《槪帑论与数理缰计》2008
吴喜之、赵博姐：《非参数统计3 2009
「6] I说料的正态性检验沢总》2009
【转】常用的相关系数(Pearson相关、Spearman相关、
Kendall 相关)
标签：相关系数
2013-01-16 16:41 阅读(2063)评论(0)常用的相关系数
Pearson 相关系数
亦称积差相关系数(coefficient of product-moment correlation )，用r表示样本相关系数，P
表示总体相关系数。

它是说明有直线关系的两变量间，相关关系密切程度和相关方向的统计指标。

计算公式：
注意事项：
U变量是正态分布，没有奇异值噪音。

所以做相关性分析之前要去除可能的奇异值，而且如果不是正态分布，可以通过取对数来近似获得。

U另外，对于某些数据样本，考查两个变量之间的相关性，按照某类属性将样本分割，分别考查，或许会获取更有价值的知识。

Spearman 相关系数
又称秩相关系数、等级相关系数，或顺序相关系数，是利用两变量的秩次大小作线性相关分析，具体是将两要素的样本值按数据的大小顺序排列位次，以各要素样本值的位次代替实际数据而求得的
一种统计量。

Spearma n对原始变量的分布不作要求，属于非参数统计方法，适用范围要广些。

计算等级相关系数，可以将数据变换成等级以后用原有的相关系数公式计算，也可以将算岀每一对样
本的等级之差di，然后用下列公式计算，所以又称为等级差数法”。

Ken dall 相关系数:
肯德尔系数又称和谐系数（the Kendall coefficient of concordanee）是表示多列等级变量相关程
度的一种方法。

这种资料的获得一般采用等级评定的方法，即让K个被试（或称评价者）对N件事物或N种作品进行等级评定，每个评价者都能对N件事物（或作品）好坏、优劣、喜好、大小、高低
等排岀一个等级顺序。

因此，最小的等级序数为1，最大的为N，这样，K个评价者便可得到K列从
1至N的等级变量资料，这是一种情况。

另一种情况是一个评价者先后K次评价N件事物或N件
作品，也是采用等级评定的方法，这样也可得到K列从1至N的等级变量资料。

这类K列等级变
量资料综合起来求相关，可用肯德尔系数。

如欲考察几位老师对多篇作文的评分标准是否一致（又称评分者信度），就应该使用肯德尔系数。

德尔和谐系数常用符号W表示。

其公式为：
Ri为每一件被评价事物的K个等级之和，
N为被评价事物的件数即等级数，
K为评价者的数目或等级变量的列数。

W值介于0与1之间，计算值都为正值，若表示相关方向，可从实际资料中进行分析。

这种方法的
原理是基于这样一种思想：如果各列变量完全一致，那么各被评价的事物（或人），其各评价者所评的等级应该相同，其等级和的最大方差即最大可能的S应为K2（N3-N）/12 。

如果评价的等级不同，
则S变小，一致性程度降低，如果完全没有相关，则所评各等级之和应该相等，其最大可能方差（S）
应为零，这样实际资料等级和的方差与最大可能的方差的比值，便是和谐系数，其值必介于0与1
之间。

e商务文档

正态分布检验

相关文档推荐：