当前位置：文档之家› 正态分布检验

正态分布检验

Shapiro-Wilk 检验含义:Shapiro —Wilk 检验法是S.S.Shapiro 与
M.B.Wilk提出用顺序统计量W来检验分布的正态性，对研究的对象总体先提出假设认为总体服从正态分布，再将样本量为n的样本按大小顺序排列编秩，然后由确定的显著性水平a ，以及根据样本量为n时所对应的系数a i,根据特定公式计算出检验统计量W.最后查特定的正态性W检
验临界值表，比较它们的大小，满足条件则接受假设认为总体服从正态分布,否则拒绝假设，认为总体不服从正态分布•
W检验全称Shapiro-Wilk检验，是一种基于相关性的算法。

计算可得到一个相关系数，它越接近1就越表明数据和正态分布拟合得越好。

w检验是检验样本容量8< n < 50,样本是否符合正态分布的一种方法。

计算式为:
E-Lj k -訓
其检验步骤如下：
①将数据按数值大小重新排列，使x1<x2<-< xn
②计算上式分母；
③计算a值，可查表得出；
④计算检验统计量W ；
⑤若W值小于判断界限值W（可通过查表求得），按表上行写明的显著性水平a舍弃正态性假设；若W>W,接受正态性假设。

正态分布是许多检验的肚础，比如F检验，t检验，卡方检验等在总体不是正太分布是没有任何盘义。

因此，対一个样本是否来口正态总、体的检验是至关巫要的。

当然，我们无法证明某个数据的确来口正态总体，但如果使用效率高的检验还•无法否认总体是正太的检验，我『］就没有理山否认那些和正太分布有关的检验有意义，下而我就对正态性检验方法进行简单的归纳和比较。

一.图示法
1.P-P 图
以样本的累计频率作为横坐标，以按照正态分布计算的相应累计概率作为纵坐标，以样本值表现为直角坐标系的散点。

如果数据服从 F态分布，则样本点应鬧绕第一象限的对角线分布。

2.Q-Q 图
以样本的分位数作为横坐标，以按照正态分布计算的相应分位点作为纵坐标，把样本表现为直角坐标系的散点。

如果数据服从正太分布，则样本点应围绕第一彖限的对角线分布。

以上两种方法以Q-Q图为佳，效率较高。

3.直方图
判断方法：是否以钟型分布，同时可以选择输出正态性曲线。

4.箱线图
判断方法；观察矩形位置利中位数，若矩形位于中间位置且中位数位于矩形的中间位迓，则分布较为对称，否则是偏态分布。

5.茎叶图
判断方法：观察图形的分布状态，是否是对称分布。

二. 偏度、峰度检验法;
1. S,K 的极限分布
样本偏度系数s 二一写
（时
该系数用于检验对称性，S>0时，分布呈正偏态，S<0时，分布呈负偏态Q
该系数用于检验峰态，K>0时为尖峰分布，S<0时为扁平分布；半 S 二0, K=0时分布呈正态分布。

H o : F （X ）服从正态分布 F （x ）不服从正态分布
当原假设为真时，检验统计童
2. Jarque-Bera 检验（偏度和峰度的联合分布检验法）
JB 过大或过小时，拒绝原假设。

三. 非参数检验方法
1. Kolmogorov-Smirnov Hi 态性检验（J 衣于经验分布函数（ECDF ）的检验）
D 二max 比⑴-丘（工）|
巧（刃表示一组随机样本的累计概率函数，兀（巧表示分布的分布函数。

样本峰度系数K 二
（材 S y/6f n
对于给定的a
中入=U 匕 1 —
检验统计景为
JB 二 n-k 52
~N(O,1)
当原假设为真时，D的值应校小，若过大，则怀疑原假设，从而，拒绝域为R = [D>cl}
对于给定的 a p = P{D>d}=a又p = P{D n>D\
2.Lilliefor IE态性检验
该检验是对Kolmogorov-Smirnov检验的修正，参数未知时，山〃 =^,<72=52可计算得检验统计量鸟的值。

3.Shapiro-Wilk （W 检验）
检验统计量：
当原假设为真时，W的值应接近于1,若值过小，则怀疑原假设，从而拒绝域为R={lF<c}
在给定的a水平卞 P
4.才拟合优度检验（也是茶于经验分布函数（ECDF）的检验）
检验统计戢为
工是被估参数的个数
若原假设为真时，才应较小，否则就怀疑原假设，从而拒绝域为R = {X1^d}f对于给定的。

P{X2>d}=a又p = P{/2 ^z2}
四•方法的比较
1•图示法相对于氏他方法血言，比较直观，方法简单，从图中可以直
接判断，无需计算，但这种方法效率不是很髙，它所捉供的信息只是正态性检验的重要补充。

2.经常使用的才拟合优度检验和Kolmogorov-Smirnov检验的检验功效较低，在许多计算机软件的Kolmogorov-Smirnov检验无论是大小样本都用大样本近似的公式，很不精准，一般使用Shapiro-Wilk检验和Lilliefor 检验。

3.Kolmogorov-Smirnov检验只能检验是否一个样本来自于一个已知样本，rfl] Lili iefor检验可以检验是否来白未知总体°
4.Shapiro-Wilk检验和Lilliefor检验都是进行大小排序后得到的，所以易受杲常值的影响。

5.Shapiro-Wilk检验只适用于小样本场合(3<n<50)，其他方法的检验功效一般随样本容虽的增大而增大。

6.才拟合优度检验和Kolmogorov-Smirnov检验都采用实际频数利
期望频数进行检验，前者既可用于连续总体，又可用于离散总体，闻Kolmogorov-Smirnov检验只适用于连续和定虽数据。

7.才拟合优度检验的检验结采依赖于分纽，而其他方法的检验结果
与区间划分无关.
乩偏度利峰度检验易更开常恒的影响，检验功效就会障低口
9•假设检验的|_|的是拒绝原假设，Jp值不是很大时，应根拯数拯背景再作讨论.
参考文献：
［L］王星;《非養数筑计》2005
⑵吴喜匕《罪参数统1的9
［31WT^何晓黠、金点班：■季》2008
L4］耶临松、冏更5? t擬率论与数理统计》2008
［刃吴耳之s赵博如：（非蚕数筑计》2009
［6］（査料的正态性检验穴总）2009
【转】常用的相关系数（Pearson相关、Spearman相关、
Kendall 相关）
标签：
2013-01-16 16:41 阅读（2063）常用的相关系数
Pearson 相关系数
亦称积差相关系数（coefficient of product-moment correlation ），用r表示样本相关系数，P
表示总体相关系数。

它是说明有直线关系的两变量间，相关关系密切程度和相关方向的统计指标。

计
算公式：
注意事项：
U变量是正态分布，没有奇异值噪音。

所以做相关性分析之前要去除可能的奇异值，而且如果不是
正态分布，可以通过取对数来近似获得。

U另外，对于某些数据样本，考查两个变量之间的相关性，按照某类属性将样本分割，分别考查，
或许会获取更有价值的知识。

Spearman 相关系数
又称秩相关系数、等级相关系数，或顺序相关系数，是利用两变量的秩次大小作线性相关分析，具
体是将两要素的样本值按数据的大小顺序排列位次，以各要素样本值的位次代替实际数据而求得的
一种统计量。

Spearma n对原始变量的分布不作要求，属于非参数统计方法，适用范围要广些。

计算等级相关系数，可以将数据变换成等级以后用原有的相关系数公式计算，也可以将算岀每一对样
本的等级之差di，然后用下列公式计算，所以又称为等级差数法”。

Kendall 相关系数：
肯德尔系数又称和谐系数（the Kendall coefficient of concordance）是表示多列等级变量相关程
度的一种方法。

这种资料的获得一般采用等级评定的方法，即让K个被试（或称评价者）对N件事物或N 种作品进行等级评定，每个评价者都能对N 件事物（或作品）好坏、优劣、喜好、大小、高低等排岀一个等级顺序。

因此，最小的等级序数为1，最大的为N，这样，K个评价者便可得到K列从
1至N的等级变量资料，这是一种情况。

另一种情况是一个评价者先后K次评价N件事物或N件
作品，也是采用等级评定的方法，这样也可得到K列从1至N的等级变量资料。

这类K列等级变
量资料综合起来求相关，可用肯德尔系数。

如欲考察几位老师对多篇作文的评分标准是否一致（又称评分者信度），就应该使用肯德尔系数。

德尔和谐系数常用符号W 表示。

其公式为：
Ri 为每一件被评价事物的K 个等级之和，
N 为被评价事物的件数即等级数，
K 为评价者的数目或等级变量的列数。

W 值介于0 与1 之间，计算值都为正值，若表示相关方向，可从实际资料中进行分析。

这种方法的原理是基于这样一种思想：如果各列变量完全一致，那么各被评价的事物（或人），其各评价者所评的等级应该相同，其等级和的最大方差即最大可能的S 应为K2（N3-N）/12 。

如果评价的等级不同，则S 变小，一致性程度降低，如果完全没有相关，则所评各等级之和应该相等，其最大可能方差（S）应为零，这样实际资料等级和的方差与最大可能的方差的比值，便是和谐系数，其值必介于0 与1之间。

e商务文档

正态分布检验

相关文档推荐：