当前位置:文档之家› 正态性检验的几种方法

正态性检验的几种方法

正态性检验的几种方法一、引言正态分布是自然界中一种最常见的也是最重要的分布。

因此,人们在实际使用统计分析时,总是乐于正态假定,但该假定是否成立,牵涉到正态性检验。

目前,正态性检验主要有三类方法:一是计算综合统计量,如动差法、Shapiro-Wilk 法(W 检验)、D ’Agostino 法(D 检验)、Shapiro-Francia 法(W ’检验)。

二是正态分布的拟合优度检验,如2χ检验、对数似然比检验、Kolmogorov-Smirov 检验。

三是图示法(正态概率图Normal Probability plot),如分位数图(Quantile Quantile plot ,简称QQ 图)、百分位数(Percent Percent plot ,简称PP 图)和稳定化概率图(Stablized Probability plot ,简称SP 图)等。

而本文从不同角度出发介绍正态性检验的几种常见的方法,并且就各种方法作了优劣比较,还进行了应用。

二、正态分布2.1 正态分布的概念定义1若随机变量X 的密度函数为()()()+∞∞-∈=--,,21222x e x f x σμπσ其中μ和σ为参数,且()0,,>+∞∞-∈σμ则称X 服从参数为μ和σ的正态分布,记为()2,~σμN X 。

另我们称1,0==σμ的正态分布为标准正态分布,记为()1,0~N X ,标准正态分布随机变量的密度函数和分布函数分别用()x ϕ和()x Φ表示。

引理1 若()2,~σμN X ,()x F 为X 的分布函数,则()⎪⎭⎫⎝⎛-Φ=σμx x F由引理可知,任何正态分布都可以通过标准正态分布表示。

2.2 正态分布的数字特征引理2 若()2,~σμN X ,则()()2,σμ==x D x E 引理3 若()2,~σμN X ,则X 的n 阶中心距为()()N k kn k k n kn ∈⎩⎨⎧=-+==2,!!1212,02σμ定义2 若随机变量的分布函数()x F 可表示为:()()()()x F x F x F 211εε+-= ()10<≤ε其中()x F 1为正态分布()21,σμN 的分布函数,()x F 2为正态分布()22,σμN 的分布函数,则称X 的分布为混合正态分布。

注:引理1、2、3的证明见参考文献[1]和[2]。

三、几种常见的正态性检验及其应用3.1 计算综合统计量法3.1.1 Shapiro-Wilk 检验(W 检验) 1.W 检验的一般步骤Shapiro-Wilk 检验在大多数情况下具有很高的效能和综合性。

检验的基本步骤如下:1)建立原假设0H :X 服从正态分布2)把从总体中获得的n 个样本观测值按由小到大的次序排列成:()()()n x x x ≤≤≤ (21)3)选择恰当的统计量W 为:()()()[]()∑∑=-+⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡-⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧-=n i i i i n n i i x x x x w a W 12_2121 式中[]2/n 表示2/n 的整数部分,系数()W a i 可查W 检验的系数表,[]2/n 表示数2/n 的整数部分。

4)根据给定的检验水平α和样本容量n 查W 检验统计量W 的p 分位数得统计量W 的α分位数αW 。

5)计算并判断:给定样本值1x ,…,n x ,计算W 并与αW 比较,若αW W <则拒绝0H ,反之,则不能拒绝0H 。

注:有关W 检验的原理及W 检验的系数及分位数表见参考文献[5]。

2.W 检验的应用抽查用克矽平治疗的矽肺患者10名,得他们治疗前后血红蛋白的差(单位:克%)如下:2。

7,-1。

2,-1。

0,0,0。

7,2。

0,3。

7,-0。

6,0。

8,-0。

3,试用W 检验检验治疗前后血红单倍的差是否服从正态分布。

把题中的数据按由小到大的次序排好填入表1表1 患者血红蛋白差值表i ()i x ()i x -11 ()()i i x x --11()W α 1 -1.2 3.7 4.9 0.5733 2 -1.0 2.7 3.7 0.3291 3 -0.6 2.0 2.6 0.2141 4 -0.3 0.8 1.1 0.1224 50.70.70.0399把表的数据代入公式()()()[]()∑∑=-+⎥⎦⎤⎢⎣⎡=⎥⎦⎤⎢⎣⎡-⎪⎭⎪⎬⎫⎪⎩⎪⎨⎧-=n i i i i n n i i x x x x w a W 12_2121,经计算得9251.0=W 。

若取05.0=α,查统计量W 的α分位数表得10=n 时,842.0=αW ,因为αW W >,所以不拒绝原假设。

虽然W 检验是一种有效地正态性检验方法,但它一般只适用于容量为3至50的样本,随着n 的增大,一般用于计算分位数的分布拟合的技术不能使用。

3.1.2 D ’Agostino 检验 (D 检验)D ’Agostino 检验适合测量次数较多的情况,检验统计量为()()∑∑==-⎪⎭⎫⎝⎛+-=ni i ni i XX n X n i D 122/3121 在零假设为真时,28209479.0)(≈D E ,n D Var /02998598.0)(=,()02998598.028209479.0n D Y -=,渐进分布为)10(,N ,但由于接近)10(,N 的速度十分慢,因而 D ’Agostino 用随机模拟法得到了Y 的分位数表,在给定了显著性水平α后,用统计量Y 进行检验的拒绝域为⎭⎬⎫⎩⎨⎧≥≤-212ααY Y Y Y 或。

注:有关D 检验的原理及D 检验的分位数表见参考文献[6]。

3.2 正态分布的拟合优度检验 3.2.1 2χ拟合优度检验法 1. 2χ拟合优度检验法的理论2χ拟合优度检验法是基于2χ分布函数来分析连续性测量数据是否遵从正态分布的问题。

并根据正态分布的理论(期望)次数(oi f )和实际分布的次数(ei f ),对次数进行假设检验,从而判断分布是否遵从正态分布。

()∑-=eiei oi f f f 22χ其中,oi f 为次数分布各区间实际次数,ei f 为正态分布各区间的理论次数。

在SPSS 中进行2χ拟合优度检验,读取检验的伴随概率(p )。

如果05.0>p ,则可以用正态分布来拟合;如果05.0<p ,则不能用正态分布来拟合。

2χ拟合优度检验法不仅适用于正态性检验,还适用于其他分布的检验,对正态性检验来说不具有特效型。

2. 2χ拟合优度检验法的应用由于考试成绩总体是一个很特殊的总体,用2χ的拟合优度检验法对其进行正态检验时存在明显缺陷。

例如,一组很低含有负值但有对称性的数据,经2χ检验后也可被认为服从正态分布,但它作为学生的考试成绩就不具有实际意义。

所以,对考试成绩总体进行正态分布检验时,仅按通常2χ拟合优度检验是不够的。

设试卷总分为W ,根据教育统计学的基本原理,在正常的教学条件下,学生成绩应该服从均值为 %70⨯W ,标准差为%10⨯W 的正态分布。

如果均值和标准差的值过低或过高,都说明我们在教学过程中出现了较大的失误,此时进行正态性检验已失去应有的实际意义。

为了能反映在正常教学条件下,教和学的具体情况,在对学生考试成绩这一特殊总体进行2χ的拟合优度检验时,合理服从正态分布的成绩应满足以下条件:①()8.05.0/,∈W X ,其中X 为学生平均成绩(样本均值) ②根据概率论中的σ3原则,标准差()155,∈σ ③按通常拟合优度的2χ检验法,检验学生成绩总体服从正态分布。

计算公式如下:样本均值∑==ni i x n X 11,样本方差()2121∑=-=n i i X x n S ,式中n 为考生人数。

判断均值和标准差是否满足条件①②,若不满足则认为成绩不服从正态分布。

若满足则利用试卷成绩的均值X 及方差2S 作为总体均值μ 及总体方差2σ的估计,用ξ表示试卷成绩总体,则作如下假设:()20,~:S X N H ξ为了检验上述假设是否正确,系统将成绩区间[]W ,0划分为k 个区间,分点为121-<<<k t t t ,从而计算试卷成绩在各区间内的频数i V ,若有),(~2S X N ξ,则可求得在各区间取值的理论概率)()(1--=i i i t F t F P ,其中()⎪⎪⎭⎫ ⎝⎛-Φ=≤=SX t t X P t F i i i )(,)(x Φ表示标准正态分布的分布函数i=1,2,…,k 。

则各区间的理论频数i i nP U = 构成统计量()∑=-=ni iI i U V V x 122。

根据皮尔森定理可知,上述统计量趋近于自由度()m k --1的2χ分布。

其中m 为总体未知参数的个数,对于正态分布m 应等于2。

设给定信度α,查2χ分布表,得()212--k x a ,若()2122--<k x x a ,则接受0H ,说明这批成绩分布服从正态分布,否则拒绝0H 。

3.2.2 Kolmogorov-Smirnov 检验 (K-S 检验)Kolmogorov-Smirnov 检验通过样本的经验分布函数与给定分布函数的比较,推断该样本是否来自给定分布函数的总体。

容量n 的样本的经验分布函数记为)(x F n ,可由样本中小于x 的数据所占的比例得到,给定分布函数记为)(x G ,构造的统计量为()))(max(x G x F D n n -=即两个分布函数之差的最大值,对于零假设: 总体服从给定的分布)(x G 及给定的α,根据n D 的极限分布 (∞→n 时的分布) 确定统计量关于是否接受零假设的数量界限。

3.3 图示法3.3.1 图示法的原理一般的二维概率图是这样一种散点图,其中一个坐标为原始数据排序后的数据,而另一个坐标来自标准分布的期望有序统计量。

如果来自某一总体的数据的分布只与标准分布仅差一位置或尺度常数,那么最终概率图将近似为一条直线,极端偏离直线表明该资料不是来自所指定的分布。

随着概率图的不断发展,目前已发展了许多新型的概率图,如SP 图等。

设)()2()1(n X X X ≤≤≤ 是分布函数)(X F 的有序随机样本,假设存在连续位置尺度函数(){}σμ/0-X F (本文假定)(0X F 为正态分布),其中μ和σ分别为总体均值和标准差,通常可用样本的极大似然估计μˆ和σˆ代替。

要检验0F F =,等价于下列散点图中点近似在一条直线上。

(1)QQ 图就是作1q 与()1X 的散点图。

(2)PP 图就是作i t 与i u 的散点图。

(3)SP 图就是作i r 与i s 的散点图。

表2 三种图形的()%-1100α接受区间计算公式图形形式 接受区间界限QQ ()[]{}{}a i d q F F X 2/arcsin sin 2/10210πσμ±+=-PP {}a d t u 2/)arcsin(sin 2/12π±=SP a d r s ±=这里QQ 图较为常用,而SP 图效率最高,因为SP 图相当于对统计量进行方差稳定化转换(反正弦变换)。

相关主题