当前位置：文档之家› 非参数统计学讲义（第六章）分布检验和某些卡方检验

非参数统计学讲义（第六章）分布检验和某些卡方检验

非参数统计学讲义（第六章）分布检验和某些卡方检验非参数统计学讲义主讲：统计系袁靖第六章分布检验和某些卡方检验§1 引言本章属于拟合优度检验问题，即模型检验或分布的检验，属于非参数检验的范畴。

在初等统计中，人们要想知道数据是否服从某一特定分布，可以通过直方图，或P-P 图，Q-Q 图来直接判断，但这种直观的方式很不精确。

本章将介绍几种分布的检验：K-S 检验，Lilliefors 检验和2χ检验。

实际上，K-S 检验是在针对2χ检验的缺点1上提出的。

它们是建立在经验分布函数基础上的检验结果。

§2 Kolmogorov 检验一、基本假设一般地要检验手中的样本是否来自某个已知0()F x ，假定其真实分布为()F x ，对应的检验类型有00:()()A H F x F x = 对x ? 10:()()H F x F x ≠ 至少有一个x 00:()()B H F x F x = 对x ? 10:()()H F x F x < 至少有一个x 00:()()CH F x F x = 对x ? 10:()()H F x F x > 至少有一个x设()S x 为该组数据的经验分布函数，则()()i i I X x X x S x n n≤≤==∑的目二、基本方法Kolmogorov 于三十年代提出了一种基于经验分布的检验方法，基本思想是：由格里文科定理，当n →∞时，样本经验分布?nF 以概率1一致收敛到总体分布F ，为此可以定义()S x 到0()F x 的距离为 00((),())sup ()()D S x F x S x F x =-当H 0成立时，由格氏定理，D 以概率1收敛到0，因此D 的大小可以度量0()F x 对总体分布拟合的好12χ检验与K-S 检验均属拟合优度检验，但2χ检验常用于定类尺度测量数据，K-S 检验还用于定序尺度测量数据；当预期频数较小时，2χ检验常需要合并邻近的类别才能计算，K-S 检验则不需要，因此它能比2χ检验保留更多的信息；对于特别小的样本数目，2χ检验不能应用，而K-S 检验则不受限制。

此外，2χ检验需要人为对总体分布的支撑集进行划分，将总体分布转化成一种导出分布，后果：①样本信息利用不充分；②实际检验的是导出分布对数据的拟合优度，而不是假设分布对数据的拟合优度。

坏。

可供选择的检验统计量分别为；类型A 0()()sup xD S x F x =-类型B 0(()())sup xD F x S x +=-类型C 0((()())sup xD S x F x -=-在实际操作时，如果有n 个观察值，用下面的统计量代替上面的D(){}0101max max ()(),()()n i i i i i nD S x F x S x F x -≤≤=--NOTE ：①由()S x 的取值是离散的，考虑到跳跃性，该n D 能够保证S 与F 0之间取得最大距离；②n D 在H 0下的分布有表可查，P201③在大样本时，有近似分布)()n P d K d <→，这里的分布函数()Kd 有表达式，P122，该分布有表可查P203：三、应用举例【例6-1】轴承的内径检验检验某车间生产的20个轴承外座圈的内径，测得数据如下（单位：mm ）15.04 15.36 14.57 14.53 15.57 14.69 15.37 14.66 14.52 15.41 15.34 14.28 15.01 14.76 14.38 15.87 13.66 14.97 15.29 14.9515μ=，方差220.2σ=的正态分布。

分析：方法一，可以利用直方图、Q-Q 图、P-P 图进行直观判断；由P122表中数据得：200.020.3390.32866D d =>=，拒绝H 0，认为不满足要求。

近似1.516ξ==，P-值=0.979＞0.05，接受H 0。

【例6-2】《数理统计与管理》论文作者服从洛特卡分布2将46期的《数理统计与管理》的文章按第一作者统计，得到表7-2的结果。

论文作者数是否服从洛特卡分布。

分析：洛特卡得出这样的一个关系：若以x 表示每一作者所著的论文数，与其相应的写x 篇论文的作者数为y ，则y 与x 成反比关系。

即有m x y N C =(0.1)式中，N 为论文总数，m 、C 为两个特定的常数，在不同的学科领域数值不同。

假定根据表6—2提供的数据，认为论文作者服从洛特卡分布，并对其真实性进行检验，首先必须确定它的理论分布，即计算出m 、C 的值。

估计m 的值，通常采用最小二乘法。

将（6.1）式进行对数变换，使其线性化，得到：ln ln ln y N C m x =- (0.2)m 相当于一元线性回归方程?Ya bx =+中的回归系数b ，根据表中的数据运用最小二乘法，得到m=3.0550。

关于C 值，可以用这样一个公式进行近似计算。

这是1985年美国情报学家M.L.Pao 教授在数学家的协助之下提出的。

计算式为：191111/1/(219)1/[(1)19]/(2419)mm m m x C xm m +==++-+∑经计算，1/(1.19080.0000620.0011460.0000008)0.8389C =+++ 。

因此46期《数理统计与管理》的论文与作者数的理论洛特卡分布为3.055()0.8389/f y x =(0.3)为了判定《数理统计与管理》论文作者的实际分布是否与理论分布一致，可以采用Kolmogorov 检验。

建立的假设组为00:()()n H S x F x = 对x ? 10:()()n H S x F x ≠ 至少有一个x理论累积频率0()F x 的各个值，可以将x 分别代入（6.3）式计算得到，实际累积频率是将累计的作者2洛特卡定律是1926年6月19日洛特卡（Vlachy ）在美国颇有影响的学术刊物《华盛顿科学院杂志》上首先提出，它第一次提示了作者与文献量的统计规律性。

在这之后，洛特卡进一步发展了洛特卡定律，得出这样的一个关系：若以x 表示每一作者所著的论文数，与其相应的写x 篇论文的作者数为y ，则y 与x 成反比关系。

数y ∑分别除以作者总人数得到。

计算结果，作者实际累积频率及理论累积频率及各个差值如表6-3。

1 2 3 4 5 6 7 0()F x 0.8389 0.9398 0.9690 0.9811 0.9872 0.9907 0.9929 ()n S x0.89320.9635 0.9870 0.9896 0.9922 0.9948 1.00000max ()()0.0543n D S x F x =-=根据显著性水平0.01α=，作者人数384n y ==∑，查表，由于45n >，得临界值0.0832d α=。

显然0.05430.0832D d α=<=因此数据在1%的显著性水平上不能拒绝H 0，若显著性水平0.05α=，查表得临界值0.0694d α==。

显然0.05430.0694D d α=<=因此，数据在5%的显著性水平上也不能拒绝H 0，可以认为，《数理统计与管理》作者的分布服从洛特卡分布。

§3 Lilliefors 正态性检验Lilliefors 正态性检验实质上是对Kolmogorov 检验的一个改进。

当用Kolmogorov 检验某样本是否来自一正态总体2(,)N μσ时，当μ和2σ未知时，就会用样本均值X 作为总体均值μ的估计，样本方差2S 作为总体方差2σ的估计，从而将数据i X 标准化为：i X Z μσ-=，再用标准正态分布()x Φ作0()F x 来计算K 氏统计量n D 。

但这时统计量n D 在H 0下的分布发生了改变，Lilliefors （1976）对Kolmogorov 的检验临界值表作了修正。

【例6-3】以例6-1为例在该例中，?14.91X μ==，?0.52S σ==，200.050.11599130.19D d =<=，对于5%的显著性水平，不能拒绝原假设。

而按照Kolmogorov 的临界值表，在5%显著性水平下的临界值为0.294，要比Lilliefors 检验保守。

§4 Smir nov 两样本检验一、 Smirnov 检验主要用来检验两个样本是否同时来自于某一总体，设样本12,,,m X X X 来自()F x 分布，而样本12,,,n Y Y Y 来自分布为()G y 的总体。

Smirnov 检验的基本思想和Kolmogorov 检验一样，因此经常通称这两个检验为Kolmogorov-Smirnov 拟合优度检验，简称K-S 检验。

1．基本假设检验类型为：类型A 0:()()H F x G x = 对x ? 1:()()H F x G x ≠ 至少有一个x 类型B 0:()()H F x G x = 对x ? 1:()()H F x G x < 至少有一个x 类型C 0:()()H F x G x = 对x ? 1:()()H F x G x > 至少有一个x2．基本方法设()m F x 和()n G y 分别为这两个样本的经验分布函数。

则检验A 的统计量可以取()(){}max max ()(),max ()()N m i n i m j n j ijD F x G x F y G y =--(0.4)式中N m n =+NOTE ：①含义②其它检验类型的统计量仿此可以写出③N D 的分布有表可查，P204，P205④大样本时，有近似分布()N P d K d ?<→二、应用举例【例6-4】检验两个地区的GDP 指数是否具有相同的分布华北五省市区和华东七省市1996年的GDP 指数（前一年为100）数据如下：109.2 114.3 113.5 111.0 112.7 华东113.0112.2112.7114.4115.4113.4112.2检验这两个地区的GDP 指数的分布是否相同。

分析：数据的计算过程详见P1260.22/50.40.5714N D d ==<=接受H 0。

§5 χ2拟合优度检验检验目的：检验样本是否来自于某一特定的分布或总体。

在20世纪初，Pearson 提出了拟合优度的2χ统计量。

其基本做法是：首先将样本区间进行分割，抽取n 个观察值（相当于做了n 次试验），则X 落在每个区间中的数目服从多项分布，我们就是让这个多项分布去逼近X 的分布22211()1~(1)kk i i i i i i i n np n Q n k r np n p χ==-==---∑∑(0.5)其中：r 为总体分布里待估参数的个数，k 为划分的组数。

e商务文档

非参数统计学讲义（第六章）分布检验和某些卡方检验

相关文档推荐：