第九讲 分布拟合检验
第9讲 Kolmogorov -Smirnov分布拟 合检验
内容提要:
K.Pearson连续型分布拟合检验及优缺点 Kolmogorov -Smirnov检验的思想 Kolmogorov -Smirnov检验的SPSS实现
上一讲所讲述了分布拟合检验的一种方法—— K.Pearson Chi-square检验法
146.4
148.5 143.7 144.5
139.4
147.5 156.9 142.4
我们将身高看作连续型随机变量,要检验它是 否服从正态分布 首先对区间进行划分,可采用公式
k 1.87(n 1) 2 / 5 1.87(119) 0.4 12
数据的最大值为160.3,最小值为122.7,等 距离划分12个区间,每个区间的长度为 d=3.133
146.8
147.7 134.7 138.4 131.0 132.3 135.9 135.9 129.1 132.9 140.6 135.0 139.7
127.4
140.8 138.9 133.1
146.0
127.7 123.1 142.8
155.8
150.7 126.0 136.8
141.2
160.3 150.0 133.1
一、K.Pearson Chi-square离散分布拟合检验
2 p i 1 k
ni Ei
Ei
2
H 0 , 2 (k r 1) n
ni和Ei分别是实际频数和理论频数
P P( (k r 1) )
2 2 0
P , rej. H 0 P , acc. H 0
i 10
pi 0 C 0.1 (1 0.1)
i
10i
关键问题之二:r、k的确定 r表示未知独立参数的个数,参数需要用极 大似然估计替代 Poisson分布:r=1
ˆ X
1 n ˆ (X i X )2 n i 1
2
ˆ 正态分布:r=2 X k表示随机变量的取值区间(或点)数,保 证该区间上的理论频数不得小于5
血型分布检验、二项分布拟合检验、Poisson分 布拟合检验 连续型: 正态分布拟合检验、指数分布拟合检验
缺点 1、与区间的划分有关 相同的数据,按照不同的区间划分,可以得到不 同的P值 2、灵敏度不够高 对于连续型随机变量,我们希望F(x)与F0(x)处处 差别不大,而不仅仅从区间的角度进行判断 3、SPSS处理不方便 SPSS处理时涉及pi0的计算和输入,而计算比较 繁琐
130.3
122.7 139.0 141.6 140.6 136.4 138.9 145.2 135.7 138.4 138.3 142.7 143.8
146.3
131.8 132.3 141.0 140.2 134.5 136.1 128.2 139.8 138.1 135.3 136.2 138.1
两密度函数有差 别吗?
f0(x),理论密度
a1
a2
a3
a4
f(x),实际密度
各区间上两曲线下的面积近似相等 理论概率与实际概率相近 实际密度与理论密度无差别?
三、Kolmogorov -Smirnov分布拟合检验
(1) H 0 : F ( x) F0 ( x) H1 : F ( x) F0 ( x) (2) H 0 : F ( x) F0 ( x) H1 : F ( x) F0 ( x) (3) H 0 : F ( x) F0 ( x) H1 : F ( x) F0 ( x)
150.8 147.9 127.7
146.2 143.0 154.4
140.6 143.1 142.7
139.7 142.7 141.2
问 : 否该 服地 从区 正 12 态岁 分男 布孩 ?身 高 是
126.0
133.4
142.7 135.8 138.4 145.1 150.4 152.7 140.3 140.2 141.4 142.9 142.2 154.3
k=8各区间理论频数表
≤1 2 3 4 5 6 7 ≥8
7.79 13.22 18.51 19.44 16.33 11.43 6.86 6.26
上节课我们所涉及到的都是离散型随机变量, 即随机变量取值为有限个或可数个 其分布拟合检验属于离散分布检验问题, 利用K.Pearsonχ2检验时,其区间的划分和 概率的计算相对比较容易
146-150 150-154 >154
利用Spss软件求解
数据输入格式
数据加权
选择非参数K.Pearsonχ2检验
选择区间作为检验指标 理论概率值(按比例放大)后作为期望值 (expected value)依次输入
结果
区 间 Observed N 1.00 2.00 3.00 4.00 5.00 6.00 7.00 8.00 9.00 Total 5 8 10 22 33 20 11 6 5 120 Expected N 3.9 7.8 15.4 22.9 25.6 21.3 13.9 6.2 2.9 Residual 1.1 .2 -5.4 -.9 7.4 -1.3 -2.9 -.2 2.1
ˆ ˆ x 139.5, 1 120 ( xi x ) 2 7.3457 120 i 1
再通过正态分布求区间发生的概率pi0
pi 0 P( ai 1 X ai )
ai
1 ˆ 2
ai 1
e
ˆ ( x )2 ˆ 2
dx F ( ai ) F ( ai 1 )
160.3 122.7 d 12
数出落在各区间的个体数
1
2
7
3
5
4
5
6
7
8
9
8
10
2
11
4
12
1
12 19 24 23 10
发现有三个区间的实际例数小于5 经尝试发现,应当将区间个数缩小为9,实际 上,以等间隔4就能使实际例数大于5,见P91 表4.4
因此确定k=9
其次,计算参数的极大似然估计
对于连续型随机变量的分布拟合检验, K.Pearson Chi-square检验该怎么办?
二、K.Pearson Chi-square连续分布拟合检验 例如: 要检验某地区12岁男孩身高是否服从正态分布 随机抽取某地区120名12岁男孩,测得具体身高 如下:
128.1 134.1
144.4 124.3 125.6
D sup D sup
n n x
x
Fn ( x) F0 ( x) F0 ( x) Fn ( x)
记
Dn max( D , D )
n
n
Kolmogorov-Smirnov检验统计量
Z n n Dn
lim P( Z n x | H 0 ) 1 2 (1)
可利用Excel求值
Normdist(ai,139.5,7.3457)- Normdist(ai-1,139.5,7.3457)
以书中等间隔4作区间划分,分为9个区间
利用EXCEL,可求出各pi0的值 pi0 对应区间
<126 126-130 130-134 134-138 138-142
142-146
0, k Fn x n 1
x X 1
X k x X k 1 ; k 1,2, n 1 x X n
如果样本值已知,给定任何一点x0的值, 我们能确定Fn(x0)的值。
零假设为真,Fn(x) 与F0(x) 的差应当小,因此构 造检验统计量如下: Kolmogorov检验统计量 右侧检验统计量 左侧检验统计量
右侧检验
关键的问题之一:Ei的计算
n
pi 0 pi 0
Ei npi 0 样本例数
在H0成立下(X=i)发生的概率
P( X i | H 0 )
有时直接给出
如例4.1.1,见P86表4.1;再如习题四6# 有时需要通过公式计算 如Poisson分布拟合 再如习题四3#
i pi 0 e i!
Test Statistics Chi-Square a df Asymp. Sig. 区 间 6.644 8 .576
a. 2 cells (22.2%) have expected frequencies less than 5. The minimum expected cell frequency is 2.9.
131.0
137.6 134.8 136.6 141.4 142.7 148.1 137.3 136.6 139.7 144.7 152.1 147.9
125.4
136.9 139.1 136.2 139.9 144.3 139.6 134.6 139.5 136.2 138.8 142.4 141.3
实际自由度自由度 df=9-2-1=6 调整渐近P值
P P( 2 (6) 6.644) 0.355027
正态分布有2个参数
结论 选择显著水平0.2,发现渐近P值大于0.2, 说明该数据支持12岁儿童身高服从正态分布
1、构造思想简单直观
优点
出发点是样本频数与理论频数之差。如果零假设 为真,则差值绝对值应该偏小;否则,偏大。 2、适用性广 既适用于离散分布拟合,又适用于连续分布拟合 离散型:
出发点:利用实际分布和理论分布之间的每一点上 的差别进行比较 问题1:实际分布是未知的,如何通过样本度量?
问题2:理论分布含有参数怎么办?
经验分布函数是总体分布函数的无偏、一致估计。 一种定义方法,以后用于计算Dn+ x<X 1 0, k Fn x X k x<X k 1 ; k 1,2, n 1 n x X n 1 另一种定义方法以后用于计算Dn-