知识点8.6
总体分布的卡方拟合检验
设总体X的分布函数F(x)未知, X
,⋯,X n是X的一个样本, 要
1
求检验假设
H0:F(x)=F0(x),H1:F(x)≠F0(x).
这里F
(x)是数学表达形式已知的分布函数. 备择假设表示F(x)
是除了F
(x)以外的某一函数, 通常可以不写出来.
用k −1个分点t 1,⋯,t k−1将实数轴分成k 个区间, 记为A i =
t i−1,t i ,其中t 0=−∞,t k =+∞.
H 0为真时, 有
p i =P(X ∈A i )=F 0(t i )−F 0(t i−1).
解决方案
A i +∞
−∞
t 1t i−1
t i ⋯
⋯如果F 0(x)中带有未知参数,则先利用样本求出未知参数的最大似然估计值,然后将估计值代入F 0x 计算概率p i .
记样本观测值x 1⋯,x n 落入区间A i 的频数为n i , 称其为实际频数.
从频率和概率之间关系的角度出发, Karl Pearson 提出了如下形式的检验统计量:
χ2
=i=1
k
n p i n i n
−p i
2
=
i=1
k
(n i −np i
)
2np i
np i 称为理论频数.
当H 0为真时, 在样本容量充分大的情况下, 该检验统计量近似服从χ2(k −r −1)分布, 其中r 为F 0(x)中待估计的未知参数个数.
由Bernoulli 大数定律可知,当试验次数较大时,事件发生的频率和概率出现较大偏差的概率是比较小的.所以当H 0为真时,对于给定的显著水平α有
P i=1
k
(n i −np i )2
np i
≥χα2
(k −r −1)≈α.
故H 0的拒绝域为:χα
2k −r −1,+∞.
H 0的接受域为:0,χα
2k −r −1.
注意事项
(1) 原假设H0中的总体分布也可以用分布律或密度函数来表示, 只要
在H
0为真时, 能够计算概率p
i
即可.
(2) 根据实践经验, 要求样本容量n≥50, 且要求理论频数np i≥5.
若np
i <5, 则应适当合并A
i
以满足此要求.
例1将一枚骰子抛掷120次, 结果如下
问这枚骰子的六个面是否匀称?取显著性水平为0.05.解将骰子六个面的点数作为总体X,
H0:P X=k=1
6
,k=1,2,⋯,6.
点数123456频数212819241612
分组数k =6, 待估计参数个数r =0,
χα
2k −r −1=
χ0.052
(5)
=11.07.
由于8.1<11.07, 故接受H 0, 即认为这枚骰子的六个面是匀称的.
分组n i
p i
np i
(n i −np i
)2/np
i
1211/6201/202281/62064/203191/6201/204241/62016/205161/62016/206
12
1/6
20
64/20Σ
χ2=8.1
例2从某纱厂生产的一批棉纱中抽取300条进行拉力强度试验, 得到数据如下, 检验该批棉纱的拉力强度是否服从正态分布(取显著水平为0.05).
拉力强度区间频数拉力强度区间频数拉力强度区间频数拉力强度区间频数0.50~0.6411.06~1.20371.48~1.62521.90~2.0416 0.64~0.7821.20~1.34531.62~1.76262.04~2.184 0.78~0.9291.34~1.48561.76~1.90192.18~2.321 0.92~1.0624
解
设棉纱的拉力强度为总体X , H 0:X~N μ,σ2.
以拉力强度区间的中点为观测值x i , 得到μ和σ2的最大似然估计值分别为
ෝμ=x =1
300i=1
13
x i n i =1.41,
ෝσ2=s n 2=1300
i=113
x i −x 2n i =0.0892.当H 0为真时,p i =Φ
t i −1.410.0892
−Φ
t i−1−1.410.0892
,i =1,⋯,13.
这样合并满足np i >5
np i <5需要合并分组这部分要重新计算合并后仍有np i <5要继续合并从而得计算表如下
这里也要
相应合并
分组拉力强度区间实际频数n i 概率p i 理论频数np i n i −np i
2
np i 10.50~0.6410.00381.140.017220.64~0.7820.01253.750.816730.78~0.9290.03309.900.081840.92~1.06240.070221.060.410451.06~1.20370.120436.120.021461.20~1.34530.166449.920.190071.34~1.48560.185355.590.003081.48~1.62520.166449.920.086791.62~1.76260.120436.122.8354101.76~1.90190.070221.060.2015111.90~2.04160.03309.903.7586122.04~2.1840.01253.750.016713
2.18~2.32
1
0.0038
1.14
0.0172
合并后的计算表
分组拉力强度区间实际频数n
i 概率p
i
理论频数np
i
(n i−np i)2/np i
10.50~0.92120.049314.790.5263
20.92~1.06240.070221.060.4104
31.06~1.20370.120436.120.0214
41.20~1.34530.166449.920.1900
51.34~1.48560.185355.590.0030
61.48~1.62520.166449.920.0867
71.62~1.76260.120436.122.8354
81.76~1.90190.070221.060.2015
91.90~2.32210.049314.792.6074
Σχ2=6.8822分组数k=9, 待估计参数个数r=2,χα2(k−r−1)=χ
0.05
2(6)=12.592.
由于6.8822<12.592, 故接受H
, 即认为该批棉纱的拉力强度服从正态分布.。