当前位置:
文档之家› 第八章__假设检验(分布拟合检验)
第八章__假设检验(分布拟合检验)
2 0.05
(1)
=3.841
由于统计量 2的实测值
=2 0.4158<3.841,
未落入否定域.
故认为试验结果符合孟德尔的3:1理论.
这些试验及其它一些试验,都显 示孟德尔的3: 1理论与实际是符合的. 这本身就是统计方法在科学中的一项 重要应用.
用于客观地评价理论上的某个结论是否 与观察结果相符,以作为该理论是否站 得住脚的印证.
Σ
fi
pˆ i
npˆ i
50 0.2788 45.1656
npˆ i fi (npˆi fi )2 / npˆi
-4.8344 0.5175
31 0.2196 35.5752
ቤተ መጻሕፍቲ ባይዱ
4.5752 0.5884
26 0.1527 24.7374
-1.2626 0.0644
17 0.1062 17.2044
按 =0.05,自由度为4-1-1=2查 2 分布表得
2 0.05
(2)=5.991
由于统计量 2 的实测值
2=2.43<5.991,
未落入否定域.
故认为每年发生战争的次数X服从 参数为0.69的泊松分布.
例2. 我们以遗传学上的一项伟大发现为 例说明统计方法在研究自然界和人类社会的规 律性时,是起着积极的、主动的作用.
第八章 假设检验(续)
§4. 分布拟合检验
在前面的课程中,我们已经了解了假 设检验的基本思想,并讨论了当总体分布为 正态时,关于其中未知参数的假设检验问 题.
然而可能遇到这样的情形,总体服从何 种理论分布并不知道,要求我们直接对总体 分布提出一个假设 .
例1. 从1500到1931年的432年间,每年 爆发战争的次数可以看作一个随机变量,椐统 计,这432年间共爆发了299次战争, 数据如下:
在用2检验法 检验假设H0时,若在H0下 分布类型已知,但其参数未知,这时需要先 用极大似然估计法估计参数,然后作检验.
分布拟合的 2检验法 的基本原理和步 骤如下:
1. 将总体X的取值范围分成k个互不重迭的小 区间,记作A1, A2, …, Ak .
2.把落入第i个小区间Ai的样本值的个数记 作fi , 称为实测频数. 所有实测频数之和 f1+ f2+ …+ fk等于样本容量n.
0.2044 0.0024
10 0.0739 11.9718
1.9718 0.3248
8 0.0514 8.3268
0.3268 0.0126
6 0.0358 5.7996
-0.2004 0.0069
6 0.0248 4.0176 13.2192 -0.7808 0.0461 8 0.0568 9.2016
i 1
npi
是k个近似正态的变量的平方和.
这些变量之间存在着一个制约关系:
k pi ( fi npi ) 0
i 1
npi
故统计量 2渐近(k-1)个自由度的 2分布.
在F(x)尚未完全给定的情况下,每个未知 参数用相应的估计量代替,就相当于增加一个 制约条件,因此,自由度也随之减少一个.
若有r个未知参数需用相应的估计量来 代替,自由度就减少r个.
设,否则就认为差异不显著而接受原假设.
皮尔逊定理是在n无限增大时推导出来 的,因而在使用时要注意n要足够大,以及 npi 不太小这两个条件.
根据计算实践,要求n不小于50,以 及npi 都不小于 5. 否则应适当合并区间, 使npi满足这个要求 .
让我们回到开始的一个例子,检验每
年爆发战争次数分布是否服从泊松分布.
检验孟德尔的3:1理论: 提出假设H0: p1=3/4, p2=1/4 这里,n=70+27=97, k=2, 理论频数为: np1=72.75, np2=24.25 实测频数为70,27.
自由度为
统计量 2 2 ( fi npi )2 ~ 2 (1)
i 1
npi
k-1=1
按 =0.05,自由度为1,查 2 分布表得
8
而pˆ9 Pˆ( A9 ) 1 Pˆ( Ai ) 0.0568 i 1
于是可以得到下面的表:
i [ai,ai+1) 1 [0,4.5) 2 [4.5,9.5) 3 [9.5,14.5) 4 [14.5,19.5) 5 [19.5,24.5) 6 [24.5,29.5) 7 [29.5,34.5) 8 [34.5,39.5) 9 [39.5,+∞)
相应的估计量来代替,那么当 n 时,
统计量 2
分布.
的分布渐近 (k-r-1)个自由度的 2
为了便于理解,我们对定理作一 点直观的说明.
在理论分布F(x)完全给定的情况下,每个pi 都是确定的常数. 由棣莫佛-拉普拉斯中心极
限定理,当n充分大时,实测频数 fi 渐近正态,
因此
2 k ( fi npi )2
战争次数X 发生 X次战争的年数
0
223
1
142
2
48
3
15
4
4
在概率论中,大家对泊松分布产生的一 般条件已有所了解,容易想到,每年爆发战 争的次数,可以用一个泊松随机变量来近似 描述 . 也就是说,我们可以假设每年爆发战 争次数分布X近似泊松分布.
现在的问题是:
上面的数据能否证实X 具有 泊松分布的假设是正确的?
此时统计量 2渐近(k-r-1)个自由度的 2分布.
根据这个定理,对给定的显著性水平 ,
查 2分布表可得临界值 2 ,使得
P(
2
2
)
得拒绝域:
2
2
(k
1)
(不需估计参数)
2 2 (k r 1) (估计r 个参数)
如果根据所给的样本值 X1,X2, …,Xn算得
统计量 2的实测值落入拒绝域,则拒绝原假
奥地利生物学家孟德尔进行了长 达八年之久的豌豆杂交试验, 并根据 试验结果,运用他的数理知识, 发现了 遗传的基本规律.
孟德尔
…
黄色纯系
… 子一代 绿色纯系
子二代
根据他的理论,子二代中, 黄、绿之 比 近似为3:他1,的一组观察结果为:
黄70,绿27 近似为2.59:1,与理论值相近.
由于随机性,观察结果与 3:1 总有些差 距,因此有必要去考察某一大小的差异是否 已构成否定3:1理论的充分根据,这就是如 下的检验问题.
实测频数
0.58 0.31 0.18 0.01
0npˆ.ipˆ0i2 216.7 149.5 51.6 12.0
( fi n2p.1i )62 0.18
npi
3
0.37 6
0.251
14.16 1.623
2.43
将n pˆ i <5的组予以合并,即将发生3次及4次
战争的组归并为一组.
因H0所假设的理论分布中有一个未知 参数,故自由度为4-1-1=2.
提出假设H0: X服从参数为 的泊松分布
根据观察结果,得参数 的极大似然估计为
ˆ X =0.69
按参数为0.69的泊松分布,计算事件X=i 的 概率pi ,pi的估计是
pˆi e0.69 0.69i i !,i=0,1,2,3,4
将有关计算结果列表如下:
战争次数
fi 4
223
142 48 15
又如,某钟表厂对生产的钟进行精确性检查, 抽取100个钟作试验,拨准后隔24小时以后 进行检查,将每个钟的误差(快或慢)按秒 记录下来.
问该厂生产的钟的误差是否服从正态 分布?
解决这类问题的工具是英国统计学家 K.皮尔逊在1900年发表的一篇文章中引进
的所谓 2 检验法.
这是一项很重要的工作,不少人 把它视为近代统计学的开端.
6
6 8(1)
解:本例是检验假设
H0 :X的概率密度为
f
(
x
)
1
e
x
/
,
x
0
此处的参数θ未知,先利用极大似然估计求0出, θ的估计x为 0
将总体X可能取值的区间[0,∞)分为9个互不重叠的子区间 i=1,2,…,9。若为真,则X的分布函数是
ˆL 2231 /162 13.77
[ai ,ai1 ], 令 Ai {ai X ai1 },
Fˆ 0
(
x
)
1 0,
e
x
/
13.77
,
x0 x0
由此式得概率pi = P(Ai )的估计:
pˆi Pˆ ( Ai ) Pˆ ({ai X ai1} Fˆ0 (ai1) Fˆ0 (ai ) 例如: pˆ 2 Fˆ0 (a21) Fˆ0 (a2 ) Fˆ0 (9.5) Fˆ0 (4.5) 0.2196
一分公司 二分公司 三分公司 四分公司 合计
赞成该方案 68
75
57
79 279
反对该方案 32
75
33
31 141
合计
100 120
90
110 420
列边缘分布:列观察值的合计数的分布
别 4. 每种组合的观察频数用 fij 表示 5. 表中列出了行变量和列变量的所有可能的组
合 6. 一个 r 行 c 列的列联表称为 r c 列联表
列联表的结构
(2 2 列联表)
列(cj) 行 (ri)
i =1
i =2 合计
列( cj )
j =1
j =1
f11 f21 f11+ f21
f12 f22 f12+ f22
列联表分析 列联表的构造
列联表
(例题分析)
【例】一个集团公司在四个不同的地区设有分公司,现该集 团公司欲进行一项改革,此项改革可能涉及到各分公司的利 益,故采用抽样调查方式,从四个分公司共抽取420个样本 单位(人),了解职工对此项改革的看法,调查结果如下表