当前位置:
文档之家› 第八章 假设检验(分布拟合检验)
第八章 假设检验(分布拟合检验)
这些试验及其它一些试验, 这些试验及其它一些试验,都显 示孟德尔的3: 理论与实际是符合的 理论与实际是符合的. 示孟德尔的 1理论与实际是符合的 这本身就是统计方法在科学中的一项 这本身就是统计方法在科学中的一项 重要应用. 重要应用
用于客观地评价理论上的某个结论是 否与观察结果相符, 否与观察结果相符,以作为该理论是 否站得住脚的印证. 否站得住脚的印证 Nhomakorabea或
k f i2 n fi χ 2 = ∑ − pi = ∑ −n i =1 pi n i =1 npi
2
统计量
χ
2
的分布是什么? 的分布是什么
皮尔逊证明了如下定理: 皮尔逊证明了如下定理 若原假设中的理论分布F(x)已经完全给 已经完全给 若原假设中的理论分布 定,那么当n → ∞ ,统计量 时 的分布渐近(k-1)个自由度的 χ 分布 个自由度的 分布. 的分布渐近 如果理论分布F(x)中有 个未知参数需用 中有r个未知参数需用 如果理论分布 中有 相应的估计量来代替,那么当 相应的估计量来代替, 时,统 n →∞ 计量 2的分布渐近 (k-r-1)个自由度的 2 个自由度的 分 χ χ 布.
2 2
如果根据所给的样本值 X1,X2, …,Xn算得 2 的实测值落入拒绝域, 统计量 χ 的实测值落入拒绝域,则拒绝原假 否则就认为差异不显著而接受原假设. 设,否则就认为差异不显著而接受原假设
皮尔逊定理是在n无限增大时推导出来 皮尔逊定理是在 无限增大时推导出来 无限 因而在使用时要注意n要足够大 要足够大, 的,因而在使用时要注意 要足够大,以及 npi 不太小这两个条件 不太小这两个条件 这两个条件. 根据计算实践,要求 不小于 不小于50, 根据计算实践,要求n不小于 ,以及 npi 都不小于 5. 否则应适当合并区间,使 否则应适当合并区间, npi满足这个要求 .
2 2
根据这个定理, 根据这个定理,对给定的显著性水平α , 2 2 查χ 分布表可得临界值 χα ,使得
P(χ > χα ) = α
2 2
得拒绝域: 得拒绝域
χ > χα (k −1) (不需估计参数 不需估计参数) 不需估计参数
2 2
估计r χ > χα (k − r −1) (估计 个参数 估计 个参数)
( fi − npi ) χ =∑ npi i=1
k 2
2
是k个近似正态的变量的平方和 个近似正态的变量的平方和. 个近似正态的变量的平方和 这些变量之间存在着一个制约关系: 这些变量之间存在着一个制约关系:
npi 2 2 渐近(k-1)个自由度的 χ 分布 故统计量 χ 渐近 个自由度的 分布.
i=1
假设检验( 第八章 假设检验(续)
§4. 分布拟合检验 在前面的课程中, 在前面的课程中,我们已经了解了假 设检验的基本思想, 设检验的基本思想,并讨论了当总体分布 为正态时, 为正态时,关于其中未知参数的假设检验 问题 . 然而可能遇到这样的情形, 然而可能遇到这样的情形,总体服从何 种理论分布并不知道, 种理论分布并不知道,要求我们直接对总体 分布提出一个假设 .
实测频数
fi − npi
理论频数
标志着经验分布与理论分布之间的差异的大小. 标志着经验分布与理论分布之间的差异的大小
皮尔逊引进如下统计量表示经验分布 与理论分布之间的差异: 与理论分布之间的差异 在理论分布
( fi − npi ) 2 χ =∑ npi i=1
k
k
2
已知的条件下, 已知的条件下 npi是常量
年的432年间 年间, 例1. 从1500到1931年的 年间,每年爆 到 年的 发战争的次数可以看作一个随机变量,椐统计, 发战争的次数可以看作一个随机变量,椐统计 年间共爆发了299次战争 数据如下: 次战争, 这432年间共爆发了 次战争 数据如下 年间共爆发了
战争次数X 战争次数 发生 X次战争的年数 次战争的年数 223 0 142 1 48 2 15 3 4 4
又如, 又如,某钟表厂对生产的钟进行精确性检 抽取100个钟作试验,拨准后隔 小时 个钟作试验, 查,抽取 个钟作试验 拨准后隔24小时 以后进行检查,将每个钟的误差(快或慢) 以后进行检查,将每个钟的误差(快或慢) 按秒记录下来. 按秒记录下来
问该厂生产的钟的误差是否服从正态 分布? 分布?
解决这类问题的工具是英国统计学家 K.皮尔逊在 皮尔逊在1900年发表的一篇文章中引进 皮尔逊在 年发表的一篇文章中引进 2 检验法. 的所谓 χ 检验法 这是一项很重要的工作,不少人 这是一项很重要的工作, 把它视为近代统计学的开端. 把它视为近代统计学的开端
在概率论中,大家对泊松分布产生的一 在概率论中, 般条件已有所了解,容易想到,每年爆发战 般条件已有所了解,容易想到, 争的次数, 争的次数,可以用一个泊松随机变量来近似 也就是说, 描述 . 也就是说,我们可以假设每年爆发战 争次数分布X近似泊松分布 近似泊松分布. 争次数分布 近似泊松分布 现在的问题是: 现在的问题是: 上面的数据能否证实X 上面的数据能否证实 具有 泊松分布的假设是正确的? 泊松分布的假设是正确的?
让我们回到开始的一个例子, 让我们回到开始的一个例子,检验每 年爆发战争次数分布是否服从泊松分布. 年爆发战争次数分布是否服从泊松分布 根据观察结果, 根据观察结果,得参数 λ 的极大似然估计为 提出假设H 提出假设 0: X服从参数为λ 的泊松分布 服从参数为
ˆ λ = X =0.69
按参数为 的泊松分布, 按参数为0.69的泊松分布,计算事件 的泊松分布 计算事件X=i 的 概率p p 概率 i , i的估计是 −0.69 i , ˆ pi = e 0.69 i ! i=0,1,2,3,4 将有关计算结果列表如下: 将有关计算结果列表如下
孟德尔
…
黄色纯系
… 子一代 子二代
绿色纯系
根据他的理论,子二代中 根据他的理论,子二代中, 黄、绿之比 近似为3:1, 近似为 , 他的一组观察结果为: 他的一组观察结果为: 黄70,绿27 , 近似为2.59:1,与理论值相近. ,与理论值相近 近似为
由于随机性,观察结果与 总有些差 由于随机性,观察结果与3:1总有些差 距,因此有必要去考察某一大小的差异是否 已构成否定3:1理论的充分根据 理论的充分根据, 已构成否定 理论的充分根据,这就是如 下的检验问题. 下的检验问题 检验孟德尔的3:1理论 检验孟德尔的 理论: 理论 提出假设H0: p1=3/4, p2=1/4 提出假设 这里,n=70+27=97, k=2, 这里, 理论频数为: 理论频数为: np1=72.75, np2=24.25 实测频数为70, 实测频数为 ,27.
日至1971年2月9日共 日共2231天 例3. 自1965年1月1日至 年 月 日至 年 月 日共 天 记和5级以上的 中,全世界纪录到里氏震级4记和 级以上的 全世界纪录到里氏震级 记和 地震162次,统计如下 次 地震
相继两次地震间 0-4 隔的天数xi 出现的频数f 出现的频数 i 50 10-14 5-9 31 26 15-19 17 10 20-24 25-29 8 6 30-34 35-39 6 8(1) ≥40
例2. 我们以遗传学上的一项伟大发现为例 说明统计方法在研究自然界和人类社会的规律 性时,是起着积极的、主动的作用. 性时,是起着积极的、主动的作用 奥地利生物学家孟德尔进行了长 达八年之久的豌豆杂交试验, 达八年之久的豌豆杂交试验 并根据 试验结果,运用他的数理知识 运用他的数理知识, 试验结果 运用他的数理知识 发现了 遗传的基本规律. 遗传的基本规律
战争次数 x 实测频数 fi
ˆ pi ˆ n pi
0 1 2 223 142 48 0.58 0.31 0.18 216.7 149.5 51.6
3 15 0.01 12.0
4 4 0.02 2.16
∑
14.16 ( fi − npi )2 0.183 0.376 0.251 1.623 2.43 npi 的组予以合并, 次及4次 将n pi<5的组予以合并,即将发生 次及 次 ˆ 的组予以合并 即将发生3次及 战争的组归并为一组. 战争的组归并为一组 因H0所假设的理论分布中有一个未知 参数,故自由度为4-1-1=2. 参数,故自由度为
∑
k
pi ( fi − npi )
=0
尚未完全给定的情况下, 在F(x)尚未完全给定的情况下,每个未知 尚未完全给定的情况下 参数用相应的估计量代替, 参数用相应的估计量代替,就相当于增加一个 制约条件,因此,自由度也随之减少一个. 制约条件,因此,自由度也随之减少一个. 若有r个未知参数需用相应的估计量来代 个未知参数需用相应的估计量来代 自由度就减少r个 替,自由度就减少 个. 渐近(k-r-1)个自由度的 χ 分布 此时统计量 χ 渐近 个自由度的 分布.
2
( fi − npi ) χ =∑ npi i =1
k 2
2
为了便于理解, 为了便于理解,我们对定理作一 点直观的说明. 点直观的说明
在理论分布F(x)完全给定的情况下,每个pi 完全给定的情况下,每个 在理论分布 完全给定的情况下 都是确定的常数. 棣莫佛- 都是确定的常数 由棣莫佛-拉普拉斯中心极 限定理, 充分大时 渐近正态, 限定理,当n充分大时,实测频数 fi 渐近正态, 充分大时, 因此
K.皮尔逊 皮尔逊
χ2检验法是在总体 的分布未知时, 检验法是在总体 的分布未知时, 是在总体X 根据来自总体的样本, 根据来自总体的样本,检验关于总体分 布的假设的一种检验方法. 布的假设的一种检验方法
检验法对总体分布进行检验时 对总体分布进行检验时, 使用 χ 检验法对总体分布进行检验时,
2
检验假设H 若在H 在用 χ2检验法 检验假设 0时,若在 0下 分布类型已知,但其参数未知, 分布类型已知,但其参数未知,这时需要先 用极大似然估计法估计参数,然后作检验. 用极大似然估计法估计参数,然后作检验 分布拟合的 χ 检验法 的基本原理和步 骤如下: 骤如下