当前位置:
文档之家› 第七章 非参数检验-χ2检验
第七章 非参数检验-χ2检验
观测值与理论值的差异由抽样误差引起,即
观测值=理论值。同时给出相就的备择假设HA : 观测值与理论值的差值不等于0,即观测值≠理
论值
2.确定显著水平α 一般确定为0.05或0.01
3.计算样本的χ 2值
4.进行统计推断 χ χ
2
< χ > χ
2
α
P > α P < α
H0 H0
HA HA
2
2
α
χ2检验的注意事项
有效频率,即P(AB)=P(A)P(B)=98/193 ×122/193
理论频数Ei=理论频率×总数
= (98/193 ×122/193) ×193
=(98 × 122)/193=61.95
即Eij=Ri×Cj/T=行总数×列总数/总数
E11= R1 × C1/T=61.95
E21= R2 × C1/T=60.05
又叫列联表(contigency table)χ2检验, 它是研究两个或两个以上因子彼此之间是独立还 是相互影响的一类统计方法。
(一)2×2列联表的独立性检验
设A,B是一个随机试验中的两个事件,其中A 可能出现r1 、r2个结果,B可能出现c1、c2个结果, 两因子相互作用形成4格数,分别以O11 、O12 、 O21 、O22表示,下表是2×2列联表的一般形式
三、χ2检验的用途
适合性检验
独立性检验
同质性检验
适合性检验(吻合度检验)
是指对样本的理论数先通过一定的理论分布推算出来, 然后用实际观测值与理论数相比较,从而得出实际观
测值与理论数之间是否吻合。因此又叫吻合度检验。
适合性检验的零假设是观测次数与理论次数之间无差
异。其中理论次数的计算一般是根据某种理论,按一
876只羔羊性别调察
性别
公 母 合计
观察值(O)
428 448 876
理论值(E)
438 438 876
O-E
-10 +10 0
要回答这个问题,首先需要确定一个统计量,
将其用来表示实际观测值与理论值偏离的程度;
然后判断这一偏离程度是否属于抽样误差,即进 行显著性检验。 判断实际观测值与理论值偏离的程度,最简 单的办法是求出实际观测值与理论值的差数。
98(R1) 95(R2)
有效率
59.2% 67.4%
总数
122(C1)
71(C2)
193(T)
1.H0 :给药方式与给药效果相互独立。
HA :给药方式与给药效果有关联。
2.给出显著水平α =0.05
3.根据H0,运用概率乘法法则:事件A与事件B同时
出现的概率为:P(AB)=P(A)P(B)
口服与有效同时出现的理论频率=口服频率×
总数 50 50
总数
30
70
100
1.提出假设. H0:性别与对食品的偏爱无关 HA:性别与对食品的偏爱有关 2.确定显著水平.(=0.05) 3.检验计算.
c
2
( 10 15
( 40 35 0.5) 2 35
( 30 35 0.5) 2 35
3.857
4.统计推断.0.052=3.84,由于c20.052,所以应该否 定H0而接受HA,即性别与对食品的偏爱有关,男女消费 者对两类食品有不同的态度.
给药方式与给药效果的2×2列联表 给药方式
口服 注射
有效
58 64
无效
40 31
总数
服从某种理论分布或某种假设分布所作的假设
检验,即根据样本的频数分布来推断总体的分
布。
χ2检验与测量数据假设检验的区别 测量数据的假设检验,其数据属于连续变量,
而χ2检验的数据属于点计而来的间断变量。 测量数据所来自的总体要求呈正态分布,而
χ2检验的数据所来自的总体分布是未知的。
测量数据的假设检验是对总体参数或几个总体
χ2= ∑
Ei
χ2值的特点
可加性
非负值
随O和E而变化
χ2= ∑ (Oi-Ei)2
Ei
χ2值与概率P成反比, χ2值越小,P值越大, 说明实际值与理论值之差越小,样本分布与假设的 理论分布越相一致;
χ2越大,P值越小,说明两者之差越大,样本
分布与假设理论分布越不一致。
基本步骤
1.提出无效假设H0
例:在英语四级考试中,某学生做对了80个四择一选择题中
的28题,现在要判断该生是否是完全凭猜测做题 假如该生完全凭猜测做题,那么平均而言每道题做对的可能 性是1/4,因此80个题中平均而能做对80/4=20题,代入公 式有:
因此,该生可能会做一些题。
例:鲤鱼体色子代分离是否符合3:1比率
鲤鱼遗传试验子代观测结果 体色 子代观测尾 数 青灰色 1503 红色 99 总数 1602
定的概率通过样本即实际观测次数来计算。这里所说
的某种理论,可能是经验规律,也可能是理论分布。
确定理论次数是卡方检验的关键。
独立性检验
是指研究两个或两个以上的计数资料或属性 资料之间是相互独立的或者是相互联系的假设检 验,通过假设所观测的各属性之间没有关联,然 后证明这种无关联的假设是否成立。
同质性检验
χ2值就越大,越不符合;偏差越小,χ2值就越小,
越趋于符合;若两值完全相等时,χ2值就为0,表明 理论值完全符合。
理论值
观测值
Ⅰ
Ⅱ
Ⅲ
χ2检验统计量的基本形式
k
χ2= ∑ (Oi-Ei)2 Ei
O--实际观察的频数(observational frequency) E--无效假设下的期望频数(expectation frequency)
著差异?
按国际柑橘协会讨论会的统计结果,132个柑橘应该有
132/12=11人是霉菌感染变质的,剩下的121个非变质柑橘,
代入公式有:
因此,在0.05和显著性水平下,该地区被霉菌感染柑 橘变质比率与国际柑橘讨论会的统计结果有显著差异,显然 根据比例可知该地区柑橘霉菌感染率小于国际柑橘协会讨论 会的统计结果。
在连续型资料的假设检验中,对一个样本方
差的同质性检验,也需进行χ2 检验。
χ2检验的原理与方法
χ2检验的基本原理 χ2检验统计量的基本形式
χ2值的特点
χ2检验的基本步骤 χ2检验的注意事项
χ2检验就是统计样本的实际观测值与理论推算
值之间的偏离程度。
实际观测值与理论推算值之间的偏离程度就决定
其χ2 值的大小 。理论值与实际值之间 偏差越大 ,
由于检验的对象-次数资料是间断性的,而χ 2分布
是连续型的,检验计算所得的χ 2值只是近似地服从χ 所得的χ 2值就有一定的偏差。 由次数资料算得的χ 2均有偏大的趋势,即概率偏 低。当df=1,尤其是小样本时,必须作连续性矫正。
2
分布,所以应用连续型的χ 2分布的概率检验间断性资料
χ
2
c=
∑
( Oi-Ei - 0.5 )2
性别 男性 女性
“有机” 10 20
常规 40 30
总数 50 50
总数
30
70
100
例: 有一调查以研究消费者对“有机”食品和常规食品 的态度.在超级市场随机选择50个男性和50个女性 消费者,问他们更偏爱哪类食品,结果如下.
性别 男性 女性
“有机” 10(15) 20(15)
常规 40(35) 30(35)
对于资料组数多于两组的值,还可以通过下面简式进 行计算:
O 1 n n pi
2
2 i
Oi -第 i 组的实际观测数
pi -第 i 组的理论比率
n-总次数
独立性检验
独立性检验的定义
2×2 列联表的独立性检验 2×c列联表的独立性检验
r×c列联表的独立性检验
独立性检验 (independence test)
(1)H0:鲤鱼体色子代分离符合3:1比率; HA:鲤鱼体色子代分离不符合3:1比率;
(2)取显著水平α =0.05 (3)计算统计数χ
2
:
需要连续性校正
df= k-1 = 2-1 =1
在无效假设H0正确的前提下,青灰色的理论数为:
Ei =1602×3/4=1201.5
红色理论数为: Ei =1602×1/4=400.5
1、任何一组的理论次数Ei 都必须大于5,如果Ei
≤5,则需要合并理论组或增大样本容量以满足
Ei >5 2、在自由度=1时,需进行连续性矫正,其矫正 的χ2c为: χ2c=
∑
( Oi-Ei - 0.5 )2
Ei
χ 2分布是连续型变量的分布,每个不同的自由度都有一个相 应的χ 2分布曲线,所以其分布是一组曲线。
映(O-E)2 的比重,最后将各组求和,这个总 和就是χ2 。
羔羊性别观测值与理论值 性别 公 母 合计 观测值 (O) 428 448 876 (Oi-Ei)2 理论值(E) 438 438 876 O-E -10 +10 0 (O-E)2 /E 0.2283 0.2283 0.4566
χ2值就等于各组观测 值和理论值差的平方与理 论值之比,再求其和。
参数之差所进行的假设检验,而χ2 检验在多 数情况下不是对总体参数的检验,而是对总体 分布的假设检验。
二、χ2检验与连续型资料假设检验的区别
χ2 检验 数据资料 总体 检验对象
连续型资料假设检验
连续型资料 正态分布
离散型资料
总体分布是未知的
不是对总体参数的检 验,而是对总体分布 的假设检验
对总体参数或几个总体 参数之差
羔羊性别观察值与理论值
性别
公 母 合计
观察值(O)