卡方检验1
生存 用丹参 未用丹参 合计 187 36 223 死亡 11 6 17 合计 198 42 240
四格表资料的χ2检验
H0:π1 =π2 (用不用丹参死亡率相同) H1:π1≠π2 α=0.05
2 ( 187 × 6 − 36 × 11 ) × 240 χ2 = = 4.0125 223 × 17 × 198 × 42
2
Pearson χ2值的计算公式如下:
( O − T )2 χ =∑ T
2
– 式中O代表实际频数,T代表理论频数。 – ν=(R-1)(C-1)
χ2 检验的基本思想
χ2检验是将率或构成比的比较演绎为实际频数与理论频 数的比较,χ2值反映了实际频数和理论频数吻合的程度 。理论频数与实际频数的差异越大时χ2值也越大。 如果H0成立,则实际频数与理论频数之差一般不会很 大,χ2值也会小,当χ2<χ2界值时,P>α,则尚无理由 拒绝它。 反之,若H0不成立,实际频数与理论频数的差值会大 ,则χ2值也会大,若χ2≥χ2界值,则P≤α,可以认为 实际频数与理论频数的差别已超出了抽样误差允许的 范围,有理由怀疑H0的正确性,因而拒绝它。
χ2分布
χ2分布是由u分布衍生出来的一种连续型分布 。如果ν个相互独立的变量ui~N(0,1), 则变量χ2服从自由度的ν的χ2分布。
2 χ 2 = u12 + u2 + " + uν2
χ2分布的概率密度函数为:
f (χ ) =
2
1
2Γ(ν / 2) 2
(
χ2
)
(ν /2−1)
e
− χ 2 /2
四格表资料的χ2检验
手术时间长短对患者切口是否感染无 影响,即两种手术时间所对应的切口感 染率相等 H1:手术时间长短对患者切口是否感染 有影响 α=0.05
H0 :
四格表资料的χ2检验
n=305>40,但T21 = 4.131<5 ,说明此资 料需运用校正公式计算检验统计量χ2值
其中 Γ(ν / 2) 是伽马函数。
χ2分布曲线
χ2分布的形状依赖于自由度ν的大小,
当ν≤2时,曲线呈L型;随着ν的增加 ,曲线逐渐趋于对称;当ν→∞时, χ2 分布趋向正态分布。
χ2分布曲线
.5 .4 ν=1
.3
.2
ν=3 ν=6
.1
ν=10
0.0 0 5 10 15 20 25
χ2 检验
结论:P<0.05 ,拒绝H0 ,接受H1 ,使用丹参可以降 低死亡率。
四格表资料的χ2检验
H0:π1=π2 (用不用丹参死亡率相同) H1:π1≠π2 T22=17×42/240=2.975<5,n>40,应进行校正
(187 × 6 − 36 × 11 − 240 / 2) 2 × 240 χ = = 2.796 223 × 17 × 198 × 42
χ2 检验的基本思想
两个样本的不良反应率不相同时,可能有两 种可能原因:
– 抽样误差所致; – 两个样本所在总体的不良反应发生率确有所不 同。
检验假设H0:假设这两种注射方式的不良反 应发生率本无不同,差别仅是抽样误差所致 。
χ2 检验的基本思想
如果H0成立,则: π1=π2=57/202=28.22%
2
χ
2
( ad − bc ) 2 n = (a + b )(c + d )(a + c )(b + d
)
ν =1
(35 × 71 − 74 × 22 ) 2 202 = = 1.771 109 × 93 × 57 × 145
查界值表,得P>0.05,按α=0.05水准,
不拒绝H0,尚不能认为两种不同给药方 法的不良反应发生率有差别。
Fisher精确概率检验
属性A A1 A2 合计
属性 B B1 a c a+c B2 b d b+d
合计 a+b c+d n
按超几何分布的原理,四格表的概率计算公式为:
a c ( Ca C a + b )!(c + d )!(a + c )!(b + d )! a b c d ! ! ! ! +b c + d P= = = a +c n ! Cn a!b!c!d !n! (a + c )!(b + d )!
四格表资料的χ2 检验
当n≥40,且T≥5 时,不需要进行校正。
( O − T )2 (ad − bc)2 n χ =∑ = T ( a + b )( c + d )( a + c )( b + d )
2
当 n≥40, 但有1≤T<5时,需对进行连续性校正。
n 2 ) n ( O − T − 0 .5) 2 2 = χ =∑ ( a + b )( c + d )( a + c )( b + d ) T
χ2 检验的基本思想
理论频数:
T RC nR nC = n
– TRC:第R行、C列格子的理论频数; – nR:第R行的合计数; – nC:第C列的合计数; – n:总例数。
实际频数:表内各格数字为实际资料的数字。
χ2 检验的基本思想
实际频数和理论频数差异的大小可以用χ2值的大 小来说明,当样本量n和各个按检验假设计算的理 (A−T) 值 论频数T都足够大时,比如n≥40,T≥5, ∑ T 2 近似于χ 分布,n越大,近似程度越好。
2 χ 检验
(chi-square test)
.5 .4 ν=1
.3
.2
ν=3 ν=6
.1
ν=10
0.0 0 5 10 15 20 25
主要内容
χ2分布
– 了解χ2分布曲线
四格表资料的χ2检验
– 掌握应用条件、基本思想和检验过程
配对设计资料的χ2检验
– 掌握应用条件、基本思想和检验过程
2
( ad − bc −
当n<40,或T<1时,应采用Fisher精确概率检验。
四格表资料的χ2检验
例9-2:某医院为了探索导致手术切口感染 的原因,怀疑手术时间长短可能是一个危险 因素。于是,收集了305例手术患者的情况 列于下表,问手术时间长短对患者切口是否 感染有无影响?
手术时间(h) ≤5 >5 合计 感染情况 感染 13 7 20 未感染 229 56 285 合计 242 63 305
四格表χ2检验的校正公式
χ2界值表是根据连续性的χ2分布计算出来的,但原 始数据是分类资料,不是连续的,由此计算的χ2 值也是不连续的,它仅仅是连续性的χ2分布的一种 近似。 n≥40&T ≥5时,这种近似效果较好。 但在样本例数较少或出现理论频数小于5时,算出 的χ2值可能偏大,既求出的概率P值可能偏小,此 时须根据具体情况作不同的处理。
305 × (|13 × 56 − 229 × 7 | −305 / 2 ) 2 χ = = 1.832 242 × 63 × 20 × 285
2
df = 1
结论:P>0.05,按α=0.05 水准不拒绝H0 ,尚不能认为手术时间的长短是导致切口 感染的一个危险因素。
四格表资料的χ2检验
对240例心肌梗塞患者治疗24小时内的死亡情况进行 观察,198例用复方丹参注射液静滴治疗,死亡11例 ;42例未用复丹参注射液静滴治疗,死亡6例,问两 组病死率相差是否显著?
k n−k CM CN −M P( X = K ) = n CN
此时称随机变量X服从超几何分布( hypergeometric distribution)
超几何分布
超几何分布是统计一种离散概率分布。它描述 了由有限个物件中抽出n个物件,成功抽出指 定种类的物件的次数(不放回)。 超几何分布的模型是不放回抽样 超几何分布中的参数是M,N,n,超几何分布记 作X~H(n,M,N)。
χ2 检验的自由度
χ2值的大小,除决定于O与T的差值外,还 取决于格子数(自由度)的多少。 χ2检验的自由度是指在周边合计固定不变的 条件下,表内全部格子数据中可以自由取值 的格子数。 ν=(R-1)(C-1) 四格表只有两行两列,故其自由度为1。
四格表资料χ2 检验的专用公式
(O − T ) 2 = χ =∑ T
χ2 检验的基本思想
例:某研究人员对202例暴露于狂犬病的孕妇实施 狂犬疫苗接种治疗,观察病人的不良反应发生情况 。该研究人员采用了肌肉注射和皮下注射两种给药 方式,试问不同给药方式的病人不良反应发生率是 否不同?
分组 肌肉注射 皮下注射 合计 发热及肌肉疼痛 有 35(a) 22(c) 57(a+c) 无 74(b) 71(d) 145(b+d) 合计 109(a+b) 93(c+d) 202(n) 发生率 32.11 23.66 28.22
χ2检验是一种用途非常广泛的以χ2分布为
理论依据的假设检验方法,主要用于:
– 两个或多个总体率或构成比的比较; – 两个分类变量之间的关联分析; – 频数分布资料的拟和优度检验等。
四格表资料的χ2 检验
四格表资料的一般形式
属性A B1 A1 A2 合计 a c a+c 属性 B 合计 B2 b d b+d a+b c+d n
2
(a + b)(a + c) ⎞ ⎛ (a + b)(b + d ) ⎞ ⎛ ⎜a − ⎟ ⎜b − ⎟ n n ⎝ ⎠ +⎝ ⎠ + (a + b)(a + c) (a + b)(b + d ) n n (a + c)(c + d ) ⎞ ⎛ (b + d )(c + d ) ⎞ ⎛ − − c d ⎜ ⎟ ⎜ ⎟ n n ⎝ ⎠ +⎝ ⎠ (a + c)(c + d ) (b + d )(c + d ) n n (ad − bc) 2 n = ( a + b )( c + d )( a + c )( b + d )