卡方检验()
1.各组合概率的计算 在四格表周边合计数不变的条件下, 表内4个实际频数a,b,c,d变动的组合数共有“周边合计中最 小数+1”个。如上例,表内4个实际频数变动的组合数共有 9+1=10个,依次为:
设现有样本四格表中的交叉积差a*d*-b*c*=D*,其概 率为p*,其余情况下的组合四格表的交叉积差记为Di, 概率记为Pi。
例2
某医院为了探索导致手术切口感染的原因,怀疑 手术时间长短可能是一个危险因素。于是,收集了 305例手术患者的情况列于下表,问手术时间长短对 患者切口是否感染有无影响?
两种手术时间下患者的切口感染情况
手术时 (小时)
感染
感染情况 未感染
合计
≤5
13
229
242
>5
7
56
63
1. 建立检验假设 (H0: 手术长短与切口感染与否 互相独立, 或两种手术时间所对应的切口感染 率相等) α=0.05
2
a
n(ad bc)2
bc d a cb
d
1668(386 322 895 65)2
26.75
1281 387 4511217
(2) n40, 但有1 Tij <5时,需对上述公式进行连续性 校正。
2
a
n ad
bc
自由度=(行数-1)(列数-1)
(1) 四格表 2 检验
2χ2 表的计算 (1) 当n40, Tij 5的条件下 可用下列简化公式
2
a
n(ad
bc d
bc)2
a cb
d
,
1
例1
工农业高血压患病率的比较(50岁以上男性), 首钢调查50-59岁男性工人1281人、高血压患者386 人,患病率为30.13%。石景山区农民387人,血压 血患者65人,患病率为16.80%,从事工农业生产的
故 吸烟者同时患有肺癌的概率为: P(A1 B1)= P(A1) P(B1/ A1)
公式 P(A1 B1)= P(A1) P(B1)=(a+b)/n×(a+c)/n
故在前述独立性假设检验的前提下,与观察频数a对应的 理论频数为:
T 11
nP A1 B1
(a
b)
n
(a
c)
TRC
nR .nC n
50-59 岁男性工人与农民高血压患病比较
患高血压人数 未患人数
首钢工人
386
895
石景山区农民
65
322
合计
451
1217
合计 1281 387 1668
解:
① 建立检验假设
H0:π1 =π2 (工人与农民的总体患病率相同) =0.05
② 估计总体某现象的发生或存在的概率,假定高血压的 发生和这两种工种众彼此独立无关,因此,这两组资 料是一总体中的两个随机样本,估计
②
2 (187 6 36 11)2 240 4.0125
22317 198 42
③
∵
2
>
2 0.05,1
∴ P<0.05 否定原假设
④ 结论为:使用丹参可以降低死亡率。
因为本例T22=17×42/240=2.925 即 1〈T22 〈5 , 同时df=1 ,n>40
频数和理论频数的吻合程度。 检验2 时,要根据自由度
查界值表。当 ≥ 2 时,2, 拒p绝 0.05,接受H0 ;当 ≤H1 ,
时,尚 2没有2理, 由p 拒0.0绝5 。
H0
自由度
检验的自由度取决于可以自由取值的格子数目,而 不是样本含量n。四格表资料只有两行两列,自由度 (df)=1,即在周边合计数固定的情况下,4个基本数 据当中只有一个可以自由取值.
1217
1217 1668
④ 计算检验统计量 2 值
2 386 346.42 895 934.62 65 104.62 322 282.42
346.4
934.6
104.6
282.4
4.527 1.678 14.992 5.553 26.750
包括两种类型:
1、检验观察数与理论数之间的一致性。
2、通过检验观测数与理论数之间的一致性来判断 事物 之间的独立性。
Pearson 拟合优度(goodness of fit test )2 检验
由于各 皆 2是正值,故自由度愈大, 值也2 会愈大;所
以只有考虑了自由度的影响, 值才2 能正确地反映实际
ad-bc=33
ad-bc=66
ad-bc= 99
二、检验步骤
本例n 33 40 ,宜用四格表资料的Fisher确切概 率法直接计算累计概率。检验步骤为:
Fisher确切概率法计算表
四格表组合
i
a
b
c
d
Di=ad-bc
Pi
1
0
22
9
2
-198
0.00000143
2
1
21
8
3
-165
0.00009412
(1)
0
22
9
2
ad-bc= -198
(6)
5
17
4
7
(2)
1
21
8
3
ad-bc= -165
(7)
6
16
3
8
(3)
2
20
7
4
ad-bc= -132
(8)
7
15
2
9
(4)
3
19
6
5
ad-bc =-99
(9)
8
14
1
10
(5)
4
18
5
6
ad-bc= -66
(10)
9
13
0
11
ad-bc= -33 ad-bc=0
检验的基本思想
以两样本率比较的检验为例,介绍 检验2 的基本思想。 分布是一种连续型分布 分布的 2 形状依赖于自由度的大 小, 2
当自由度≤2时,曲线呈L型;随着的增加,曲线逐渐趋 于对称; 当自由度→∞时, 分 2布趋向正态分布。 分布2 的具有可 加性。
完全随机设计两样本率比较的四格表
总体患病率= 451/1668 =0.2704
未患率= 1217/1668=0.7296
50-59 岁男性工人与农民高血压患病比较
首钢工人 石景山区农民
患高血压人数
观察数
理论数
386
346.4
65
104.6
合计
451
451
患高血压人数 合 计
观察数 理论数
895
934.6 1281
322
282.4 387
2. 计算检验统计量2 值
2 305113 56 229 71 0 5 3052 1832 1
242 63 20 285
3. 查2 分布界值表,作出统计结论
2 3.84 2 1.832 P 0.05 005,1
4. 结合具体问题作出专业结论 :尚不能认为手术时间的 长短是导致切口感染的一个危险因素。
第六章 2 检 验
一、2分布的定义
2分布是从正态分布派生出来的一个连续型分布,与正
态分布和t分布关系密切。下面的定理清楚地表明了其间的关
系。
定理1: 设Z1,…., Zn 是n 个独立的标准正态变量N(0 1),
则其平方和
Z
2 1
Z
2 n
2 (n)
服从自由度为n的2 分布。 推论1: 标准正态变量Z的平方服从自由度为1的2 分
式中TRC为第R(row)行、第C(column)列的理论 频数,nR为相应行的合计,nc为相应列的合计,n为总例 数.
基本公式(亦称Pearson 2)
R C
O T 2
ij
2 ij
i1 j 1
T ij
2 (A T )2
T
值2 反映了实际频数与理论频数的吻合程度,其中 (A T)反2 映了某个格子实际频数与理论频数的吻合程
处理
属性
合计
阳性
阴性
1
A11(T11)
A12(T12) n1(固定值)
2
A21(T21)
A22(T22) n2(固定值)
合计
m1
m2
n
有时为方便用a、b、c、d分别为四格表中四个实际
频数
A11、A12、A21、A22
1.独立性假设与理论频数计算
在对22表作统计处理之前,通常都有一个笼统的检 验假设,即属性A与B 相互独立。为便于理解这个独立性假 设,不妨给上表赋予实际内容。以研究吸烟与肺癌的关系 为例,设
A 代表“吸烟与否”, A1=“吸烟”, A2=“不吸烟”, B 代表“患肺癌与否”,B1=“患肺癌”, B2=“未患肺 癌”。 于是,A与B 相互独立,就意味着吸烟与肺癌无关联。
吸烟与不吸烟患者患肺癌的概率应当相等,
即 P(B1/A1)= P(B1/A2)=P(B1)=a+c/n
而 吸烟者出现的概率 P(A1)= a+b/n, 不吸烟者出现的概率 P(A2)= c+d/n,
组别
两组新生儿HBV感染率的比较