当前位置:
文档之家› 卡方检验.分类变量资料统计推断
卡方检验.分类变量资料统计推断
二、四格表资料2检验的专用公式
• 例1
2
(ad bc)2 n
(a b)(c d )(a c)(b d )
(374 126 1364 344)2 2208 450.1 1738 470 7181490
二、四格表资料2检验的校正公式
• 2界值表是根据连续性的理论分布计算出来的,但分类变 量资料属于非连续性分布,由此计算出的2值也是不连续 的,仅是2分布的一种近似,尤其是自由度为1的四格表, 当n与T较小时,所得的P值较小,须做连续性校正:
b
(a b)(b d ) 2 a b c d
d
(c a
d )(b d ) 2 b c d
(a b)(a c)
(a b)(b d )
(c d )(b d )
abcd
abcd
abcd
(ad bc)2 n
(a b)(c d )(a c)(b d)
1 ; (四格表专用公式)
(a
b)(c
d )(a
2 c)(b
d)
二、四格表资料2检验的校正公式
【例10-2】某课题组研究用中药与针刺治疗坐骨神经痛的疗 效,结果如表10-2所示,试分析两组有效率有无差异?
表10-2 中药与针刺治疗坐骨神经痛的疗效 (人)
疗法 中药 针刺 合计
有效 2(4.95) 14(11.05)
16
无效 11(8.05) 15(17.95)
第四节 行列表资料2检验
基本公式:
2
(A T )2 T
和四格表 资料的公 式一致
简化公式:
2 n(
A2 RC 1) nR nc
1.2分布
(2)2具有可加性
若x1
~
2 ,1
,
x2
~
2 , , 2
(x1+ x2)~
2 ( , 1 2)
(3) 2界值(P823,附表8) 自由度一定时,x2值越大, P值越小。
若 2
2 ,
,
P
2.2检验的基本思想
【例10-1】 某课题组对某地区60岁以上男性人群进行现况调查,筛选慢 性支气管炎的危险因素,其中吸烟因素的数据如表10-1所示,试比较该地慢 性支气管炎患者人群(病例组)与非慢性支气管炎患者人群(对照组)的吸 烟率有无差异?
表10-4 各种组合的四格表计算的事件概率
四格表 序号
有效
无效
1
1 12
13 0
2
2 11
12 1
3
3 10
11 2
4
49
10 3
5
58
94
6
67
85
A-T
Pi
6 0.000001
5 0.000105
4 0.00231
3 0.021174
2 0.095282
1 0.228677
四格表 序号
有效
7
7
立事件的概率之积。
抓中三个黑球的概率: P(3)=0.5×0.5×0.5=0.125
抓中两黑一白的概率: P(2)=3×0.125=0.375
定理:在几个互不相容的事件 中,任一事件发生的概率等于
这几个事件的概率之和。
P(X)
0.4
0.3
0.2
0.1
0 0
1 图A 2n=5,3π=0.4 5
5 X
18
卡方值
P=0.05的临界值
1. 2分布
(1)由2分布曲线可见: ①当v≤2,曲线呈L型 ②当v 增加,曲线趋于对称 ③当v→∞时, 2分布趋近正态分布。 当v=1时, 2 =u2
2 0.05(1)
3.84
(1.96)2
u2 0.05/ 2
2 0.01(1)
6.63
(2.5758)2
u2 0.01/ 2
4个实际数据变动时的各种组合之概率Pi,再按检验假 设用单侧或双侧的累计概率P,依据所取的检验水准α
做出推断。
P Pi
二、Fisher确切概率法的计算方法
概率Pi的计算:在四格表的周边合计固定时,实际
组合概率总个数等于“周边合计中最小的合计数+1”
个。
Pi
(a
b)!(c d )!(a c)!(b a!b!c!d !n!
组别
甲法
有效 10(a)
无效 3(b)
合计 有效率(%)
13
76.9
乙法 4(c) 9(d)
13
30.8
合计
14
12
26
53.8
治愈率差(D)= p1-p2=46.1(%)
治愈率差(D)= p1-p2=31.84(%)
1.单侧检验 若两样本p1-p2=D,则取p1-p2≥D的各种组合累积概率为单侧
2.计算检验统计量
T11、T12、T21、T22
470 718 T21 2208 152.8
2 (374 565.2)2 (1364 1172.8)2 (344 152.8)2 (126 317.2)2 450.1
565.2
1172.8
152.8
317.2
3.确定P值,推断结论
查2界值表可知,2
一种连续型分布,按分布的密度函数可给出不同自由
度的一簇分布曲线。2分布的形状依赖于自由度的大
小。
纵高
0.5 0.4 0.3 0.2 0.1 0.0
0
1.2分布
f
( 2 )
1
2(
/
2)
2
2
( / 21)
e2 /2
自由度=1 自由度=2 自由度=3 自由度=6
3 3.84 6 7.81 9
1122.59 15
第十章 χ2检验
二项分布(贝努利分布)
(Bernoulli distribution)
为纪念17世纪法国数学家雅 各布·伯努利(Jacob Bernoulli) (荷兰人)(1654~1705)而命名, 1713年出版《猜度术》,给出 《伯努利数》、《伯努利大数定 律》。
定理:几个相互独立事件 同时发生的概率等于各独
2
(ad bc)2 n
, 1
(a b)(c d )(a c)(b d )
二、四格表资料2检验的专用公式
为了不计算理论频数T, 可由基本公式推导出,直接由 各格子的实际频数(a、b、c、d)计算卡方值的公式:
基本公式: 2 (A T )2 T
a
(a b)(a c) 2 a b c d
7
8
8
6
9* 9
5
10 10
4
11 11
3
无效
6 6 5 7 4 8 3 9 2 10
A-T
Pi
0 0.304902
1 0.2286772 0.Βιβλιοθήκη 952823 0.021174
4 0.00231
1.建立假设、确定检验水准α。
H0:π1 =π2,即两种方法治疗腰椎间盘突出症的有效率相同 H1:π1 ≠π2,即两种方法治疗腰椎间盘突出症的有效率不同 α=0.05
❖ 2.当总例数n≥40且有格子的1≤T<5时,用Pearson校正2
检验(包括基本公式校正法和专用公式校正法)或Fisher确切概 率法。
❖ 3.当n<40或T<1时,只能用Fisher确切概率法。
一、Pearson2检验的步骤
(一)基本公式法
1.建立假设,确定检验水准
H0 :1=2,… H1 :12,… =0.05
d )!
P为概率,a、b、c、d的意义四格表中的实际频数。“!”
为阶乘符号,“a!”是a及小于a的全部正整数的连乘积,0!
=1。
【例10-3】 某医院研究小组将26名病情相似的腰椎间盘突出 症病人随机分为两组,分别采用甲、乙两种方法给予治疗,结 果见表10-3。问两种方法的疗效是否相同?
表10-3 两种方法对腰椎间盘突出症的疗效
2.计算P值。
P P(10 ) P(11) P(12 ) P(13) 0.024
3.确定P值,下结论。
P<0.05,按=0.05检验水准,拒绝H0,接受H1,可以认
为可认为两种方法的疗效不同,甲法的疗效比乙法好。。
当实际观察数(a、b、c、d)出现“0”时,可用
以下公式计算其概率。
f!(n-r)!
国人Karl.Pearson(1857-1936) 于1900年提出的一种具有广泛用途 的统计检验方法。
用途: 两个及多个样本率或构成比的比较 两分类变量间的关联分析 频数分布的拟和优度检验
第一节 2检验概述
一、 2检验的基本思想 2分布(chi-square distribution): 2分布是
样本率的比较演变为实际频数与理论频数之间的比较。
2值大小与四格表资料自由度的有什么关系?
第二节 完全随机设计四格表资料的2检验
❖两样本率(或构成比)的比较即四格表资料,一般根据以下条 件来选择统计方法:
❖ 1.当总例数n≥40且所有格子的T≥5时,用Pearson2检验
(包括基本公式法和专用公式法)或Fisher确切概率法。
检验P值。 2.双侧检验
若两样本|p1-p2|=D,则取|p1-p2|≥D的各种组合累计概率之和 为双侧检验P值。
当a+b=c+d,或a+c=b+d时,四格表的全部组合对称,则可 只算一侧。再乘以2倍即是双侧检验累计的总组合概率。
本例应计算P10、P11、P12、P13
P P(10 ) P(11) P(12 ) P(13) 0.024
第十章 2检验
第一节 2检验概述 第二节 四格表资料的2检验