[理学]09卡方检验
i 1
k
Ai Ti
Ti
2
~ 2 (k 1 m )
卡方分布*
设随机变量Z1,Z2,…Zk,相互独立,且 都服从标准正态分布N (0,1)。那么,我们 将k个独立标准正态变量的平方和称为卡方 变量,它满足自由度为k的卡方分布,记为:
x1 x2
由离散型资料按卡方检验公式式算得的卡方值均有偏大的 趋势(使得我们偏向于拒绝原假设),尤其是当自由度=1 而且理论数较小时,偏差较大 Frank Yates(1934)提出对卡方值进行连续性矫正 矫正方法是,先将各组实际观察数与理论数的差数的绝对 值分别减去0.5,然后再平方进行计算。矫正后的卡方值记 为 2c
组段 122.0~ 126.0~ 130.0~ …… 150.0~ 154.0~ 158.0 合计
A 5 8 10 …… 6
Fx1 0.00832 0.03240 0.09704 …… 0.92522
Fx2 0.03240 0.09704 0.22642 …… 0.97665
P= Fx2 Fx1 0.02408 0.06463 0.12939 …… 0.05143
完全随机设计的四格表卡方检验
治疗 药物 洛赛克 雷尼替丁 合计
疗效 愈合 (理论有效)
64 (57.84) 51 (57.16) 115
未愈合 (理论无效)
21 (27.16) 33 (26.84) 54
合计
85 84 169
完全随机设计的四格表卡方检验
H0:两总体率相同 H1:两总体率不同 a=0.05 2=∑(A-T)2/T计算卡方值为4.13 自由度v=k-1-m;此处因为计算卡方时使用了四个格子中 的实际数,故k=4;m为估计理论数时用到的参数,在本 题中为两组各自的有效率,所以m=2;v=4-1-2=1 查表得: 20.05,1=3.84,所以P<0.05,在a=0.05的水准上拒 绝H0,认为两种治疗方案的有效率不同
合计
65
15
80
卡方检验的基本思想
从表中可见两疗法的有效率不相同,那么这种差 别究竟是由于抽样误差还是由于药物疗效的确有 差别? 不妨假设两药物的疗效是相同的,那么此时两种 药物的疗效之差仅仅来源于抽样误差,我们可以 使用前面介绍的二项分布的两个大样本率比较的 Z检验分析 还可以考虑使用本章节介绍的卡方检验分析
二、完全随机设计的四格表卡方检验
如例9-2,在表格中有两组,每组的结果 为二分类结果(2×2),这样的表格称为 四格表,其通用格式表达如下:
阳性 阴性 合计 分组甲 a 分组乙 c b d a+b c+d N
合 计 ac bd
分类资料的列联表(contingency table)
如果有R个分组(处理因素),每组的结果 又有C个分类(结局),则所作的表格有R 行、C列,称之为R×C列联表(R×C contingency table)
卡方分布的形状依赖于自由度ν 的大小: 当自由度ν≤2时,曲线呈“L”型; 随着ν 的增加,曲线逐渐趋于对称; 当自由度ν →∞时,曲线逼近于正态曲线
卡方分布的曲线下面积定义
当ν 确定后,卡方分布曲线下右侧尾部的面积为a时,横 轴上相应的卡方值,记为2a,,如下图;实际应用时,可根 据ν 由附表8查得
2 c i 1
k
A T
i
i
0.5
2
Ti
四格表卡方检验专用公式
原始卡方公式需要计算理论数,略显麻烦 在四格表资料中,可以使用专用公式,省略计算理论 数的过程 专用公式如下:
a c
b
a+b c+d N
2
d
ac bd
2
ad bc n a b c d a c b d
化疗 方法
单纯化疗 复合化疗 合计 缓解情况 缓解 (理论缓解) 2(4.8) 14(11.2) 16 未缓解 (理论未缓解) 10(7.2) 14(16.8) 24 合计
12 28 40
四格表卡方检验的校正
在上表中最小的理论数应该是“单纯化疗” “缓解”所对应,因为它所对应的行、列 合计值最小;2所对应的理论数为4.8,小于 5,而且例数不小于40,所以本题应该作校 正 校正后卡方值为2.624(未校正时为3.889), 故尚不认为两方案缓解情况不同
四格表卡方检验是最简单的列联表(2分组 ×2分类)
完全随机设计的四格表卡方检验
与前述拟合优度检验相似,在计算卡方值之前需要先估计 理论频数 理论频数的计算:
ac a所对应的列合计值 a所对应的行合计值 (a b) N 总例数 bd b所对应的列合计值 b所对应的行合计值 Tb (a b ) N 总例数 ac c所对应的列合计值 c所对应的行合计值 Tc (c d ) N 总例数 bd d所对应的列合计值 d所对应的行合计值 Td (c d ) N 总例数 Ta
2 2 2
xk
2
Z1 Z 2
2 2
Zk Z 2
2 1
k
2 ~ 2 (k )
卡方分布图形特征*
卡方分布是一种连续型分布:按分布的密度函数可给出 自由度=1,2,3,……的一簇分布曲线
=1 =2
=3
=4 =6
卡方分布图形特征*
如果2> 2a,,曲线下面积小于a;反之则大于a
a 2(a,)
Karl. Pearson
Carl Pearson or Karl Pearson (1857-1936) Journal Biometrika Pearson product-moment correlation coefficient、 Linear regression and correlation、Pearson's chi-square test
卡方检验的基本思想
既然假设两药的总体疗效相同,可以考虑将两组 样本资料合并,计算一个“合计率”,作为总体 率的估计 两药的合计有效率Pc=65/80=81.25% 在此合计有效率的情况下,资料45例患者应该有 Pc×45=36.5625例有效,(1-Pc)×45 =8.4375例无 效;同理如果资料35例患者,应该有28.4375例有 效,6.5625例无效 将上述数据称为疗效的理论数,列表如下:
理论数小于5, 合并这两段
T=n×P 2.8900 7.7557 15.5263 …… 6.1717
(A-T)2/T 1.54035 0.00769 1.96698 …… 0.00477
理论数小于5, 合并这两段
5 —
0.97665 —
0.99441 —
0.01776 —
2.1309 —
3.86289
卡方检验的基本思想
治疗 药物 疗效 有效 (理论有效) 41 (36.5625) 24 (28.4375) 65 无效 (理论无效) 4 (8.4375) 11 (6.5625) 15 45 35 80 合计
兰芩口服液 银黄口服液 合计
卡方检验的基本思想
从表中可见,疗效的理论数(根据假设两 总体疗效相同得到)与实际人数存在差别 如果我们的假设成立的话,这种差别属于 抽样误差,应该不会很大;反之,如果这 种差别很悬殊,则因该怀疑原假设不成立 如何评价“悬殊”与“不悬殊”? 使用卡方检验
卡方检验的基本思想
卡方检验基本公式:
(实际频数 理论频数)2 ( A T )2 理论频数 T
2
如果假设成立,实际数与理论数的差距应该较小,按照上 式计算的卡方值因该接近0,如果卡方值远离0则应该拒绝 原假设 卡方值满足卡方分布,求得相应卡方值的曲线下面积就可 以得到P值,进而作结论 可见卡方检验的基本原理就是分析实际频数与根据假设构 建的理论频数间的吻合程度(拟合度)
一、拟合优度检验 (goodness of fit test)
拟合优度检验旨在根据样本的频数分布检 验其总体分布是否等于某给定的理论分布 例如:能否判断120个男童身高满足正态分 布(例9-1)? 解答思路:假设身高满足正态,依据正态 分布估计不同身高区间对应的理论人数, 与实际观察人数比较,计算卡方统计量, 如果卡方值较大则拒绝原假设
第九讲:卡方检验
卡方分布(chi-square distribution)*
1875年,F. Helmet得出:来自正态总体的样本方
差的分布服从卡方分布:
( n 1) S 2
2 1900年K. Pearson又从检验分布的拟合优度
~ 2 ( n 1)
(goodness of fit)中也发现了这一相同的卡方分布, 可用于检验资料的实际频数和理论频数是否相符 等问题:
四格表卡方检验的理论数要求
当理论频数T有T≥5,而且n≥40时,卡方公 式不需要校正,直接使用 当理论频数T有1≤T<5,而且n≥40时,需 要校正,或者用精确概率法计算概率值 当理论频数T有T<1,或者n<40时,只可 用精确概率法计算概率值
Yates' correction for continuity
关于四格表卡方检验的一些说明
关于自由度:在列联表资料中(四格表也 是一种列联表),自由度可以简单地表达 为(行数-1)(列数-1),即(R-1)(C-1);其含义 为列联表中可以自由取值的格子个数 关于理论数:如同拟合优度检验中提到的, 如果理论数较小时,卡方检验需要进行连 续性校正,甚至由于理论数过小而无法进 行!