当前位置：文档之家› [理学]09卡方检验

[理学]09卡方检验

i 1
k
Ai Ti
Ti
2
~ 2 (k 1 m )
卡方分布*

设随机变量Z1，Z2，…Zk，相互独立，且都服从标准正态分布N (0，1)。那么，我们将k个独立标准正态变量的平方和称为卡方变量，它满足自由度为k的卡方分布，记为：
x1 x2

由离散型资料按卡方检验公式式算得的卡方值均有偏大的趋势（使得我们偏向于拒绝原假设），尤其是当自由度=1 而且理论数较小时，偏差较大 Frank Yates（1934）提出对卡方值进行连续性矫正矫正方法是，先将各组实际观察数与理论数的差数的绝对值分别减去0.5，然后再平方进行计算。矫正后的卡方值记为 2c

组段 122.0~ 126.0~ 130.0~ …… 150.0~ 154.0~ 158.0 合计
A 5 8 10 …… 6
Fx1 0.00832 0.03240 0.09704 …… 0.92522
Fx2 0.03240 0.09704 0.22642 …… 0.97665
P= Fx2 Fx1 0.02408 0.06463 0.12939 …… 0.05143
完全随机设计的四格表卡方检验
治疗药物洛赛克雷尼替丁合计
疗效愈合 (理论有效)
64 (57.84) 51 (57.16) 115
未愈合 (理论无效)
21 (27.16) 33 (26.84) 54
合计
85 84 169
完全随机设计的四格表卡方检验

H0：两总体率相同 H1：两总体率不同 a=0.05 2=∑(A-T)2/T计算卡方值为4.13 自由度v=k-1-m；此处因为计算卡方时使用了四个格子中的实际数，故k=4；m为估计理论数时用到的参数，在本题中为两组各自的有效率，所以m=2；v=4-1-2=1 查表得： 20.05,1=3.84，所以P<0.05，在a=0.05的水准上拒绝H0，认为两种治疗方案的有效率不同
合计
65
15
80
卡方检验的基本思想

从表中可见两疗法的有效率不相同，那么这种差别究竟是由于抽样误差还是由于药物疗效的确有差别？不妨假设两药物的疗效是相同的，那么此时两种药物的疗效之差仅仅来源于抽样误差，我们可以使用前面介绍的二项分布的两个大样本率比较的 Z检验分析还可以考虑使用本章节介绍的卡方检验分析
二、完全随机设计的四格表卡方检验

如例9－2，在表格中有两组，每组的结果为二分类结果（2×2），这样的表格称为四格表，其通用格式表达如下：
阳性阴性合计分组甲 a 分组乙 c b d a+b c+d N
合计 ac bd
分类资料的列联表(contingency table)

如果有R个分组（处理因素），每组的结果又有C个分类（结局），则所作的表格有R 行、C列，称之为R×C列联表(R×C contingency table)

卡方分布的形状依赖于自由度ν 的大小：当自由度ν≤2时，曲线呈“L”型；随着ν 的增加，曲线逐渐趋于对称；当自由度ν →∞时，曲线逼近于正态曲线
卡方分布的曲线下面积定义

当ν 确定后，卡方分布曲线下右侧尾部的面积为a时，横轴上相应的卡方值，记为2a,，如下图;实际应用时，可根据ν 由附表8查得

2 c i 1
k
A T
i
i
0.5
2
Ti
四格表卡方检验专用公式

原始卡方公式需要计算理论数，略显麻烦在四格表资料中，可以使用专用公式，省略计算理论数的过程专用公式如下：

a c
b
a+b c+d N
2
d
ac bd

2
ad bc n a b c d a c b d
化疗方法
单纯化疗复合化疗合计缓解情况缓解 (理论缓解) 2(4.8) 14(11.2) 16 未缓解 (理论未缓解) 10(7.2) 14(16.8) 24 合计
12 28 40
四格表卡方检验的校正
在上表中最小的理论数应该是“单纯化疗” “缓解”所对应，因为它所对应的行、列合计值最小；2所对应的理论数为4.8，小于 5，而且例数不小于40，所以本题应该作校正校正后卡方值为2.624（未校正时为3.889），故尚不认为两方案缓解情况不同

四格表卡方检验是最简单的列联表(2分组 ×2分类)
完全随机设计的四格表卡方检验

与前述拟合优度检验相似，在计算卡方值之前需要先估计理论频数理论频数的计算：
ac a所对应的列合计值 a所对应的行合计值 (a b) N 总例数 bd b所对应的列合计值 b所对应的行合计值 Tb (a b ) N 总例数 ac c所对应的列合计值 c所对应的行合计值 Tc (c d ) N 总例数 bd d所对应的列合计值 d所对应的行合计值 Td (c d ) N 总例数 Ta
2 2 2
xk
2
Z1 Z 2
2 2
Zk Z 2
2 1
k
2 ~ 2 (k )
卡方分布图形特征*

卡方分布是一种连续型分布：按分布的密度函数可给出自由度=1，2，3，……的一簇分布曲线
=1 =2
=3
=4 =6
卡方分布图形特征*

如果2> 2a,，曲线下面积小于a；反之则大于a
a 2(a,)
Karl. Pearson

Carl Pearson or Karl Pearson (1857-1936) Journal Biometrika Pearson product-moment correlation coefficient、 Linear regression and correlation、Pearson's chi-square test
卡方检验的基本思想

既然假设两药的总体疗效相同，可以考虑将两组样本资料合并，计算一个“合计率”，作为总体率的估计两药的合计有效率Pc=65/80=81.25% 在此合计有效率的情况下，资料45例患者应该有 Pc×45=36.5625例有效，(1-Pc)×45 =8.4375例无效；同理如果资料35例患者，应该有28.4375例有效，6.5625例无效将上述数据称为疗效的理论数，列表如下：
理论数小于5，合并这两段
T=n×P 2.8900 7.7557 15.5263 …… 6.1717
(A-T)2/T 1.54035 0.00769 1.96698 …… 0.00477
理论数小于5，合并这两段
5 —
0.97665 —
0.99441 —
0.01776 —
2.1309 —
3.86289
卡方检验的基本思想
治疗药物疗效有效 (理论有效) 41 (36.5625) 24 (28.4375) 65 无效 (理论无效) 4 (8.4375) 11 (6.5625) 15 45 35 80 合计
兰芩口服液银黄口服液合计
卡方检验的基本思想
从表中可见，疗效的理论数（根据假设两总体疗效相同得到）与实际人数存在差别如果我们的假设成立的话，这种差别属于抽样误差，应该不会很大；反之，如果这种差别很悬殊，则因该怀疑原假设不成立如何评价“悬殊”与“不悬殊”？使用卡方检验

卡方检验的基本思想

卡方检验基本公式：
(实际频数理论频数)2 ( A T )2 理论频数 T
2

如果假设成立，实际数与理论数的差距应该较小，按照上式计算的卡方值因该接近0，如果卡方值远离0则应该拒绝原假设卡方值满足卡方分布，求得相应卡方值的曲线下面积就可以得到P值，进而作结论可见卡方检验的基本原理就是分析实际频数与根据假设构建的理论频数间的吻合程度（拟合度）
一、拟合优度检验 (goodness of fit test)
拟合优度检验旨在根据样本的频数分布检验其总体分布是否等于某给定的理论分布例如：能否判断120个男童身高满足正态分布（例9-1）？解答思路：假设身高满足正态，依据正态分布估计不同身高区间对应的理论人数，与实际观察人数比较，计算卡方统计量，如果卡方值较大则拒绝原假设
第九讲：卡方检验
卡方分布(chi-square distribution)*

1875年，F. Helmet得出：来自正态总体的样本方
差的分布服从卡方分布：
( n 1) S 2

2 1900年K. Pearson又从检验分布的拟合优度
~ 2 ( n 1)
(goodness of fit)中也发现了这一相同的卡方分布，可用于检验资料的实际频数和理论频数是否相符等问题：

四格表卡方检验的理论数要求
当理论频数T有T≥5，而且n≥40时，卡方公式不需要校正，直接使用当理论频数T有1≤T＜5，而且n≥40时，需要校正，或者用精确概率法计算概率值当理论频数T有T＜1，或者n＜40时，只可用精确概率法计算概率值

Yates' correction for continuity
关于四格表卡方检验的一些说明
关于自由度：在列联表资料中（四格表也是一种列联表），自由度可以简单地表达为(行数-1)(列数-1)，即(R-1)(C-1)；其含义为列联表中可以自由取值的格子个数关于理论数：如同拟合优度检验中提到的，如果理论数较小时，卡方检验需要进行连续性校正，甚至由于理论数过小而无法进行！

e商务文档

[理学]09卡方检验

相关文档推荐：