5. 卡方检验
v−v 理 论 数 编码 u= Φ(u) 组界 v−v sv = Ti u Φ(u) = ∆Φ(u) n 变 量 组界 sv (Vt) 15.7 0 0.5 -2.153 0.0157 0.5 -2.153 0.0157 41.1 1 1.5 -1.582 0.0568 1.5 -1.582 0.0568 99.4 2 2.5 -1.011 0.1562 2.5 -1.011 0.1562 173.8 3 3.5 -0.440 0.3300 3.5 -0.440 0.3300 222.1 4 4.5 4.5 0.131 0.131 0.5521 0.5521 206.6 5 5.5 5.5 0.702 0.702 0.7587 0.7587 140.0 6 6.5 6.5 1.274 1.274 0.8987 0.8987 68.8 7 7.5 7.5 1.845 1.845 0.9675 0.9675 24.7 8 8.5 8.5 2.416 2.416 0.9922 0.9922 7.8 9 1000
2
i 1
k
( O i E i 0 .5 ) Ei
2
§2. 适合度检验
1) O = E 2) 选取显著水平为0.05或0.01; 3) 检验计算: 4) 推断:根据df=k-1,
例:
体色
鲤鱼遗传试验F2观测结果
F2观测尾数
青灰色 1503
红色 99
总数 1602
显性
隐性
检验步骤: 1) 零假设:F2代符合3:1规律;备择假设:不符合 2) 选取显著水平为00.01; 3) 检验计算:由于只有二组数据,自由率为1,需要 矫正。
第一步:分组 第二步:引入编 码变量Vt,计算 出其平均值 v 和 标准差 sV 第三步:确定 编码变量的组 界
组限
编码 观测数 变 量 组界 (Oi) (Vt) 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.5 7 7.5 8 8.5 9
3.92~3.96 4 3.97~4.01 36 4.02~4.06 129 4.07~4.11 188 4.12~4.16 211 4.17~4.21 176 4.22~4.26 142 4.27~4.31 80 4.32~4.36 30 4.37~4.41 4 和 1000
2
301 . 63
2 0 .01,1 6 . 63 301 . 63
资料数据符合二项分布的独立性检验
对于符合二项分布的资料数据,其各种组合的方式 ( 可用 ������ + ������)������ 公式来表示,而每种组合的概率也符合 ������ P x = ������������ ������ ������ ������������−������ 公式。
������
实际数 ������ = 观测值 理论数 ������ = ������������ ������������ ������������−������ ������
������������ =
������=������ ������
������������ − ������������ ������������
i 1
k
df=k-1
卡方检验的步骤:
1) 提出无效假设,O = E;备择假设,O ≠ E 2) 选取显著水平为0.05或0.01; 3) 检验计算:求得各个理论次数E,差根据各实际次 数计算出样本的卡方值。 4) 推断:根据df=k-1,从卡方表上查得其对应的卡方 值,通过对两卡方值的比较,对检验结果进行推断。
2
2:1
3:1 15:1 9:7 r:1 r:m
A 2a A 3a
3n
1 .5 3
2
2
2n
A 15 a
15 n
8
2
7 A 9a
63 n
8
2
r 1 A m 2 rn
2
m r mA ra 2 rmn
v=
Oi Vt n
sV =
( Oi Vt )2 (Oi Vt )2 − n (n − 1)
第四步:标准 化求出各组界 的标准化值和 累积概率
编码 观测数 组限 变量 (Oi) 观测数 组限 (Vt) (Oi) 3.92~3.96 4 0 3.92~3.96 4 3.97~4.01 36 1 3.97~4.01 36 4.02~4.06 129 2 4.02~4.06 129 4.07~4.11 188 3 4.07~4.11 188
������
������������ = ������
������=������
������������ − ������������ − ������. ������ ������������
������
检验两组资料与某种比率符合度的卡方公式
理论比率(显性:隐性) 1:1 卡方计算公式
Aa
n 1
50 33 0 .5 250 267 时,0.01水平的卡方值是 0 .5 33 267 6.63,而结果远大于这个值, 2 因此认为吸烟与患病是有关2 5 22 0 .5 195 178 0 .5 联的。 22 178
第五章 卡方检验
本章提要:
同质性检验
卡方检验
适合度检验 独立性检验
都适用于离散型资料的假设检验, 其基本原理是通过卡方值的大小 来检验实际观测值与理论值之间 的偏离程度。前者是比较观测值 理论值是否符合的假设检验,而 后者是判断两个或两个以上因素 之间是否具有关联关系的假设检 验。
计量资料
计数资料
2
(
i 1
k
x
2
)
1
2
(x )
i 1
2
k
2
标准离差
2
1
2
(x x)
i 1
k
又因为:
s
2
x x 2
i 1
k
k 1
2
df s
2
2
( k 1) s
2
2
基本原理
对计数资料进行卡方检验的基本原理 是应用理论值(expected valued, E)与观 察值(observed valued, O)之间的篇离程 度来决定卡方值的大小。当:
偏差越大----越不符合 偏差越小----越符合 完全相等----则表明理论值与观察值完 全符合。
简单方法: 比较两者的差数大小 卡方检验: 差数的平方和
某动物育种试验F2的分离情况
试验一 试验二
观测值O 204 24
2
理论值E 200 28
(O i E i ) Ei
2
O-E 4 -4
各种观测值的概率亦符合
实际数 ������ = 观测值 理论数 ������ = F ui n
u
F ui =
f u du
−∞
组限
例:
正态分布 检验
观测数 (Oi) 4 36 129 188 211 176 142 80 30 4 1000
3.92~3.96 3.97~4.01 4.02~4.06 4.07~4.11 4.12~4.16 4.17~4.21 4.22~4.26 4.27~4.31 4.32~4.36 4.37~4.41 和
2
其中:A为显性实 际观测值,a为隐 性实际观察值, n=A+a.
例:
实际观测数 实际观测数
豌豆杂交实验F2分离结果
黄园 黄园 315 315
黄皱 黄皱 101 101
绿园 绿园 108 108
绿皱 绿皱 32 32
理论频数
理论数 O-E (O-E)2/E
9/16
312.75 2.25 0.016
对χ2 的 贡献 8.7 0.6 8.8 1.2 0.6 4.5 0.0 1.8 1.1 1.9 29.2
对资料组数多于两组的卡方值,还可通过下面的简式进 行计算:
2
1
n
O
2 i
pi
n
其中,Oi为第i组的实际观测数,pi为第i组的理 论比率,总次数记为n。
2
16 O1 3O 2 3O 3 9 O 4
E 1 1602 E 2 1602
2
3 4 1 4
1201 . 5 400 . 5
2
i 1
k
( O i E i 0 .5 ) Ei
( 1503 1201 . 5 0 . 5 ) 1201 . 5
2
( 99 400 . 5 0 . 5 ) 400 . 5
?
在零假设成立条件下,r1组与r2组的构成则没有任何区别, 因此我们可以将他们看成一个总体。则有:
c1的频率为: Fc
1 1
O11 O 21 T C 1 R1 T
r1组中c1的例数为: Fc n
Ei j
Ci R j T
例:
不同人群 吸烟人群 不吸烟人群 总和(Cj)
不同人群患气管炎病调查结果
2 2 2
2
9n
2 2
n
2 2
16 ( 315 3 101 3 108 9 32 ) 9 556
556
0 . 470
§3. 独立性检验
1) 提出假设
2) 选取显著水平为0.05或0.01;
3) 检验计算:
4) 推断
常用的独立性检验形式: 列联表(contingency table)