22第六章卡方检验
2 0.05
≤ (或
2
2 )< c
2 0.01 ,0.01<
p≤0.05,表明实际观察次数与理论次数差异显著,
实际观察的属性类别分配显著不符合已知属性类
别分配的理论或学说;
若 (或
2
2 c)≥
2 ,p 0.01
≤0.01,表明实际
观察次数与理论次数差异极显著,实际观察的 属性类别分配极显著不符合已知属性类别分配
第二节
适合性检验
一、适合性检验的意义
判断实际观察的属性类别分配是否符合
已知属性类别分配理论或学说的假设检验称
为适合性检验 。
在适合性检验中,无效假设
H0
:实际观
察的属性类别分配符合已知属性类别分配的理 论或学说; 备择假设
HA
:实际观察的属性类
别分配不符合已知属性类别分配的理论或学说。
在无效假设成立的条件下,按已知属性类 别分配的理论或学说计算各属性类别的理论次 数。 适合性检验的自由度等于属性类别数减1。 若属性类别数为 k,则适合性检验的自由度为 k-1。然后根据(6-1)或(6-2)式计 p T. i
2 i
其中,Ai为第 i 组的实际观察次数,pi 为 第 i 组的理论比例,T. 为总观察次数: T. Ai
将【例6· 2】按(6-3)式计算 :
2
A 1 T. T. pi
2 2 2 2 2 1 491 76 90 86 743 743 9 / 16 3 / 16 3 / 16 1 / 16
2 c
1650
2 c
1650
3、计算
c2
( A T 0.5)2 ( 390 412.5 0.5) 2 412.5
T (1260 1237.5 0.5) 2 1237.5
1.5644
4、统计推断
实际计算的
2 c =1.5644
<
2 0.05(1)
2
2
2 ( x x ) i i 1
n
2
(n 1) S 2
2
图6-1 几个自由度的概率分布密度曲线
三、 连续性矫正
2
间断型次数资料由(6-1)式定义的 ,即
2
统计学家K. Pearson(1899)发现,对于
2
(A T )
i 1 i i
k
Ti 近似地服从自由度为 df k 1
6. 求 2值
2 ( f T ) 2 T (9 7.50) 2 (10 11.26) 2 (14 13.83) 2 (11 9.65) 2 7.50 11.26 13.83 9.65 0.8688
7. 确定自由度:df = k-3 = 7-3 = 4 8. 统计推断 2 由df=4,查 表得: 02.05( 4) 9.49,实际计 2 算的 2 0.8688 0 .05( 4 ) 9.49,故p>0.05, 表明各组实际次数与正态分布计算的理论次数 差异不显著,湘菊梨单株产量服从正态分布。
② 符合3:1,实际出现的 705:224是抽样 误差造成的。 到底属于哪种情况 ,需寻求合适的统计 数进行统计分析,即进行显著性检验。
表6-1 豌豆杂交F2花色分离的实际观察次数与理论次数 花色 实际观察次数(A) 理论次数(T) A-T (A-T)2/T 705(A1) 696.75(T1) +8.25 0.0977 红色 白色 合计 224(A2) 929 232.25(T2) 929 -8.25 0 0.2931 0.3908
第六章 检验
2
对次数资料进行适合性检验和独
立性检验的 检验法。
2
第一节 统计数
2
一、 统计数的意义
2
豌豆花色遗传中,红花和白花是受一 孟德尔 (1865)在杂交 F2 群体中随机调查 对等位基因控制的一对相对性状,杂交 F2 了929株,其中705株为红花,224株为白花。 植株的理论比例为 红: 白=3:1。 这一结果是否符合3:1 的理论比例。
先将A1-T1、A2-T2平方,然后再求和,即 由表6-12 看出,两组的差数A1-T1、A2-T2 计算 ( A T ) 。 之和等于0,即 ( A T ) 0 。因此, ( A T ) 不 2 ( A T ) 数值的大小可用来表示实际观察 能用来表示实际观察次数与理论次数符合程度 次数与理论次数的相差程度 。 的大小。
2 2
的连续型随机变量 分布。由间断型次数资 料按(6-1)式算得的 值均有偏大的趋势, 尤其是当 df 1 时,偏差较大。
F. Yates(1934)提出对 2进行连续性矫正。 矫正方法是,先将各组实际观察次数与理 论次数的差数的绝对值分别减去0.5,然后再平 方进行计算。矫正后的 记为 ,即
稃尖无色糯稻:T4=743×1/16=46.44,
或 T4=743-417.94-139.31-139.31
=46.44。
3、计算
2
2
2
(A T) T 2 2 (491 417.94) (76 139.31) 417.94 139.31 2 2 (90 139.31) (86 46.44) 139.31 46.44 92.6961
4、统计推断
11.34 , 故 p <0.01,否定 H 0,接受 H ,表明该水稻 A
= 92.6961 >
2 0.01(3)
因
2
稃尖和糯性性状在 F2 的实际观察次数之比极
显著不符合 9:3:3:1 的理论比例。
这一结果表明,该两对等位基因并非完全
显性、无连锁。
当属性类别数大于 2 时,可利用下面简 化公式计算 2:
2
将所计算得的 比较:
或
2
2 c。
值表(附表7)所得的临界 值: 0.05 或
2 c值与根据自由度 2 2
k-1查
2
2 0.01
若 (或
2
2 c)
2 < 0.05 ,p>0.05,表明实际观
察次数与理论次数差异不显著,可以认为实际观 察的属性类别分配符合已知属性类别分配的理论 或学说; 若
3.84,
故 p>0.05,不能否定 H 0,表明实际观察次数
与理论次数差异不显著。
可以认为大豆花色在F2的这一结果是符合
3:1 的理论比例,即大豆紫花与白花这一相对
性状在 F2 的分离比例符合一对等位基因的遗
传规律。
【例6· 2】两对等位基因控制的两对相对性
状遗传。如果两对等位基因完全显性且无连锁,
相差 8.25。
如果把各组的 ( A T )2 除以相应的理论次
数,即 ( A T ) / T,并记为 ,即
2
2
2
=
( Ai Ti ) Ti i 1
k
2
其中,k 为组数, Ai 为第 i 组的实际观察次数, 为第 i 组的理论次数。 2 是度量实际观察次数与理论次数偏离程
若符合理论比例 红:白=3:1,则929株中的
红花株数应为: 929×3/4=696.75(株) 白花株数应为: 929×1/4=232.25(株) 实际上获得的是红:白=705:224=3.147:1。 实际观察次数与理论次数有差异,各相差
8.25株。
产生这种情况有两种可能:
① 红花植株与白花植株的比例不符合3:1;
2 i
16 4912 76 2 90 2 2 86 743 743 9 3 3 92.7063
用(6-3)式计算的 与用(6-1)式计算
2
的 因舍入误差略有不同。
2
用(6-3)式计算 不需计算理论次数,
2
且舍入误差小。
三、资料分布类型的适合性检验
【例6· 2】根据100株湘菊梨单株产量资料
检验湘菊梨单株产量是否服从正态分布。
1. 将资料(原始数据)整理成次数分布表
2. 计算标准正态离差
3. 求各组的累积概率 4. 求每一组的概率 5. 计算理论次数
表6-3 湘菊梨单株产量服从正态分布的适合性检验表 ① ② ③ ④ ⑤ ⑥ ⑦ ⑧ 组限 组中值 实际次 l x u l x 累积概 各组概 理论次 S 数( f ) 率F(u) 率(p) 数(T) 47 ~ 48.5 3 -13.92 -2.44 0.0073 0.0201 2.01 7.50 9 50 ~ 51.5 6 -10.92 -1.91 0.0274 0.0549 5.49 53 ~ 54.5 10 -7.92 -1.39 0.0823 0.1126 11.26 56 ~ 57.5 18 -4.92 -0.86 0.1949 0.1702 17.20 59 ~ 60.5 21 -1.92 -0.34 0.3669 0.2084 20.84 62 ~ 63.5 17 1.08 0.19 0.5753 0.1889 18.89 65 ~ 66.5 14 4.08 0.72 0.7642 0.1283 13.83 68 ~ 69.5 7 7.08 1.24 0.8925 0.0691 6.91 9.65 11 71 ~ 72.5 4 10.08 1.77 0.9616 0.0274 2.74 ≥74 13.08 2.29 0.9890 100 1 100 合计
实际观测得来的资料是否服从某种理论分布,可 应用适合性检验来判断。 在正态分布的适合性检验中,理论次数是由样本 总次数、平均数与标准差决定的,用去 3 个自由度, 所以自由度为k-3(k为组数)。 在二项分布的适合性检验中,理论次数由总次数 与均数求得,丧失 2 个自由度,所以自由度为 k-2。 当组段内理论次数小于 5 时,必须与相邻组段进 行合并,直至合并的理论次数大于 5 时为止。