当前位置：文档之家› 1.2独立性检验

1.2独立性检验

9965(7775 49 42 2099) k 56.632. 7817 2148 9874 91
2
这个值到底能告诉我们什么呢？
统计学家经过研究发现，在H0成立的情况下，
P( K 6.635) 0.01
2
即在 H 0 成立的情况下，K2 大于6.635概率非常小，近似为0.01
不吸烟吸烟总计
表1-8
a c a+c
b d b+d
a+b c+d a+b+c+d
如果“吸烟与患肺癌没有关系”，那么吸烟样本中不患肺癌的比例应该与不吸烟样本中相应的比例差不多，即 a c
ab cd a(c d ) c( Nhomakorabea b)
ad bc 0
因此|ad-bc|越小，说明吸烟与患肺癌之间关系越弱； |ad-bc|越大，说明吸烟与患肺癌之间关系越强.
一般地，假设有两个分类变量X和Y，它们的可能取值分别为 {x1,x2} 和 {y1,y2}, 其样本频数列联表（称为 2x2列联表）为： y1 x1 x2 总计 a c a+c y2 b d b+d 总计 a+b c+d a+b+c+d
若要判断结论为： H1 ：“ X 与 Y 有关系”，如果通过直 c 接计算或观察等高条形图发现 a 和相差很大， cd ab 就判段两个分类变量之间有关系.
怎样判断K² 的观测值k是大还是小呢？这仅需确定一个正数 k 0 ，当 k k 0 时就认为IK² 的观测值k大，此时相应于的判断规则为：如果k k 0 ，就认为
“两分类变量有关系”；否则就认为“两分类变量没有 k k 0 为一个判断规则的临界值关系”.我们称这样的 .按照上述规则，把“两个分类变量没有关系”错误地判断为 “两个分类变量有关系”的概率为 P(K 2 k0 )
为了使不同样本容量的数据有统一的评判标准，基于上述分析，我们构造一个随机变量
n(ad bc ) K (a b)(c d )(a c )(b d )
2 2
（ 1 ）
其中n=a+b+c+d为样本容量. 若H0成立，即“吸烟与患肺癌没有关系”，则K2应很小. 由表1-7中数据，利用公式（1）计算得K2的观测值为：
0.025 0.010 0.005 0.001
k
0.445 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
（2）由观测数据计算得到随机变量K2的观测值k；（3）如果k> k0 ，就以（1-P(K2≥ k0)）×100%的把握认为“X与Y有关系”；否则就说样本观测数据没有提供“X与Y有关系”的充分证据.
0
上面这种利用随机变量 K2 来确定在多大程度上可以
认为“两个分类变量有关系”的方法称为两个分类变量
的独立性检验. 独立性检验的基本思想：
类似于数学上的反证法，对“两个分类变量有关系” 这一结论成立的可信程度的判断：（ 1 ）假设该结论不成立，即假设结论“两个分类变量没有关系” 成立. （2）在假设条件下，计算构造的随机变量K2，如果有观测数据计算得到的K2很大，则在一定程度上说明假设不合理. （3）根据随机变量K2的含义，可以通过（2）式评价假设不合理的程度，由实际计算出的k>6.635，说明假设不合理的程度约为 99%，即“两个分类有关系”这一结论成立的可信程度约为99%.
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 秃顶不秃顶
相应的等高条形图如图所示，从图中可以看出秃顶样本中
不患心脏病患心脏病
患心脏病的频率明星高于不秃顶样本中换心脏病的频率，因此可以认为“秃顶与患心脏病有关”.
根据列联表中的数据，得到： 2 1437 (214 597 175 451) 2 K 16.373 6.635. 389 1048 665 772 所以有99%的把握认为“秃顶患心脏病有关”.
等高条形图
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 不吸烟吸烟
等高条形图更清晰地表达了两种情况下患肺癌的比例.
患肺癌不患肺癌
其中两个浅色条的高分别表示吸烟和不吸烟样本中不患肺癌的频率；两个深色条的高分别表示吸烟和不吸烟样本中患肺癌的频率，比较图中两个深色条的高可以发现，在吸烟样本中患肺癌的频率要高一些，因此直观上可以认为吸烟跟容易引发肺癌
探究
为了调查吸烟是否对肺癌有影响，某肿瘤研究所随机地调查了9965人，得到如下结果（单位：人）
表1-7吸烟与肺癌列联表不患肺癌患肺癌总计不吸烟 7775 42 7817
吸烟
总计
2099
9874
49
91
2148
9965
那么吸烟是否对患肺癌有影响？
像表1-7这样列出两个分类变量的频数表，称为列联表 . 有吸烟和患肺癌列联表可以粗略估计出，在不吸烟者中，有 0.54% 患有肺癌；在吸烟者中，有 2.28% 患有肺癌。因此，直观上可以得到结论：吸烟者和不吸烟者患肺癌的可能性存在差异. 与表格相比，图形跟能直观地反映出两个变量间是否相互影响，常用等高条形图展示列联表数据的频率特征.
1.2独立性检验的基本思想及其初步应用
对于性别变量，其取值为男和女两种，这种变量的不同“值”表示个体所属的不同类别，像这样的变量称为分类变量. 分类变量在现实生活中是大量存在的，如是否吸烟，是否患肺癌，宗教信仰，国别，年龄，出生月份等等。在日常生活中，主要考虑分类变量之间是否有关系：例如，吸烟是否与患肺癌有关系？性别是否对于喜欢数学课程有影响？等等.
上面这种直观判断的不足之处在于不能给出推断“两个分类变量有关系”犯错误的概率，而利用独立性检验来考察两个分类变量是否有关系，能较精确地给出这种判断的可靠程度. 具体作法是：（1）根据实际问题需要的可信程度确定临界值k0；
P( K 2 k ) 0.50 0.40
0.5
0.15
0.10
0.05
现在的K2=56.632的观测值远大于6.635，所以有理由判定H0不成立，即认为“吸烟于患肺癌有关系”.但是这种判断还犯错误，犯错误的概率不会超过0.010
在上述过程中，实际上是借助于随机变量K2的观测值k, 建立一个判断H0是否成立的规则：如果k≥6.635，就判断 H0不成立，即认为“吸烟与患肺癌有关系”；否则就判定 H0成立，即认为“吸烟与患肺癌没有关系” 在改规则下，把结论“H0成立”错判为“H0不成立” 2 的概率不会超过 P( K 6.635) 0.01
例1.在某医院，因为患心脏病而住院的 665名男性病人中，有214 人秃顶；而另外 772 名不是因为患心脏病而住院的男性病人中有 175 人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏病是否有关系？你所得的结论在什么范围内有效？
解：根据题目所给数据得到如下列联表：患心脏病不患心脏病总计秃顶 214 175 389 不秃顶 451 597 1048 总计 665 772 1437
这里概率计算的前提是H0成立
上面解决问题的想法类似于反证法.要判断“两个分类变量有关系”，首先假设该结论不成立，即：H0：两个分类变量没有关系成立.在该假设下我们所构造的随机变量 K² 应该很小，如果有观测数据计算得到K² 的观测值k很大，则断言H0不成立，即认为“两个分类变量有关系”，如果观测值很小，则说明在样本数据中没有发现足够的证据拒绝 H0
（1）如果k>10.828，就有99.9%的把握认为“X与Y有关系” （2）如果k>7.879，就有99.5%的把握认为“X与Y有关系”；（3）如果k>6.635，就有99%的把握认为“X与Y有关系”；（4）如果k>5.024，就有97.5%的把握认为“X与Y有关系”；（5）如果k>3.841，就有95%的把握认为“X与Y有关系”；（6）如果k>2.706，就有90%的把握认为“X与Y有关系”；（7）如果k<=2.706，就认为没有充分的证据显示“X与Y有关系”.
上面我们通过分析数据和图形，得到的直观印象是吸烟和患肺癌有关，那么这种判断是否可靠？我们可以用统计观点来考察这个问题.
为了回答上面的问题，我们先假设： H0：吸烟与患肺癌没有关系看看能推出怎样的结论。把表 1-7 中的数字用字母代替，得到如下用字母表示的列联表（表1-8）：不患肺癌患肺癌总计

e商务文档

1.2独立性检验

相关文档推荐：