当前位置：文档之家› 统计案例一_----独立性检验

统计案例一_----独立性检验

统计案例一独立性检验
研修学院数学教研室闻岩
一、课标要求
学生将在必修课程学习统计的基础上，通过对典型案例的讨论，了解和使用一些常用的统计方法，进一步体会运用统计方法解决实际问题的基本思想，认识统计方法在决策中的作用。

内容与要求
1．统计案例（约14课时）
通过典型案例，学习下列一些常见的统计方法，并能初步应用这些方法解决一些实际问题。

（1）通过对典型案例（如“肺癌与吸烟有关吗”等）的探究，了解独立性检验（只要求22列联表）的基本思想、方法及初步应用。

（2）通过对典型案例（如“质量控制”“新药是否有效”等）的探究，了解实际推断原理和假设检验的基本思想、方法及初步应用（参见例1）。

------删掉了
（3）通过对典型案例（如“昆虫分类”等）的探究，了解聚类分析的基本思想、方法及初步应用。

------删掉了
（4）通过对典型案例（如“人的体重与身高的关系”等）的探究，进一步了解回归的基本思想、方法及初步应用。

说明与建议
1．统计案例的教学中，应鼓励学生经历数据处理的过程，培养他们对数据的直观感觉，认识统计方法的特点（如统计推断可能犯错误，估计结果的随机性），体会统计方法应用的广泛性。

应尽量给学生提供一定的实践活动机会，可结合数学建模的活动，选择1个案例，要求学生亲自实践。

对于统计案例内容，只要求学生了解几种统计方法的基本思想及其初步应用，对于其理论基础不作要求，避免学生单纯记忆和机械套用公式进行计算。

2．教学中，应鼓励学生使用计算器、计算机等现代技术手段来处理数据，有条件的学校还可运用一些常见的统计软件解决实际问题。

例1某地区羊患某种病的概率是0.4，且每只羊患病与否是彼此独立的。

今研制一种新的预防药，任选5只羊做实验，结果这5只羊服用此药后均未患病。

问此药是否有效。

初看起来，会认为这药一定有效，因为服药的羊均未患病。

但细想一下，会有问题，因为大部分羊不服药也不会患病，患病的羊只占0.4左右。

这5只羊都未患病，未必是药的作用。

分析这问题的一个自然想法是：若药无效，随机抽取5只羊都不患病的可能性大不大。

若这件事发生的概率很小，几乎不会发生，那么现在我们这几只羊都未患病，应该是药的效果，即药有效。

现假设药无效，5只羊都不生病的概率是
(1-0.4)5≈0.078.
这个概率很小，该事件几乎不会发生，但现在它确实发生了，说明我们的假设不对，药是有效的。

这里的分析思想有些像反证法，但并不相同。

给定假设后，我们发现，一个概率很小几乎不会发生的事件却发生了，从而否定我们的“假设”。

应该指出的是，当我们作出判断“药是有效的”时，是可能犯错误的。

犯错误的概率是0.078。

也就是说，我们有近92%的把握认为药是有效的。

二、全国考纲的要求
17．统计案例
了解下列一些常见的统计方法，并能应用这些方法解决一些实际问题．
①独立检验
列联表）的基本思想、方法及简单应用．
了解独立检验（只要求22
④回归分析
了解回归分析的基本思想、方法及简单应用．
三、教学中的注意事项：
1、关于独立性。

可以先介绍独立性的概念，假设检验的思想，再讲统计案例；也可以考虑A 版的处理，不给出概率中独立性的定义，直接有统计案例讲起。

2、关于课本相关知识的思考参看A 版教学参考书。

3、充分利用Excei 表完成本节的教学。

4、对于2
K 的观测值，用B 版的两个临界值就可以了。

其他的象A 版那样可以介绍，但没必要刻意去做。

5、整体回顾统计都学习了什么内容，解决了什么样的问题。

展望本章将学习什么内容，给学生一个整体的认识。

另外，关于“统计案例”部分教学：
1、文科教师关于“统计案例”部分教学，多上研修网看有关的提示、建议。

研修网上有一些资料，希望对大家有帮助。

关于具体教学内容的处理，参看老师们写的教学简案。

如A 版，苏版，B 版（刘健吾老师给出了一种处理教材的方案）
2、此部分学探诊电子版在网上有。

3、遇问题、提建议请多借助研修网中的“讨论区”“留言区”等。

4、如果感到把握困难，可以考虑先讲复数，有时间缓冲一下。

把相关资料进一步研究后再讲这部分内容。

-------------------------------------------------------------------------- 附：A 版教材的处理
一、关于列联表的研究和计算
分类变量：变量不同值表示不同类别。

列联表：列出两个分类变量的频数表。

可以r c ⨯表（r 行c 列的二维列联表），简单的为22⨯列联表。

例题：为调查吸烟是否对患肺癌有影响，某肿瘤研究所随机的调查了9965人，得到如下结果（单位：人）：
利用Excel 表可以进行很快的计算：（这个表格只需改动四个原始数据，其他计算及相应的图表自动生成。

回归分析也可以这样来。

）
用字母表示：
先假设：0H ：吸烟与患肺癌没有关系，应有
a c
a b c d
=++， ()()a c d c a b +≈+， 0ad bc -≈，因此，ad bc -越小，说明吸烟与患肺癌的关系越弱；ad bc -越大，说明吸烟与患肺癌的关系越强。

构造随机变量2
2
()()()()()
n ad bc K a b c d a c b d -=++++，其中n a b c d =+++为样本容量。

于是，若0H 成立，即“吸烟与患肺癌没有关系”，则2
K 应该很小，
上面例题中2
K 的观测值56.632K =。

二、对2
K 的观测值k 的认识研究表明：
0H 成立的情况下，( 6.635)0.010P k ≥≈，
即在0H 成立的情况下，2
K 的观测值大于6.6356.635的概率非常小，近似于0.010，是一个小概
率事件。

（统计中常将概率小于0.05的事件成为小概率事件，）
1、例题中的观测值远大于6.635，所以有理由断定0H 不成立，即“吸烟与患肺癌有关系”。

2、这个判断会犯错误，犯错误的概率不会超过0.010。

即我们是以99%的把握认为“吸烟与患肺癌有关系”。

3、上诉过程中，依据随机变量2
K 的观测值k ，建立了一个判断0H 是否成立的规则：
如果 6.635k ≥，就判断0H 不成立，即两个分类变量有关系；否则，就判断0H 成立，即两个分类变量没有关系。

在该规则之下，把结论“0H 成立”错判成“不成立”的概率不会超过( 6.635)0.010P k ≥≈，即有
99%的把握认为0H 不成立。

4、6.635是一个常用的判断规则的临界值。

5、一般情况下，判断2
K 的观测值k 是大还是小，需要确定一个正数0k ，当0k k ≥时就认为2
K 的观测值k 大，此时相应于0k 的判断规则为：
如果0k k ≥，就认为“两个分类变量有关系”；否则就认为“两个分类变量没有关系”。

正数0k 为一个判断规则的临界值。

在此规则下，把结论“两个分类变量没有关系”错判成“两个分类变量有关系”的概率为
20()P K k ≥。

在实际应用中，我们把0k k ≥解释为有20(1())100%P K k -≥⨯的把握认为“两个分类变量有关系”；把0k k <解释为不能以20(1())100%P K k -≥⨯的把握认为“两个分类变量有关系”，或则由样本观测数值不能充分说明“两个分类变量有关系”。

6、上面这样利用随机变量2
K 来确定是否能以给定把握认为“两个分类变量有关系”的方法，称为两个分类变量的独立性检验。

7、在实际应用中，在获取样本数据之前，通常通过查阅下表确定临界值：
三、一般情况
一般的，假设有两个分类变量X 和Y ，它们的可能取值分别为12{,}x x 和12{,}y y ，其样本频数列联表（称为22⨯列联表）为：
若要推断的论述为 1H ：X 与 Y 有关系，可以按如下步骤判断成立的可能性：
1、通过三维柱形图和二维条形图，可以粗略的判断两个分类变量是否有关系，但是这种判断无法精确地给出所得结论的可靠程度。

（1）在三维柱形图中，主对角线上两个柱形高度的成绩ad 与副对角线上高度的乘积bc 相差越大，
1H 成立的可能性就越大。

（2）在二维条形图中，可以估计满足条件1X x =的个体中具有1Y y =的个体所占的比例a
a b
+，也可以估计满足条件2X x =的个体中具有1Y y =的个体所占的比例
c c d
+。

两个比例的值相差越大，1H 成立的可能性就越大。

2、可以利用独立性检验来考察两个分类变量是否有关系，并且能较精确地给出这种判断的可靠程度。

具体做法如下：
（1）先根据实际问题需要的可信程度确定临界值0k ；
（2）根据观测数据计算由公式22
()()()()()
n ad bc K a b c d a c b d -=++++给出的随机变量2
K 的值k ；
（3）如果0k k ≥，就以20(1())100%P K k -≥⨯的把握认为“X 与Y 有关系”；否则就认为由样本数据没有充分的证据显示“X 与Y 有关系”。

e商务文档

统计案例一_----独立性检验

相关文档推荐：