当前位置:文档之家› 统计案例一_----独立性检验

统计案例一_----独立性检验

统计案例一独立性检验
研修学院数学教研室闻岩
一、课标要求
学生将在必修课程学习统计的基础上,通过对典型案例的讨论,了解和使用一些常用的统计方法,进一步体会运用统计方法解决实际问题的基本思想,认识统计方法在决策中的作用。

内容与要求
1.统计案例(约14课时)
通过典型案例,学习下列一些常见的统计方法,并能初步应用这些方法解决一些实际问题。

(1)通过对典型案例(如“肺癌与吸烟有关吗”等)的探究,了解独立性检验(只要求22列联表)的基本思想、方法及初步应用。

(2)通过对典型案例(如“质量控制”“新药是否有效”等)的探究,了解实际推断原理和假设检验的基本思想、方法及初步应用(参见例1)。

------删掉了
(3)通过对典型案例(如“昆虫分类”等)的探究,了解聚类分析的基本思想、方法及初步应用。

------删掉了
(4)通过对典型案例(如“人的体重与身高的关系”等)的探究,进一步了解回归的基本思想、方法及初步应用。

说明与建议
1.统计案例的教学中,应鼓励学生经历数据处理的过程,培养他们对数据的直观感觉,认识统计方法的特点(如统计推断可能犯错误,估计结果的随机性),体会统计方法应用的广泛性。

应尽量给学生提供一定的实践活动机会,可结合数学建模的活动,选择1个案例,要求学生亲自实践。

对于统计案例内容,只要求学生了解几种统计方法的基本思想及其初步应用,对于其理论基础不作要求,避免学生单纯记忆和机械套用公式进行计算。

2.教学中,应鼓励学生使用计算器、计算机等现代技术手段来处理数据,有条件的学校还可运用一些常见的统计软件解决实际问题。

例1某地区羊患某种病的概率是0.4,且每只羊患病与否是彼此独立的。

今研制一种新的预防药,任选5只羊做实验,结果这5只羊服用此药后均未患病。

问此药是否有效。

初看起来,会认为这药一定有效,因为服药的羊均未患病。

但细想一下,会有问题,因为大部分羊不服药也不会患病,患病的羊只占0.4左右。

这5只羊都未患病,未必是药的作用。

分析这问题的一个自然想法是:若药无效,随机抽取5只羊都不患病的可能性大不大。

若这件事发生的概率很小,几乎不会发生,那么现在我们这几只羊都未患病,应该是药的效果,即药有效。

现假设药无效,5只羊都不生病的概率是
(1-0.4)5≈0.078.
这个概率很小,该事件几乎不会发生,但现在它确实发生了,说明我们的假设不对,药是有效的。

这里的分析思想有些像反证法,但并不相同。

给定假设后,我们发现,一个概率很小几乎不会发生的事件却发生了,从而否定我们的“假设”。

应该指出的是,当我们作出判断“药是有效的”时,是可能犯错误的。

犯错误的概率是0.078。

也就是说,我们有近92%的把握认为药是有效的。

二、全国考纲的要求
17.统计案例
了解下列一些常见的统计方法,并能应用这些方法解决一些实际问题.
①独立检验
列联表)的基本思想、方法及简单应用.
了解独立检验(只要求22
④回归分析
了解回归分析的基本思想、方法及简单应用.
三、教学中的注意事项:
1、关于独立性。

可以先介绍独立性的概念,假设检验的思想,再讲统计案例;也可以考虑A 版的处理,不给出概率中独立性的定义,直接有统计案例讲起。

2、关于课本相关知识的思考参看A 版教学参考书。

3、充分利用Excei 表完成本节的教学。

4、对于2
K 的观测值,用B 版的两个临界值就可以了。

其他的象A 版那样可以介绍,但没必要刻意去做。

5、整体回顾统计都学习了什么内容,解决了什么样的问题。

展望本章将学习什么内容,给学生一个整体的认识。

另外,关于“统计案例”部分教学:
1、文科教师关于“统计案例”部分教学,多上研修网看有关的提示、建议。

研修网上有一些资料,希望对大家有帮助。

关于具体教学内容的处理,参看老师们写的教学简案。

如A 版,苏版,B 版(刘健吾老师给出了一种处理教材的方案)
2、此部分学探诊电子版 在网上有。

3、遇问题、提建议请多借助研修网中的“讨论区”“留言区”等。

4、如果感到把握困难,可以考虑先讲复数,有时间缓冲一下。

把相关资料进一步研究后再讲这部分内容。

-------------------------------------------------------------------------- 附:A 版教材的处理
一、关于列联表的研究和计算
分类变量:变量不同值表示不同类别。

列联表:列出两个分类变量的频数表。

可以r c ⨯表(r 行c 列的二维列联表),简单的为22⨯列联表。

例题:为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机的调查了9965人,得到如下结果(单位:人):
利用Excel 表可以进行很快的计算:(这个表格只需改动四个原始数据,其他计算及相应的图表自动生成。

回归分析也可以这样来。


用字母表示:
先假设:0H :吸烟与患肺癌没有关系, 应有
a c
a b c d
=++, ()()a c d c a b +≈+, 0ad bc -≈, 因此,ad bc -越小,说明吸烟与患肺癌的关系越弱;ad bc -越大,说明吸烟与患肺癌的关系越强。

构造随机变量2
2
()()()()()
n ad bc K a b c d a c b d -=++++,其中n a b c d =+++为样本容量。

于是,若0H 成立,即“吸烟与患肺癌没有关系”,则2
K 应该很小,
上面例题中2
K 的观测值56.632K =。

二、对2
K 的观测值k 的认识 研究表明:
0H 成立的情况下,( 6.635)0.010P k ≥≈,
即在0H 成立的情况下,2
K 的观测值大于6.6356.635的概率非常小,近似于0.010,是一个小概
率事件。

(统计中常将概率小于0.05的事件成为小概率事件,)
1、例题中的观测值远大于6.635,所以有理由断定0H 不成立,即“吸烟与患肺癌有关系”。

2、这个判断会犯错误,犯错误的概率不会超过0.010。

即我们是以99%的把握认为“吸烟与患肺癌有关系”。

3、上诉过程中,依据随机变量2
K 的观测值k ,建立了一个判断0H 是否成立的规则:
如果 6.635k ≥,就判断0H 不成立,即两个分类变量有关系;否则,就判断0H 成立,即两个分类变量没有关系。

在该规则之下,把结论“0H 成立”错判成“不成立”的概率不会超过( 6.635)0.010P k ≥≈,即有
99%的把握认为0H 不成立。

4、6.635是一个常用的判断规则的临界值。

5、一般情况下,判断2
K 的观测值k 是大还是小,需要确定一个正数0k ,当0k k ≥时就认为2
K 的观测值k 大,此时相应于0k 的判断规则为:
如果0k k ≥,就认为“两个分类变量有关系”;否则就认为“两个分类变量没有关系”。

正数0k 为一个判断规则的临界值。

在此规则下,把结论“两个分类变量没有关系”错判成“两个分类变量有关系”的概率为
20()P K k ≥。

在实际应用中,我们把0k k ≥解释为有20(1())100%P K k -≥⨯的把握认为“两个分类变量有关系”;把0k k <解释为不能以20(1())100%P K k -≥⨯的把握认为“两个分类变量有关系”,或则由样本观测数值不能充分说明“两个分类变量有关系”。

6、上面这样利用随机变量2
K 来确定是否能以给定把握认为“两个分类变量有关系”的方法,称为两个分类变量的独立性检验。

7、在实际应用中,在获取样本数据之前,通常通过查阅下表确定临界值:
三、一般情况
一般的,假设有两个分类变量X 和Y ,它们的可能取值分别为12{,}x x 和12{,}y y ,其样本频数列联表(称为22⨯列联表)为:
若要推断的论述为 1H :X 与 Y 有关系, 可以按如下步骤判断成立的可能性:
1、通过三维柱形图和二维条形图,可以粗略的判断两个分类变量是否有关系,但是这种判断无法精确地给出所得结论的可靠程度。

(1)在三维柱形图中,主对角线上两个柱形高度的成绩ad 与副对角线上高度的乘积bc 相差越大,
1H 成立的可能性就越大。

(2)在二维条形图中,可以估计满足条件1X x =的个体中具有1Y y =的个体所占的比例a
a b
+,也可以估计满足条件2X x =的个体中具有1Y y =的个体所占的比例
c c d
+。

两个比例的值相差越大,1H 成立的可能性就越大。

2、可以利用独立性检验来考察两个分类变量是否有关系,并且能较精确地给出这种判断的可靠程度。

具体做法如下:
(1)先根据实际问题需要的可信程度确定临界值0k ;
(2)根据观测数据计算由公式22
()()()()()
n ad bc K a b c d a c b d -=++++给出的随机变量2
K 的值k ;
(3)如果0k k ≥,就以20(1())100%P K k -≥⨯的把握认为“X 与Y 有关系”;否则就认为由样本数据没有充分的证据显示“X 与Y 有关系”。

相关主题