当前位置:文档之家› 8.4列联表独立性分析案例

8.4列联表独立性分析案例

K2是检验在多大程度上可以认为“两个变量有关系”的标准.
独立性检验的原理了解一下
利用K2来判断“两个分类变量有关系”的方法称为独立性检验. 独立性检验的基本思想类似反证法,实际上是确认“两个变 量X与Y有关系”这一结论成立的可信度. (1)假设结论不成立,即“两个分类变量没有关系”. (2)在此假设下随机变量K2应该很小,如果由观测数据计算 得到K2的观测值k很大,则在一定程度上说明假设不合 理;如果由观测数据计算得到K2的观测值k很小,则在一 定程度上说明假设合理. (3)根据随机变量K2的含义,可以通过评价该假设不合理的 程度。如由实际计算出的k>10.828.说明假设不合理的 程度为99.9%,即“两个分类变量有关系”这一结论成立 的可信度约为99.9%. 带有概率性质的反证法
2 2
因为 1.779<3.841,所以我们没有充分的理由说人具有 大学专科以上学历 (包括大学专科 )和对待教育改革的态 度有关.
也就是说,在H0成立的情况下,对随机变量K2进行多次观测, 观测值超过6.635的频率约为0.01。但,现在K2的观测值 k≈7.31,远远大于6.635,所以有理由断定H0不成立,即认为 “吸烟与患肺癌有关系”. 2 思考2 如果K 6.635,就断定H0不成立,这种判断出错的可能性有多大? 答:判断出错的概率为0.01。也就是我们有99.9% 的把握认为认为“吸烟与患肺癌有关系”.
等高条形图更清晰地表达了两种情况下患肺癌的比例。
通过数据和图形分析,得到结论是:吸烟者和不吸烟者 患肺癌的可能性存在差异,吸烟者患肺癌的可能性大.那么这 种判断是否可靠呢?我们可以通过统计分析回答这个问题.
假设H0:吸烟与患肺癌之间没有关系,
吸烟与患肺癌列联表(单位:人) 不患肺癌 患肺癌 总计 不吸烟 a b a+b 吸烟 c d c+d 总计 a+c b+d a+b+c+d
不吸烟
吸烟 总计
39
21 60
15
25 40
54
46 100
通过公式计算
10039 25 15 21 K 7.31 54 46 60 40
2 2
思考1:这个值到底告诉我们什么呢? 2 已知在 成立的情况下, P( K 6.635) 0.01 即在 成立的情况下,K2的观测值大于6.635的概率非常小, 近似为0.01,是一个小概率事件,即我们判断错误的概率不超 过0.01.
为了使不同样本容量的数据有统一的评判标准,基于上述分 析,统计学家引入了一个随机变量-----卡方统计量:
2 n(ad bc) K2 = , 其中n=a+b+c+d为样本容量. (a + b)(c + d)(a + c)(b + d不患肺癌 患肺癌 总计
• 假设“面包份量足”,则一年购买面包的质量数据 的平均值应该不少于1000g ; • “这个平均值不大于950g”是一个与假设“面包份量 足”矛盾的小概率事件; • 这个小概率事件的发生使庞加莱得出推断结果。
我们经常听到这些说法: 吸烟对患肺癌有影响; 数学好的人物理一般也很好; 是否喜欢数学课程与性别之间有关系; 人的血型会决定人的性格; 星座与人的命运之间有某种联系. 这些说法都有道理吗?
课堂练习
4.有两个分类变量X与Y的一组数据,由其列联表 计算得K2≈4.523,则认为X与Y有关系是错误的 可信度为( ) A.95% B.90% C.5% D.10%
例3.在某医院,因为患心脏病而住院的665名男性病 人中,有214人秃顶,而另外772名不是因为患心脏病而住 院的男性病人中有175人秃顶. (1)列出2X2列联表; (2) 能否在犯错误的概率不超过 0.01 的前提下认为秃顶 与患心脏病有关系?
8.4 列联表独立性分析案例
目标: 1.理解独立性检验的基本思想和基本步骤; 2.利用K2来确认两个分类变量有关这一结论成立的可信度
情景: 数学家庞加莱每天都从一家面包店买一
块1000g 的面包,并记录下买回的面包的实际 质量。一年后,这位数学家发现,所记录数据 的均值为950g。于是庞加莱推断这家面包店的 面包分量不足。
临界值表:
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001
k0
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
如P(k>10.828)= 0.001表示在犯错误的概率不超过 0.001的前提下,认为“X与Y有关系”. 如P(k>6.635)= 0.010表示在犯错误的概率不超过 0.010的前提下,认为“X与Y有关系”. .........
据计算公式有 540×60×200-20×260 χ= ≈9.638. 80×460×220×320
2 2
因为 9.638>6.635,所以有 99%的把握说“40 岁以上的人患胃病与生活规律是有关的”.
2. 某教育机构为了研究人具有大学专科以上学历 ( 包括大学专 科 ) 和对待教育改革态度的关系,随机抽取了 392 名成年人进 行调查,所得数据如下表所示:
假设H0:吸烟与患肺癌之间没有关系,
如果“吸烟与患肺癌没有关系”,那么吸烟样本中不 患肺癌的比例应该与不吸烟样本中相应的比例差不多.
不患肺癌 a c a+c 患肺癌 b d b+d 总计 a+b c+d a+b+c+d
不吸烟 吸烟 总计
即 ︱ad-bc︱越小,说明吸烟与患肺癌之间的关系越弱; ︱ad-bc︱越大,说明吸烟与患肺癌之间的关系越强.
解:(1)根据题目所给数据得到如下列联表:
患心脏病 患其他病 总计
秃顶 不秃顶
总计
解:(1)根据题目所给数据得到如下列联表:
患心脏病 患其他病 秃顶 不秃顶 总计 214 451 665 175 597 772 总计 389 1 048 1 437
(2)根据列联表中的数据,得到
因此,在犯错误的概率不超过0.01的前提下, 认为秃顶与患心脏病有关系.
1. 为了调查胃病是否与生活规律有关,对某地 540 名 40 岁以上 的人进行调查,结果如下:
患胃病 未患胃病 合计 生活无规律 60 260 320
生活有规律
合计
20
80
200
460
220
540
根据以上数据,你认为 40 岁以上的患胃病与生活规律有关吗?

提出假设 H0:患胃病与生活规律无关,根
以 99% 的把握认为两者有关系,并不表示吸 烟的人中有 99% 的人都会患肺癌,也不表示一个吸烟的 人有 99% 的概率会患肺癌,即不表示两者的关系具体有 多大,而只是指“有关系”的可信度为 99% ,或者说把
“ 没有关系 ” 误判为 “ 有关系 ” 的概率为 1%.
[ 正解 ] ③ P ( χ 2 > 6.635 )≈ 0.01. 即有两变量有关系的可 信度为 99%.
课堂练习
1.独立性检验中的统计假设就是假设两个分类变量A,B ( )
A.互斥
C.相互独立
B.不互斥
D.不独立
课堂练习
2.下列关于回归分析与独立性检验的说法正确的是 ( ) A.回归分析和独立性检验没有什么区别 B.回归分析是对两个变量准确关系的分析,而独立 性检验是分析两个变量之间的不确定关系 C.回归分析研究两个变量之间的相关关系,独立性 检验是对两个变量是否具有某种关系的一种检验 D.独立性检验可以100%确定两个变量之间是否具有 某种关系
定量变量:体重、身高、温度、考试成绩等等。 变量 分类变量:性别、是否吸烟、是否患肺癌、 宗教信仰、国籍等等。
定量变量——回归分析(画散点图、相关系数r、 变量 相关指数R 2、残差分析) 分类变量—— 独立性检验
探究
列联表
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了100人,得到如下结果(单位:人)
课堂练习
3.下列说法中正确的是( ) ①独立性检验的基本思想是带有概率性质的反证法; ②独立性检验就是在假设H0下,如果出现一个与H0相 矛盾的小概率事件,就推断H0不成立,且该推断犯错 误的概率不超过这个小概率,则作出拒绝H0的推断; ③独立性检验一定能给出明确的结论. A.①② B.①③ C.②③ D.①②③
吸烟与肺癌列联表 患肺癌 不吸烟 吸烟 总计 39 21 60 不患肺癌 15 25 40 总计 54 46 100
在不吸烟者中患肺癌的比重是 72.22% 在吸烟者中患肺癌的比重是 45.65%
说明:吸烟者和不吸烟者患肺癌的可能性存在差异,吸烟者患 肺癌的可能性大。
等高条形图
图表标题
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 不吸烟 吸烟与肺癌列联表 患肺癌 吸烟 吸烟与肺癌列联表 不患肺癌
积极支持教育改革
大专以上学历 39
不太赞成教育改革
157
合计
196
大专以下学历
合计
29
68
167
324
196
392
对于教育机构的研究项目,根据上述数据能否认为人具有大学 专科以上学历 ( 包括专科 ) 和对待教育改革的态度有关?

提出假设 H0:人具有大学专科以上学历(包括专科)
和对待教育改革的态度没有关系. 392×39×167-157×29 χ= ≈1.779, 196×196×68×324
课本例题 P 86
总结独立性检验的一般步骤:
(1)假设两个分类变量没有关系; (2)根据列联表和公式计算出K2的观测值; (3)把K2的值与临界值比较,确定X与Y有关的程度或无关 系.
相关主题