独立性检验例题
4.根据下表计算k≈_____.
【解析】根据列联表中的数据得K2的观测值
n ad bc2
392 39167 157 292
k a bc da c(b d) 196196 68 324
≈1.78.
答案:1.78
5.运动员参加比赛前往往做热身运动,下表是一体育运动的 研究机构对160位专业运动员追踪而得的数据,试问:由此数 据,你认为运动员受伤与不做热身运动有关吗?
1 500 98217 49382
k
13.097 10.828,
990 5101 475 25
因此,在犯错误的概率不超过0.001的前提下,认为质量监
督员甲在不在生产现场与产品质量好坏有关系.
【典例】(12分)(1)下表是某地区的一种传染病与饮用水的 调查表:
这种传染病是否与饮用水的卫生程度有关,请说明理由;
【规范解答】由已知数据列出2×2列联表如下:
由2×2列联表中的数据,得K2的观测值为
k 180 65 49≈1320.3386>210.828,
9585101 79
所以在犯错误的概率不超过0.001的前提下认为“生产合格品 与设备改造有关系”.
【例】为调查某地区老年人是否需要志愿者提供帮助,用简 单随机抽样方法从该地区调查了500位老年人,结果如下:
bc
ad bc2 da c(b
d)
【审题指导】解答第(2)问时,可先计算K2的值,再对照表格作
出判断.
【规范解答】(1)调查的500位老年人中有70位需要志愿者提 供帮助,因此该地区老年人中,需要志愿者提供帮助的老年 人的比例的估计值为 70 =14%.
500
(2) K2=500 40 270≈93.096176.0由2 于9.967>6.635,所
【解析】选D.独立性检验的结果与实际问题有差异,即独立 性检验的结论是一个数学统计量,它与实际问题中的确定性 存在差异.
2.分类变量X和Y的列联表如下,则( )
(A)ad-bc越小,说明X与Y的关系越弱 (B)ad-bc越大,说明X与Y的关系越强 (C)(ad-bc)2越大,说明X与Y的关系越强 (D)(ad-bc)2越接近于0,说明X与Y的关系越强
概率不超过α;否则,就认为在犯错误的概率不超过α的前
提下不能推断“X与Y有关系”,或者在样本数据中没有发现
足够证据支持结论“X与Y有关系”.
通常认为k<2.706时,样本数据就没有充分的证据显 示“X与Y有关系”.
【例2】某企业为了更好地了解设备改造与生产合格品的关系, 随机抽取了180件产品进行分析,其中设备改造前生产的合格 品有36件,不合格品有49件;设备改造后生产的合格品有65 件,不合格品有30件,根据上面的数据,你能得出什么结论? 【审题指导】可先由题中已给数据,列出2×2列联表,再计 算K2的值作出判断.
【解析】选C.由K2的计算公式可知,(ad-bc)2越大,则K2越 大,故相关关系越强.
3.若由一个2×2列联表中的数据计算得K2=4.013,则两个变 量有关系的概率为_____. 【解析】因随机变量K2的观测值k=4.013>3.841.所以在犯 错误的概率不超过0.05的前提下,认为两个变量有关系. 答案:0.95
(2)若饮用干净水得病5人,不得病50人,饮用不干净水得病9 人,不得病22人.按此样本数据分析这种疾病是否与饮用水有 关,并比较两种样本在反映总体时的差异. 【审题指导】(1)根据表中的信息计算K2的观测值,并根据临 界值表来分析相关性的大小,对于(2)要列出2×2列联表,方 法同(1).
【规范解答】(1)假设H0:传染病与饮用水无关.把表中数据 代入公式得:
有关“相关性检验” 解决一般的独立性检验问题的步骤:
(1)根据实际问题的需要确定容许推断“两个分类变量有关系” 犯错误概率的上界α,然后查下表确定临界值k0.
(2)根据2×2列联表,利用公式K2an
bc
ad bc2 da c(b
d)
计算随机变量K2的观测值k.
(3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的
K2的观测值k 830 52 218≈54646.2194,…2 ………3分
146 684 518 312
∵54.21>10.828,所以拒绝H0. 因此在犯错误的概率不超过0.001的前提下认为该地区这种传
染病与饮用不干净水有关. ……………………………………5分
(2)依题意得2×2列联表:
此时,K2的观测值k 86 5 22≈ 550.78952. …………9分
通过等高条形图可以粗略地判断两个分类变量是否有 关系,但无法精确地给出所得结论的可靠程度.
【例1】从发生交通事故的司机中抽取2 000名司机作随机样 本,根据他们血液中是否含有酒精以及他们是否对事故负有 责任将数据整理如下:
试分析血液中含有酒精与对事故负有责任是否有关系.
【审题指导】题目已给出了2×2列联表,可利用等高条形图 定性分析两个分类变量之间的相关性. 【规范解答】作等高条形图如下,图中阴影部分表示有酒精 负责任与无酒精负责任的比例,从图中可以看出,两者差距 较大,由此我们可以在某种程度上认为“血液中含有酒精与 对事故负有责任”有关系.
分类变量关系的分析
1.判断分类变量及其关系的方法: (1)利用数形结合思想,借助等高条形图来判断两个分类变量 是否相关是判断变量相关的常见方法. (2)一般地,在等高条形图中, a 与 c 相差越大,两个
ab cd
分类变量有关系的可能性就越大.
2.分析分类变量关系的步骤: (1)作大量的调查、研究,统计出结果. (2)列出列联表利用频率粗略估计. (3)作出等高条形图,从直观上进一步判断分类变量之间的关 联关系.
独立性检验的综合应用
判断变量X与Y有无关系的三种方法: (1)2×2列联表:由2×2列联表中|ad-bc|的大小判断. (2)等高条形图:观察条形图中的阴影比例大小判断. (3)独立性检验:计算K2的观测值k,再利用临界值的大小判 断. 其中独立性检验的方法相对较准确.
【例3】为了调查某生产线上质量监督员甲对产品质量好坏有 无影响,现统计数据如下:甲在生产现场时,990件产品中有 合格品982件,次品8件;甲不在生产现场时,510件产品中有 合格品493件,次品17件.试分别用列联表、等高条形图、独 立性检验的方法分析监督员甲对产品质量好坏有无影响.能否 在犯错误的概率不超过0.001的前提下,认为质量监督员甲是 否在生产现场与产品质量有关? 【审题指导】本题要求分别用列联表、等高条形图、独立性 检验的方法分析,要注意三种方法的判断思路.
14 72 55 31
由于5.785>2.706 所以在犯错误的概率不超过0.1的前提下认为该种疾病与饮用 不干净水有关. …………………………………………………10分
两个样本都能统计得到传染病与饮用不干净水有关这一相同 结论,但(1)中在犯错误的概率不超过0.001的前提下肯定结 论的正确性,(2)中在犯错误的概率不超过0.1的前提下肯定 结论的正确性. …………………………………………………12分
【误区警示】对解答本题时易犯错误具体分析如下:
1.在研究吸烟与患肺癌的关系中,通过收集数据、整理分析 数据得“吸烟与患肺癌有关”的结论,并且在犯错误的概率 不超过0.01的前提下认为这个结论是成立的,下列说法中正 确的是( ) (A)100个吸烟者中至少有99人患有肺癌 (B)1个人吸烟,那么这个人有99%的概率患有肺癌 (C)在100个吸烟者中一定有患肺癌的人 (D)在100个吸烟者中可能一个患肺癌的人也没有
【规范解答】(1)2×2列联表如下:
由列联表可得|ad-bc|=|982×17-493×8|=12 750. 相差较大,可在某种程度上认为“质量监督员甲是否在现场 与产品质量有关系”.
(2)画等高条形图. 如图可知,在某种程度上认为“质量监督员甲是否在生产现 场与产品质量有关系”.
(3)由2×2列联表中数据,计算得到K2的观测值为
• 思考题4 在对人们的休闲方式的一次调查 中,共调查了124人,其中女性70人,男 性54人,女性中有43人主要的休闲方式是 看电视,另外27人主要的休闲方式是运动 ;男性中有21人主要的休闲方式是看电视 ,另外33人主要的休闲方式是运动.
• (1)根据以上数据建立一个2×2的列联表; • (2)试判断性别与休闲方式是否有关系
200 300 70 430
以在犯错误的概率不超过0.01的前提下认为该地区的老年人
是否需要志愿者提供帮助与性别有关.
(3)由(2)的结论知,该地区的老年人是否需要志愿者提供帮助 与性别有关,并且从样本数据能看出该地区男性老年人与女 性老年人中需要帮助的比例有明显差异,因此在调查时,先 确定该地区老年人中男、女的比例,再把老年人分成男、女 两层并采用分层抽样方法,这比采用简单随机抽样方法更好.
(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比 例; (2)能否在犯错误的概率不超过0.01的前提下认为该地区的老 年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区 的老年人中,需要志愿者提供帮助的老年人的比例?说明理 由.
附:
K2
a
n