1.2独立性检验
误区解密 公式记忆不准确,计算错误 【例 4】 为考察某种药物预防疾病的效果,进行动物试验, 得到如下的列联表: 药物效果试验列联表 患 病 未患病 10 45 服用药 20 30 没服用药 请问有多大把握认为该药有效?
105×10×45-20×302 错解:k= 55×50×30×75 ≈0.381 8<0.455, ∴在犯错误的概率大于 0.5 的前提下认为该药有效. 2 n ad - bc 错因分析: K2= , 而错解中误将(ad a+bc+da+cb+d -bc)2 用成(ab-cd)2. 105×10×30-20×452 正解:k= ≈6.11>5.024, 55×50×30×75 ∴在犯错误的概率不超过 0.025 的前提下认为该药物有效. 纠错心得:在判断两个分类变量的可信程度时要特别注意 计算的准确度,准确代数、准确计算、准确比较、准确下结论.
要点阐释 1.独立性检验的基本思想 利用随机变量 K2 来确定是否能以一定把握认为“两个分类 变量有关系”的方法称为两个分类变量的独立性检验,独立性 检验的基本思想类似于反证法.要确认“两个分类变量有关 系”这一结论成立的可信程度,首先假设该结论不成立,如果 由观测数据计算得到的 K2 的观测值 k 很大,则在一定程度上说 明假设不合理.
②利用随机变量 K2 的计算公式,求 K2 的观测值 k. ③如果 k≥k0, 就推断“X 与 Y 有关系”, 这种推断犯错误 的概率不超过 α.否则,就认为在犯错误的概率不超过 α 的前提 下不能推断“X 与 Y 有关系”,或者在样本数据中没有发现足 够证据支持结论“X 与 Y 有关系”.通常认为 k≤2.706 时,样 本数据就没有充分的证据显示“X 与 Y 有关系”.
题型二 独立性检验 【例 2】 某聋哑研究机构对聋哑关系进行抽样调查,在耳 聋的 657 人中有 416 人哑,而另外不聋的 680 人中有 249 人 哑.你能运用这组数据得出相应的结论吗?
思路点拨:先列出 2×2 列联表,再计算 K2 的值,运用独 立性检验得出结论. 解:根据题目所给数据得到如下列联表: 哑 不 哑 合 计 416 241 657 聋 431 680 不 聋 249 672 1 337 合 计 665 根据列联表中数据得到 2 1 337 × 416 × 431 - 249 × 241 K2= ≈95.29>10.828. 665×672×657×680 所以我们可以在犯错误的概率不超过 0.001 的前提下说聋 哑有关系.
2.某大型企业人力资源部为了研究企业员工工作态度和对 待企业改革态度的关系,经过调查得到如下列联表: 积极支持 不太支持 总 企业改革 企业改革 计 54 40 94 工作积极 32 63 95 工作一般 86 103 189 总 计 根据列联表的独立性检验,能否在犯错误的概率不超过 0.005 的前提下,认为工作态度与对待企业改革态度之间有关 系?
1.在一次恶劣气候的飞行航程中调查男女乘客在机上晕机 的情况如下表所示: 晕 机 不晕机 合 计 24 31 55 男 性 8 26 34 女 性 32 57 89 合 计 据此资料,你是否认为在恶劣气候飞行中男性比女性更容 易晕机?
解: 根据列联表中所给的数据作出等高条形图,如图所 示.假设晕机与性别有关,则从画出的等高条形图中我们可以 看出:男乘客中晕机所占的比例约为 0.436,女乘客中晕机所占 的比例约为 0.235, 两者的差是|0.436-0.235|=0.201, 差值较大, 因而我们可以认为晕机与男女性别是有关的.
由列联表中的数据,得 K2 的观测值为 1 500×982×17-8×4932 k= 990×510×1 475×25 ≈13.097>10.828. 因此,在犯错误的概率不超过 0.001 的前提下,认为质量 监督员甲在或不在生产现场与产品质量好坏有关系.
方法点评:利用图形来判断两个变量之间是否有关系,可 以画出等高条形图,仅从图形上只可以粗略地估计两个分类变 量的关系,可以结合所求的数值来进行比较.作图应注意单位 统一,图形准确.但图形不能给我们两个分类变量是否有关的 精确判断,若要作出精确的判断,还应作独立性检验的有关计 算.
越大,关系越强.
3.独立性检验所采用的思路是:要研究 A,B 两类型变量 无关 ,在此假设下构 彼此相关,首先假设这两类变量彼此________ 造随机变量 K2.如果 K2 的观测值较大,那么在一定程度上说明 不成立 . 假设________
4.给出 2×2 列联表如下表所示: B B1 B2 总计 A A1 98 ① 123 A2 89 ② ③ 总计 ④ 41 ⑤ 试根据表格填空: 25 16 (1)①______________ ;②____________ ; ③______________ ;④______________ ; 105 187 ⑤______________ ; 228 独立 (2)A 与 B______________ (填“独立”或“不独立”).
(2)独立性检验(精确判断) 具有实施步骤如下: ①根据实际问题的需要确定容许推断“两个分类变量有关 系”犯错误概率的上界 α,然后查下表确定临界值 k0. P(K2≥k0) 0.50 0.40 0.25 0.15 0.10 0.05 k0 0.02 0.01 0.00 0.00 5 0 5 1 0.45 0.70 1.32 2.07 2.70 3.84 5.02 6.63 7.87 10.8 5 8 3 2 6 1 4 5 9 28
思路点拨:首先作出数据的列联表,再由列联表画出条形 图,并计算 K2 的值,最后运用独立性检验得出结论. 解:根据题目所给数据得如下 2×2 列联表: 合格品数 次品数 总 计 982 8 990 甲在生产现场 493 17 510 甲不在生产现场 1 475 25 1 500 总 计
相应的等高条形图如图所示: 图中两个深色条的高分别表示甲在生产现场和甲不在生产 现场样本中次品数的频率.从图中可以看出,甲不在生产现场 样本中次品数的频率明显高于甲在生产现场样本中次品数的频 率.因此可以认为质量监督员甲在或不在生产现场与产品质量 好坏有关系.
3.为研究司机血液中含有酒精与对事故负有责任是否有关 系,从死于汽车碰撞事故的司机中随机抽取 2 000 名司机,得到 如下列联表: 有责任 无责任 总 计 650 150 800 有酒精 700 500 1 200 无酒精 650 2 000 总 计 1 350 试利用图形分析司机血液中含有酒精与对事故负有责任是 否有关系.根据列联表的独立性检验,能否在犯错误的概率不 超过 0.001 的前提下认为二者有关系?
自学导引 1.2×2 列联表 (1)分类变量:变量的不同“值”表示个体所属的不同类别 ________, 这类变量称为分类变量.
(2)2×2 列联表. 假设有两个分类变量 X 和 Y,它们的取值分别为{x1,x2} 和{y1,y2},其样本频数列联表(也称为 2×2 列联表)为: y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d 像上表这样列出的两个分类变量的________ 频数表 称为列联表. 在列联表中,如果两个分类变量没有关系,则应满足 ad- bc≈0.因此|ad-bc|越小,说明两个分类变量之间关系越弱; |ad -bc|越大,说明两个分类变量之间关系越强.
自主探究 1.如何理解分类变量?
【答案】(1)这里的“变量”和“值”都应作为“广义”的 变量和值来理解.例如,对于性别变量,其取值有 “ 男 ” 和 “女”两种,这里的“变量”指的是“性别”,这里的“值” 指的是“男”或“女”.因此,这里说的“变量”和“值”不 一定是取具体的数值. (2)在现实生活中,分类变量是大量存在的.例如,吸烟变 量有吸烟与不吸烟两种类别,而国籍变量则有多种类别.
2.判断两变量间是否有关系的方法 (1)二维条形图 利用二维条形图,可以粗略地判断两个变量之间是否有关 系(但这种判断无法精确地给出所得结论的可靠程度 ),方法如 下: 在二维条形图中, 可以估计满足条件 X=x1 的个体中具有 Y a =y1 的个体所占的比例 ,也可以估计满足条件 X=x2 的个 a+b c 体中具有 Y=y1 的个体所占的比例 .这两个比例的值相差越 c+d 大,有关系的可能性就越大.
Байду номын сангаас
解:由列联表中的数据,得 K2 的观测值为 189×54×63-40×322 k= ≈10.759>7.879. 94×95×86×103 因此, 在犯错误的概率不超过 0.005 的前提下, 认为工作态 度与对待企业改革态度之间有关系.
题型三 独立性检验的综合应用 【例 3】 某生产线上,质量监督员甲在生产现场时, 990 件产品中有合格品 982 件,次品 8 件;不在生产现场时,510 件产品中有合格品 493 件,次品 17 件.试利用图形判断监督员 甲在或不在生产现场对产品质量好坏有无影响.能否在犯错误 的概率不超过 0.001 的前提下认为质量监督员甲在或不在生产 现场与产品质量好坏有关系?
思路点拨:由列联表画出等高条形图,并进行分析,再利 用独立性检验作出判断. 解:根据列联表中所给的数据作出等高条形图,如图所示.
假设血清与预防感冒有关,则从画出的等高条形图可以看 出,试验的个体中感冒的个体所占的比例为 0.496,未试验的个 体中感冒的个体所占的比例为 0.552 ,两者的差别是 |0.496 - 0.552|=0.056,两者相差太小,因而血清对预防感冒有关系的假 设不成立,从而看出血清对预防感冒的作用不够明显,也就是 说血清对预防感冒几乎没有作用.
【答案】A
2.在列联表中,哪两个比值相差越大,两个分类变量之间 的关系越强( ) a c a c A. 与 B. 与 a+b c+d c+d a+b a c a c C. 与 D. 与 a+d b+c b+d a+c
【答案】A
a c |ad-bc| a c 【解析】∵a+b-c+d= ,∴ 与 相差 a+b c+a a+bc+d