当前位置:文档之家› 独立性检验

独立性检验

9000 8000 7000 6000 5000 4000 3000 2000 1000 0 不吸烟 吸烟 患肺癌 不患肺癌
二维 条形图
3)通过图形直观判断
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 不吸烟 吸烟
等高 条形图
患肺癌 比例
患肺癌 不患肺癌
不患肺癌 比例
【典例训练】 1.(2012·武汉高二检测)在独立性检验中,若随机变量K2的观 测值k≥6.635,则( )
(A)X与Y有关系,犯错的概率不超过1% (B)X与Y有关系,犯错的概率超过1% (C)X与Y没有关系,犯错的概率不超过1% (D)X与Y没有关系,犯错的概率超过1%
2.(2012·厦门高二检测)在对人们休闲方式的一次调查中,共 调查120人,其中女性70人、男性50人.女性中有40人主要的休 闲方式是看电视,另外30人主要的休闲方式是运动;男性中有
解:在假设K 2“性别与是否喜欢数学课程之间没有关系” K2 的前提下, 应该很小,并且
P( K 3.841 0.05 )
2
K 2的观测值 k 4.514 超过3.841,这就 而我们所得到的 意味着“性别与是否喜欢数学课程之间有关系”这一结论 是错误的可能性约为0.05,即有95%的把握认为“性别与 是否喜欢数学课程之间有关系”。
(a b c d)(ad bc) 2 【解析】选C.∵ K , (a b)(c d)(a c)(b d)
2
∴(ad-bc)2越大,则K2越大,X与Y关系越强,故选C.
3.在吸烟与患肺病这两个分类变量的计算中,下列说法中正确 的是( )
(A)若随机变量K2的观测值k>6.635,我们说吸烟与患肺病有关 的概率为0.99,则某人吸烟,那么他可能患有肺病的概率为
独立性检验
通过数据和图表分析,得到 结论是:吸烟与患肺癌有关
H0: 吸烟和患肺癌之间 没有关系
吸烟与患肺癌列联表 不吸烟 吸烟
结论的可靠 程度如何?
患肺癌 b d b+d 总计 a+b c+d a+b+c+d
总计
不患肺癌 a c a+c
不吸烟 吸烟 总计
不患肺癌 a c a+c
患肺癌 b d b+d
(2)画等高条形图. 如图可知,在某种程度上认为“质量监督员甲是否在生产现场 与产品质量有关系”.
(3)由2×2列联表中数据,计算得到K2的观测值为
1 500 (982 17 493 8) 2 k 13.097 10.828, 因此,在犯错误的 990 510 1 475 25
2.分类变量X和Y的列联表如下,则下列说法中正确的是(
Y1 X1 X2 a c Y2 b d 总计 a+b c+d
)
总计
a+c
b+d
a+b+c+d
(A)ad-bc越小,说明X与Y关系越弱
(B)ad-bc越大,说明X与Y关系越强 (C)(ad-bc)2越大,说明X与Y关系越强 (D)(ad-bc)2越接近于0,说明X与Y关系越强
例1
在某医院,因为患心脏病而住院的665名男性病人 中,有214人秃顶,而另外772名不是因为患心脏病 而住院的男性病人中有175人秃顶。利用图形判断 秃顶与患心脏病是否有关系。能够以99%的把握认 为秃顶与患心脏病有关系吗?为什么?
患心脏病 换其他病 214 175 451 665 597 772 总计 389 1048 1437
2
所以有99%的把握认为“秃顶与患心脏病有关”
例2 为考察高中生的性别与是否喜欢数学课程之间的关 系。在某城市的某校高中生随机抽取300名学生。得到 如下列联表: 性别与喜欢数学课程列联表 男 女 总计 喜欢 37 35 72 不喜欢 85 143 228 总计 122 178 300
由表中数据计算得到K2的观测值k≈4.514。能够 以95%的把握认为高中生的性别与是否喜欢数学课程 之间有关系吗?为什么?
(a+b+c+d)a (a+b)(a+c),
即ad bc
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强。
独立性检验
为了使不同样本容量的数据有统一的评判标准,基于上述分 析,我们构造一个随机变量-----卡方统计量
n(ad bc) K , (1) (a b)(c d )(a c)(b d )
【规范解答】独立性检验 【典例】(12分)(2012·荆州高二检测)调查某医院某段时间内 婴儿出生的时间与性别的关系,得到下面的数据:出生时间在 晚上的男婴为24人,女婴为8人;出生时间在白天的男婴为31 人,女婴为26人.
【规范解答】
(1) 出 生 时
性别

晚上①
24 8 32
白天②
31 26 57
列联表 2×2 例1:为了调查吸烟是否对肺癌有影响,某肿瘤研究 所随机地调查了9965人,得到如下结果(单位:人)
吸烟 不吸烟 总计
吸烟与患肺癌列联表 患肺癌 不患肺癌 总计 49 2099 2148
42 91 7775 9874 7817 9965
在不吸烟者中患肺癌的比重是 0.54% 2.28% 在吸烟者中患肺癌的比重是
0.99
(B)若从统计量中求出吸烟与患肺病有关的概率为0.99,则在 100个吸烟者中必有99人患有肺病
(C)若从统计量中求出吸烟与患肺病有关的概率为0.95,是指 推断错误的概率为0.05 (D)以上说法均错误 【解析】选C.根据随机变量K2的意义可知,A与B均错误,C正 确.
4.某班主任对全班50名学生进行了一次调查,所得数据如表: 按时完成作业 男 女 18 8 不按时完成作业 9 15 总计 27 23
总计
55 34 89
男婴 女婴 总计
„„„„„„„„„„„„„„„„„„„„„„6分
(2)由所给数据计算K2的观测值
89 (24 26 31 8) 2 k 3.689③>2.706. „„„„„„„„„8分 55 34 32 57
根据临界值表知P(K2≥2.706)≈0.10.„„„„„„„„„9分
概率不超过0.001的前提下,认为质量监督员甲在不在生产现 场与产品质量好坏有关系.
【想一想】在独立性检验中,容易出现的错误有哪些?
提示:①容易因不能准确列出列联表而犯错误; ②用等高条形图粗略估计代替准确结论而犯错误; ③由于记错K2公式、计算出错而犯错误; ④由于不能利用K2的值与临界值k0比较而出错.
1.2
独立性检验的基本思想及其初步应用
在统计学中,独立性检验就是检验两个分类变量是
否有关系的一种统计方法。 所谓“分类变量”,就是指个体所属的类别不同,也 称为属性变量或定型变量。 在日常生活中,我们常常关心两个分类变量之间是 否有关系,例如吸烟是否与患肺癌有关系?性别是否对 于喜欢数学课程有影响等等。
2 2
其中n a b c d为样本容量。
若 H0成立,即“吸烟与患肺癌没有关系”, 则K2应很小。
注:一般要求a,b,c,d都不小于5
独立性检验
1.利用随机变量K2来判断两个分类变量有关系的方 法称这独立性检验 2.类似于反证法
反证法原 在假设H0下,如果推出一个矛盾,就证明 理 了H0不成立。
因此在犯错误的概率不超过0.1的前提下认为婴儿的性别与出
生的时间有关系.„„„„„„„„„„„„„„„„„12分
1.在研究两个分类变量之间是否有关时,可以粗略地判断两个
分类变量是否有关的是( )
(A)散点图
(C)2×2列联表
(B)等高条形图
(D)以上均不对
【解析】选B.等高条形图可以粗略地判断两个分类变量之间是 否有关.
独立性检 在假设H0下,如果出现一个与H0相矛盾的 验原理 小概率事件,就推断H0相不成立。且该推 断犯错误的概率超过这个小概率。
检验步骤:
(1)提出假设H0 :X和Y没有关系; (2)根据2×2列联表与公式计算 k 的值; (3)查对临界值,作出判断。
P(K
2
k0 0.50 )
0.40 0.708 0.025 5.024
2X2列联表
列出的两个分类变量的频数表,称为 列联表
x1 y1 a x2 b 总计 a+b
y2
总计
c
a+c
d
b+d
c+d
a+b+c+d
1)通过图形直观判断
8000 7000 6000 5000 4000 3000 2000 1000 0 不患肺癌 患肺癌
三维柱 状图
不吸烟 吸烟 吸烟 不吸烟
2) 通过图形直观判断
P( K 2 6.635) 0.010
H 0 成立的情况下, 2 K 大于6.635概率非常小, 即在 近似为0.010
现在的 k =56.632的观测值远大于6.635, 出现这样的观测值的概率不超过0.010。 故有99%的把握认为H0不成立,即有99%的把 握认为“患肺癌与吸烟有关系”。
【解析】1.根据独立性检验的思想,假设没关系正确的可 能性为5%,所以,判断有关系错误的可能性也为5%. 答案:5%
2.(1)2×2列联表如下: 合格品数 甲在生产现场 甲不在生产现场 总计 982 493 1 475 次品数 8 17 25 总计 990 510 1 500
由列联表可得|ad-bc|=|982×17-493×8|=12 750. 相差较大,可在某种程度上认为“质量监督员甲是否在现场与 产品质量有关系”.
相关主题