当前位置:
文档之家› 3.2独立性检验的基本思想及其初步应用 PPT课件
3.2独立性检验的基本思想及其初步应用 PPT课件
例1.在某医院,因为患心脏病而住院的665名男性病人 中,有214人秃顶,而另外772名不是因为患心脏病而住 院的男性病人中有175人秃顶.分别利用图形和独立性检 验方法判断是否有关?你所得的结论在什么范围内有效?
秃顶 不秃顶
总计
患心脏病 214 451 665
不患心脏病 175 597 772
总计 389 1048 1437
设“取出的2个样本混凝土耐久性都达标”为事件A,它的 对立事件A为“取出的2个样本至少有1个混凝土耐久性不达 标”,包含(A1,B),(A2,B),(A3,B),(A4,B),(A5,B), 共5种可能.
2.(2011·揭阳一模)某食品厂为了检查甲乙两条自动包装 流水线的生产情况,随机在这两条流水线上各抽取40件产品 作为样本称出它们的重量(单位:克),重量值落在(495,510] 的产品为合格品,否则为不合格品.表1是甲流水线样本频数 分布表,图1是乙流水线样本的频率分布直方图.
参考数据:
P(k2≥k) 0.10
0.050 0.025 0.010 0.001
k
2.706 3.841 5.024 6.635 10.828
解析:(1)提出假设H0:使用淡化海砂与混凝土耐久性 是否达标无关.
根据表中数据,求得K2的观测值
∴能在犯错误的概率不超过1%的前提下,认为使用淡化海
砂与混凝土耐久性是否达标有关.
所以根据列联表的数据,可以有 97.5 %的把握认为该学校15至16周 岁的男生的身高和体重之间有关系。
1.(2013·深圳二模)2013年3月14
CCTV 财经
频道报道了某地建筑市场存在违规使用未经淡化海砂的现象.
为了研究使用淡化海砂与混凝土耐久性是否达标有关,某大
学实验室随机抽取了60个样本,得到了相关数据如下表:
7 13
20
独立性检验临界值表:
P(K2≥k0) 0.025 0.010 0.005 0.001
k0
5.024 6.635 7.879 10.828
独立性检验随机变量
K 2 值的计算公式:K 2
(a
n(ad bc)2 b)(c d )(a c)(b
d)
偏高 不偏高
合计
超重 不超重
4
1
3 12
乙样本合格品的频率为 3460=0.9,
据此可估计从甲流水线任取1件产品,该产品恰好是合格 品的概率为0.75.从乙流水线任取1件产品,该产品恰好是合格 品的概率为0.9.
(3)2×2列联表如下:
合格品 不合格品
合计
甲流水线 a=30 c=10 40
乙流水线 b=36 d=4 40
合计 66 14
(3)由以上统计数据完成下面2×2列联表,能否在犯错误 的概率不超过0.1的前提下认为产品的包装质量与两条自动包 装流水线的选择有关?
甲流水线 乙流水线
合计
合格品 a=
b=
不合格品 c=
d=
合计
n=
附:下面的临界值表供参考:
p(K2≥k) 0.15 0.10 0.05 0.025 0.010 0.005 0.001
产品重量/克 (490,495] (495,500] (500,505] (505,510] (510,515]
频数 6 8 14 8 4
表1 甲流水线样本频数分布表
(1)根据上表数据作出甲流水线样本的频率分布直方图;
(2)若以频率作为概率,试估计从两条流水线分别任取1 件产品,该产品恰好是合格品的概率分别是多少;
k
2.072 2.706 3.841 5.024 6.635 7.879 10.828
(参考公式:K2=a+bcn+add-ab+cc2b+d,其中 n =a+b+c+d)
Hale Waihona Puke 解析:(1)甲流水线样本的频率分布直方图如下:
(2)由表1知甲样本中合格品数为8+14+8=30,由图1知 乙样本中合格品数为(0.06+0.09+0.03)×5×40=36,故甲样 本合格品的频率为 3400=0.75,
研究两个变量的相关关系:
定量变量——回归分析(画散点图、相关系数r、
变量
相关指数R 2、残差分析)
分类变量—— 独立性检验
本节研究的是两个分类变量的独立性检验问题。
分类变量
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随 机地调查了9965人,得到如下结果(单位:人)
吸烟与肺癌列联表
列
不患肺癌 患肺癌 总计
关”
课堂练习 2.某研究小组为了研究中学生的身体发育情况,在某学校随
机抽出 20 名 15 至 16 周岁的男生,将他们的身高和体重制成 2×2 的列
联表,根据列联表的数据,可以有
%的把握认为该学校 15
至 16 周岁的男生的身高和体重之间有关系。
超重 不超重 合计
偏高
4
1
5
不偏高
3 12
15
合计
7 13
合计 5 15 20
独立性检验临界值表:
P(K2≥k0) 0.025 0.010 0.005 0.001
k0
5.024 6.635 7.879 10.828
由独立性检验随机变量 K 2 值的计算公式得:
K
2
a
n ad bc2 bc da cb
d
20412 132 5.934
515 713
K 2 10.828
K 2 6.635 K 2 2.706
0.1%把握认为A与B无关
1%把握认为A与B无关
10%把握认为A与B无关
99.9%把握认A与B有关 99%把握认为A与B有关 90%把握认为A与B有关
独立性检验
H0:假设吸烟和患肺癌没有关系
临界值表
P(K2 k0 ) 0.50
k0 0.455
0.40 0.708
0.25 1.323
0.15 2.072
0.10 0.05 0.025 0.010 0.005 0.001 2.706 3.841 5.024 6.635 7.879 10.828
P(K 2 6.635) 0.01
即似在为0H.00成1 立的情况下,K2 大于6.635概率非常小,近
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0%
不吸烟
吸烟
等高条 形图
患肺癌 不患肺癌
在不吸烟者中患肺癌的比重是 0.54% 在吸烟者中患肺癌的比重是 2.28%
独立性检验
H0:假设吸烟和患肺癌没有关系
则a c ab cd
即ad bc 0
ad - bc 越小,说明吸烟与患肺癌之间的关系越弱,
在秃顶中患心脏病的比重是 55.01%
在不秃顶中患心脏病的比重是 43.03%
例1.在某医院,因为患心脏病而住院的665名男性病人 中,有214人秃顶,而另外772名不是因为患心脏病而住 院的男性病人中有175人秃顶.分别利用图形和独立性检 验方法判断是否有关?你所得的结论在什么范围内有效?
秃顶 不秃顶 总计
6.635 10.828
参照附表,得到的正确结论是( A )
A.有 99%以上的把握认为“爱好该项运动与性别有关”
B.有 99%以上的把握认为“爱好该项运动与性别无关”
C.在犯错误的概率不超过 0.1%的前提下,认为 “爱好该项运动与性别有
关”
D.在犯错误的概率不超过 0.1%的前提下,认为 “爱好该项运动与性别无
独立性检验
H0:假设吸烟和患肺癌没有关系
吸烟与肺癌列联表
不患肺癌 患肺癌 总计
不吸烟 7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
k 2 9965(7775 49 2099 42)2 56.632
7817 2148 9874 91
随机变量-----卡方统计量 K 2
男
女
总计
爱好
40
20
60
不爱好
20
总计
60
30
50
50
110
由K2
n(ad bc)2
(a d )(c d )(a c)(b d )
附表:
算得, K 2
110 (40 30 20 20)2
7.8
60 50 60 50
p(K 2 k)
0.050
0.010
0.001
k
3.841
患心脏病 214 451 665
不患心脏病 175 597 772
总计 389 1048 1437
根据联表的数据,得到
k 2 1437(214 597 175 451)2 16.373 6.635
389 1048 665 772
所以有99%的把握认为“秃顶与患心脏病有关”。
课堂练习 1:通过随机询问 110 名性别不同的大学生是否爱好某项运动,得到 如下的列联表:
3.2独立性检验的 基本思想及其初 步应用
高二数学 选修2-3
第三章 统计案例
两种变量:
定量变量:体重、身高、温度、考试成绩等等。
变量 分类变量:性别、是否吸烟、是否患肺癌、
宗教信仰、国籍等等。
在日常生活中,我们常常关心分类变量之间是否有关系:
例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等。
(2)用分层抽样的方法在使用淡化海砂的样本中抽取6个,
其中应抽取“混凝土耐久性达标”的为 25 ×6=5,“混凝土
耐久性不达标”的为6-5=1
30
“混凝土耐久性达标记”为A1,A2,A3,A4,A5”;“混凝土耐久性 不达标”的记为B.