当前位置:
文档之家› 北师大版高中数学选修1-2:独立性检验
北师大版高中数学选修1-2:独立性检验
nn n
nn
n
示的是频率,不同于概率,即使变量之间独立,式子两
边也不一定恰好相等,但是当两边相差很大时,变量
之间就不独立.
【练一练】 考察棉花种子经过处理跟棉花生病之间的关系,
得到数据如下:
种子处理情况 得病情况
则判断种子处理与得病之间的独立性.
解:由题意可知a=32,b=101,c=61,d=213,从而
我们假设吸烟与患肺癌是独立的,即吸烟不影响患 肺癌.根据直观的经验,我们把吸烟人群中患肺癌的 人所占百分比,与不吸烟人群中患肺癌的人所占百 分比作比较.如果吸烟不影响患肺癌,就意味着,无 论吸烟与否,患肺癌的人所占的百分比应该是基本 一样的,就此题而言:
通过表格中的数据计算可得 吸烟人群中患肺癌的人所占百分比是: 56 2.82%
2
n(ad bc)2
(a b)(c d)(a c)(b d)
500 (197 120 135 48)2 245 255 332168
42.252 4 6.635.
所以有99%以上的把握认为高中生是否喜欢参加体 育锻炼与性别之间是有关的.
探究点3 独立性检验的应用
56
1932
不吸烟A2
23
4567
总计
79
6499
总计 1988 4590 6578
2
n(ad bc)2
(a b)(c d)(a c)(b d)
6578 (56 4567 1932 23)2 62.698 6.635. 1988 4590 79 6499
总计
男青年
46
30
76
女青年
20
50
70
总计
66
80
146
2 146 (4650 30 20)2 15.021 6.635.
76 70 6680
所以有99%以上的把握认为是否喜爱古典音乐与青 年的性别有关.
例2.容易生气的人更有可能患心脏病吗?某机构随机 调查了2 796人,下表给出了调查的结果(单位:人):
c
,b
n
a
n
b
b
n
d
,c n
c
n
d
a
n
c
,d n
c
d n
b
n
d
当上面的值较大时,变量A,B不独立.
思考 :当这些量多大时才能说明变量间不独立呢? 我们能不能选择一个量,用它的大小来检验变量之 间是否独立呢?
统计学家选取以下统计量,用它的大小来检验变
量之间是否独立:
所以有99%以上的把握认为吸烟与患肺癌是有关的.
思考:在进行χ 2运算,判断变量相关时, 若χ 2=56.632,P(χ 2>6.635)≈0.01和 P(χ 2>3.841)≈0.05,哪种说法是正确的? 提示:两种说法均正确. P(χ2>6.635)≈0.01的含 义是有99%以上的把握认为两变量相关;而 P(χ2>3.841)≈0.05的含义是有95%以上的把握认为 两变量相关.
因为0.653<2.706,所以没有充分的证据认为成
绩是否优秀与所在的班级有关.
1.下面是一个2×2列联表:
x
y
y1
y2
x1
a
21
x2
2
25
总计
b
46
总计 73 27
n
则表中a,b的值分别为( C )
A.94,96
B.52,50
C.52,54
D.54,52
2.分类变量X和Y的列联表如下,则( C )
探究点1 独立性检验
2×2 列联表
为了调查吸烟与患肺癌是否有联系,某机构随机调
查了6 578人,得到表中的数据(单位:人)
患肺癌情况 吸烟情况
吸烟
不吸烟
患肺癌 56 23
不患肺癌 1 932 4 567
这一问题称为2×2列联表的独立性检验.
思考:如何根据表格中的数据来判断吸烟与患肺
癌是否有联系?
另一方面,如果吸烟与患肺癌是独立的,那么有
P( A1B1 ) P( A1 )P(B1 ) P( A1B2 ) P( A1 )P(B2 )
P( A2 B1 ) P( A2 )P(B1 ) P( A2 B2 ) P( A2 )P(B2 )
都成立,由上表数据可得:
患肺癌情况 吸烟情况
既吸烟又患肺癌的人频率为: 56 0.85% 6578
解:根据表中的数据计算得下表(单位:人):
头发颜色
眼睛虹膜颜色
红∕金黄色
黑色
总计
蓝色
156 20 176
棕色
12 24 36
总计
168 44 n=212
2 212 (156 24 12 20)2 55.576.
168 4417636 因为55.576>6.635,所以有99%以上的把握认为 头发的颜色与眼睛虹膜的颜色有关.
392 (39167 157 29)2 1.78. 196196 68324
5.下表是某地区的一种传染病与饮用水的调查表:
得病情况 饮用水卫生程度
试问:这种传染病与饮用水的卫生程度有关吗?
解:根据表中的数据计算得下表
得病情况
饮用水卫生程度
2 830 (52 218 466 94)2 54.21 6.635. 146 684 518 312
当χ 2较大
[(a a b a c)2 (b a b b d )2
2 n
nn n abac
nn n abbd
时,说明 变量之间
nn
nn
不独立.
] ( c c d a c )2 (d c d b d )2
n n n n n n
cd ac
cd bd
nn
nn
2
n(ad bc)2
. (n a b c d)
(a b)(c d )(a c)(b d )
当数据量较大时,在统计中,用以下结果对变量的独 立性进行判断.
1.如果 2≤2.706,没有充分的证据判定变量A,B有关联,
变量A: A1,A 2= A1; 变量B: B1 ,B2= B1.
B
B1
A
A1
a
A2
c
总计
a+c
B2
b d _b_+_d_
总计
_a_+_b_ c+d n=_a_+_b_+_c_+_d_
a
ab
设 n a b c d ,用 ac
n
估计 P( A1B1 ) ,
n
估计 P( A1 ) , n 估计P(B1 ).
2.2 独立性检验 2.3 独立性检验的基本思想
2.4 独立性检验的应用
1
人们都认可“吸烟具有危害性”,那么,人们认 可这个观点,有什么根据么?吸烟是否对患肺癌有影 响呢?下面我们用数学知识来分析一下,这个观点是 否具有科学根据……
1.掌握利用2×2列联表进行独立性检验,会用2×2 列联表解决实际问题.(重点) 2.了解独立性检验的基本思想及实施步骤.(重点) 3. 掌握独立性检验的简单应用.(难点)
1 988
不吸烟人群中患肺癌的人所占百分比是: 23 0.50%
4 590
结论:吸烟人群中患肺癌的人所占的百分比,与不吸 烟人群中患肺癌的人所占百分比不等,且相差较大. 由此我们可以推断,开始的假设是不成立的.也就是 说,患肺癌与吸烟是有关系的.由吸烟人群中患肺癌 的人所占的百分比较多,我们认为吸烟会对肺癌的发 病率造成一定的影响.
【总结】
要推断“Ⅰ和Ⅱ是否有关系”,可按下面的步骤进行:
(1)根据2×2列联表得出合计总表;
(2)用公式计算 2的值;
(3)查对临界值,作出判断. 由于抽样的随机性,由样本得到的推断有可能正
确,也有可能错误.利用 2 进行独立性检验,可以
对推断的正确性作出估计,样本量n越大,估计越准确.
【变式练习】
若有式子
a n
a
n
b
a
n
c
,则可认为
A1与
B1 独立.
同理,若 b a b b d , 则可认为A1与B2独立;若
nn n
c cd ac, nn n
则可认为A2与B1独立;若
d n
cd n
bd n
,
则可认为A2与B2独立.
在 a a b a c 中,由于 a ,a b ,a c 表
为了讨论的方便,我们引入以下记号:
变量A:A1=吸烟,A2 A1 不吸烟;
变量B:B1=患肺癌,B2 B1 未患肺癌.
计算得如下表格:
患肺癌情况 吸烟情况
吸烟A1
不吸烟A2
总计
患肺癌B1 56 23 79
未患肺癌B2 1 932 4 567 6 499
总计 1 988 4 590 6 578
那么有__9_5_%__的把握认为两个变量有关联
解:因为 2 =4.013>3.841.所以有95%的把握判定
两个变量有关联.
4.根据下表计算 ≈2 _1_._7_8_.
手术情况
发病情况
解:由 2的计算公式,得
2
n(ad bc)2
(a b)(c d)(a c)(b d)
X
Y
Y1
Y1