当前位置:文档之家› 独立性检验 (3)ppt课件

独立性检验 (3)ppt课件


独立性检验定义:
利用随机变量 K 2 来判断两个分类变量有关系的方法。
独立检验步骤:
(1) 列出2X2列联表
(2)计算 K 2 的观测值k;
(3)查对临界值,作出判断。
卡方临界值表:
P(K2 ≥k0) 0.50
k0
0.445
0.40 0.708
0.25 1.323
0.15 0.10 2.072 2.706
独立性检验的基本思想类似于数学中的反证法.先假设“两个分 类变量没有关系”成立,计算随机变量K2的值,如果K2值很大, 说明假设不合理.K2越大,两个分类变量有关系的可能性越大.
判断两个分类变量是否相关的研究方法:
(1)感性认识:先通过列联表或等高条形图观察两个量之间是否 存在相关关系; (2)理性认识:再假设两个量之间相互独立,然后研究这种假设 发生的概率,如果概率很小(小于10%),则说明这种假设不可靠, 从而可以得出两个量之间有相关关系!
0.0054
在吸烟者中患肺癌的比重是
0.0228
结论:吸烟群体和不吸烟群体患肺癌的可能性存在差异,
吸烟者患肺癌的可能性大。
4
等高条形图
结论:吸烟更容易引发肺癌
不患病 比例
患病 比例
5
2.列联表 (1)定义:列出的两个分类变量的频数表,称为列联表.
(2)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},
其样本频数列联表(称为2×2列联表)为:
y1
y2
总计
x1
a
b
a+b
x2
c
d
c+d
总计 a+c b+d a+b+c+d
3. 等高条形图 (1)定义:将列联表中的数据用高度相同的两个条形图表示出来,其中两列的数据分 别对应不同的颜色,这就是等高条形图. (2)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用 等高条形图展示列联表数据的频率特征. (3)观察等高条形图发现相差很大,就判断两个分类变量之间有6 关系.
d
1
其中n a b c d为样本容量.
作用:检验两个变量是否有关系
8
若H0成立,即"吸烟与肺癌没有关系",则K 2应该很小. 计算得K 2的观测值为
k 9965 7775 49 42 20992 56.632,
7817 2148 9874 91 这个值是不是很大呢?
在H0成立的情况下,统计学家估算出如下概率
K2
n(ad bc)2
(a b)(c d )(a c)(b d )
答:1中每个变量取不同“值”时,表示不同个体, 2中变量每取不同“值”表示个体所属不同的类别
问题2:吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?
本节课就是要学习独立性检验思想在分析分类变量之间关系中的应用。
1分类变量: 变量的不同“值”表示个体所属的不同类别,像这样的变量称为
分类变量。
0.05 3.841
0.025 5.024
0.010 6.635
0.005 7.879
K2的观测值为k
如果 k k0 , 就以 (1 P(K 2 k0 )) 100% 的把握认为X与Y有系”;
而这种判断有可能出错,出错的概率不超过 P(K 2 k0 ) 。
10
0.001 10.828
对独立性检验思想的理解:
结论是否可靠?
表1-9 吸烟与肺癌联列表
不患肺癌
患肺癌
总计
不吸烟
a
b
a+b
吸烟
c
d
c+d
总计
a+c
b+d
a+b+c+d
假设H0:吸烟与患肺癌没有关系
用A表示不吸烟,用B表示不患肺癌,则H等价于吸烟与患肺癌独立 P(AB)=P(A)P(B),
a a b a c , 其中n a b c d为样本容量,
像表3-7这样列出的两个分类变量的频数表,称 为调查吸为烟列是联否表对患。肺有影响,某种瘤研究所随机地调查了9965
人,得到如下结果(单位:人)
表3-7 吸烟与肺癌列联表
不患肺癌
患肺癌
总计
不吸烟
7775
42
7817
吸烟
2099
49
2148
总计
9874
91
9965
那么吸烟是否对患肺癌有影响?
在不吸烟者中患肺癌的比重是
11
典型例题
例1 在某医院,因为患心脏病而住院的665名男性病人中,有 214人秃顶;而另外772名不是因为患心脏病而住院的男性病人 中有175人秃顶。 (1)利用图形判断秃顶与患心脏病是否有关系? (2)能否在犯错概率不超0.01的前提下,认为秃顶与患心脏病 有关系?
P(k≥k0) k0
0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
PK 2 6.635 0.01.
2
即在H0成立的情况下K 2的值大于6.635的概率近似于0.01,非常小。是 个小概率事件。K的观测值56.635远远大于6.635,所以我们有理由断
定说明“假设H
”是不成立的,即吸烟与患肺癌有关系。而这种判
0
断的出错概不会超过0.01,或者说有99%的把握判断它俩有关系。 9
nn
n
即 a b c d a a ba c,即ad bc 7
因此,| ad bc | 越小,说明吸烟与患肺癌之间关系越弱; | ad bc | 越大,说明吸烟与患肺癌之间关系越强.
为了使不同样本容量的数据有统一的评判标准,
我们构造一个随机变量(卡方统计量)
K
2
a
nad bc2 bc d a cb
学习目标
目标解读
1.了解分类变量的意义. 2.了解2×2列联表的意义.
3.了解随机变量K2的意义.
4.通过对典型案例分析,了 解独立性检验的基本思想和 方法.
1.重点是2×2列联 表的意义及随机
变量K2的计算与
应用. 2.难点是独立性
检验的基本思想.
2
问题引入
问题1:以下两组变量在取不同的值时的区别 (1)体重、身高、学生的学习成绩 (2)性别、国籍、宗教信仰、是否吸烟、是否患病
12
解:根据题目所给数据得到如下列联表: 患心脏病 不患心脏病 总计
秃顶
214
不秃顶
451
总计
665
175
389
597
1048
772
1437
13
(1)等高条形图
图2
可以看出秃顶样本中患心脏病的频率明显高于不秃顶样本中患心脏病的 表中的数据,得到
相关主题