当前位置:文档之家› 1.2独立性检验

1.2独立性检验


9965(7775 49 42 2099) k 56.632. 7817 2148 9874 91
2
这个值到底能告诉我们什么呢?
统计学家经过研究发现,在H0成立的情况下,
P( K 6.635) 0.01
2
即在 H 0 成立的情况下,K2 大于6.635概率非常小,近似为0.01
不吸烟 吸烟 总计
表1-8
a c a+c
b d b+d
a+b c+d a+b+c+d
如果“吸烟与患肺癌没有关系”,那么吸烟样本中不 患肺癌的比例应该与不吸烟样本中相应的比例差不多, 即 a c
ab cd a(c d ) c( Nhomakorabea b)
ad bc 0
因此|ad-bc|越小,说明吸烟与患肺癌之间关系越弱; |ad-bc|越大,说明吸烟与患肺癌之间关系越强.
一般地,假设有两个分类变量X和Y,它们的可能取值 分别为 {x1,x2} 和 {y1,y2}, 其样本频数列联表(称为 2x2列联表)为: y1 x1 x2 总计 a c a+c y2 b d b+d 总计 a+b c+d a+b+c+d
若要判断结论为: H1 :“ X 与 Y 有关系”,如果通过直 c 接计算或观察等高条形图发现 a 和 相差很大, cd ab 就判段两个分类变量之间有关系.
怎样判断K² 的观测值k是大还是小呢? 这仅需确定一个正数 k 0 ,当 k k 0 时就认为IK² 的观测 值k大,此时相应于的判断规则为:如果k k 0 ,就认为
“两分类变量有关系”;否则就认为“两分类变量没有 k k 0 为一个判断规则的临界值 关系”.我们称这样的 .按照 上述规则,把“两个分类变量没有关系”错误地判断为 “两个分类变量有关系”的概率为 P(K 2 k0 )
为了使不同样本容量的数据有统一的评判标准,基于 上述分析,我们构造一个随机变量
n(ad bc ) K (a b)(c d )(a c )(b d )
2 2
( 1 )
其中n=a+b+c+d为样本容量. 若H0成立,即“吸烟与患肺癌没有关系”,则K2应很小. 由表1-7中数据,利用公式(1)计算得K2的观测值为:
0.025 0.010 0.005 0.001
k
0.445 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
(2)由观测数据计算得到随机变量K2的观测值k; (3)如果k> k0 ,就以(1-P(K2≥ k0))×100%的把 握认为“X与Y有关系”;否则就说样本观测数据没有 提供“X与Y有关系”的充分证据.
0
上面这种利用随机变量 K2 来确定在多大程度上可以
认为“两个分类变量有关系”的方法称为两个分类变量
的独立性检验. 独立性检验的基本思想:
类似于数学上的反证法,对“两个分类变量有关系” 这一结论成立的可信程度的判断: ( 1 )假设该结论不成立,即假设结论“两个分类变量没有关系” 成立. (2)在假设条件下,计算构造的随机变量K2,如果有观测数据 计算得到的K2很大,则在一定程度上说明假设不合理. (3)根据随机变量K2的含义,可以通过(2)式评价假设不合理 的程度,由实际计算出的k>6.635,说明假设不合理的程度约为 99%,即“两个分类有关系”这一结论成立的可信程度约为99%.
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 秃顶 不秃顶
相应的等高条形图如图所示, 从图中可以看出秃顶样本中
不患心脏病 患心脏病
患心脏病的频率明星高于不 秃顶样本中换心脏病的频率, 因此可以认为“秃顶与患心脏 病有关”.
根据列联表中的数据,得到: 2 1437 (214 597 175 451) 2 K 16.373 6.635. 389 1048 665 772 所以有99%的把握认为“秃顶患心脏病有关”.
等高条形图
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 不吸烟 吸烟
等高条形图更 清晰地表达了 两种情况下患 肺癌的比例.
患肺癌 不患肺癌
其中两个浅色条的高分别表示吸烟和不吸烟样本中不患肺癌 的频率;两个深色条的高分别表示吸烟和不吸烟样本中患肺癌的 频率,比较图中两个深色条的高可以发现,在吸烟样本中患肺癌 的频率要高一些,因此直观上可以认为吸烟跟容易引发肺癌
探究
为了调查吸烟是否对肺癌有影响,某肿瘤研究所随机 地调查了9965人,得到如下结果(单位:人)
表1-7吸烟与肺癌列联表 不患肺癌 患肺癌 总计 不吸烟 7775 42 7817
吸烟
总计
2099
9874
49
91
2148
9965
那么吸烟是否对患肺癌有影响?
像表1-7这样列出两个分类变量的频数表,称为列联表 . 有吸烟和患肺癌列联表可以粗略估计出,在不吸烟者 中,有 0.54% 患有肺癌;在吸烟者中,有 2.28% 患有肺 癌。因此,直观上可以得到结论:吸烟者和不吸烟者 患肺癌的可能性存在差异. 与表格相比,图形跟能直观地反映出两个变量间是否 相互影响,常用等高条形图展示列联表数据的频率特 征.
1.2独立性检验的基本思想 及其初步应用
对于性别变量,其取值为男和女两种,这种变量 的不同“值”表示个体所属的不同类别,像这样的变 量称为分类变量. 分类变量在现实生活中是大量存在的,如是 否吸烟,是否患肺癌,宗教信仰,国别,年龄, 出生月份等等。 在日常生活中,主要考虑分类变量之间是否有关系: 例如,吸烟是否与患肺癌有关系? 性别是否对于喜欢数学课程有影响?等等.
上面这种直观判断的不足之处在于不能给出推断“两 个分类变量有关系”犯错误的概率,而利用独立性检验 来考察两个分类变量是否有关系,能较精确地给出这种 判断的可靠程度. 具体作法是: (1)根据实际问题需要的可信程度确定临界值k0;
P( K 2 k ) 0.50 0.40
0.5
0.15
0.10
0.05
现在的K2=56.632的观测值远大于6.635,所以有理 由判定H0不成立,即认为“吸烟于患肺癌有关系”.但 是这种判断还犯错误,犯错误的概率不会超过0.010
在上述过程中,实际上是借助于随机变量K2的观测值k, 建立一个判断H0是否成立的规则:如果k≥6.635,就判断 H0不成立,即认为“吸烟与患肺癌有关系”;否则就判定 H0成立,即认为“吸烟与患肺癌没有关系” 在改规则下,把结论“H0成立”错判为“H0不成立” 2 的概率不会超过 P( K 6.635) 0.01
例1.在某医院,因为患心脏病而住院的 665名男性病人中,有214 人秃顶;而另外 772 名不是因为患心脏病而住院的男性病人中有 175 人秃顶。分别利用图形和独立性检验方法判断秃顶与患心脏 病是否有关系?你所得的结论在什么范围内有效?
解:根据题目所给数据得到如下列联表: 患心脏病 不患心脏病 总计 秃顶 214 175 389 不秃顶 451 597 1048 总计 665 772 1437
这里概率计算的前提是H0成立
上面解决问题的想法类似于反证法.要判断“两个分类 变量有关系”,首先假设该结论不成立,即:H0:两个分 类变量没有关系成立.在该假设下我们所构造的随机变量 K² 应该很小,如果有观测数据计算得到K² 的观测值k很大, 则断言H0不成立,即认为“两个分类变量有关系”,如果 观测值很小,则说明在样本数据中没有发现足够的证据拒 绝 H0
(1)如果k>10.828,就有99.9%的把握认为“X与Y有关系” (2)如果k>7.879,就有99.5%的把握认为“X与Y有关系”; (3)如果k>6.635,就有99%的把握认为“X与Y有关系”; (4)如果k>5.024,就有97.5%的把握认为“X与Y有关系”; (5)如果k>3.841,就有95%的把握认为“X与Y有关系”; (6)如果k>2.706,就有90%的把握认为“X与Y有关系”; (7)如果k<=2.706,就认为没有充分的证据显示“X与Y有 关系”.
上面我们通过分析数据和图形,得到的直观印象是吸 烟和患肺癌有关,那么这种判断是否可靠?我们可以 用统计观点来考察这个问题.
为了回答上面的问题,我们先假设: H0:吸烟与患肺癌没有关系 看看能推出怎样的结论。 把表 1-7 中的数字用字母代替,得到如下用字母表示 的列联表(表1-8): 不患肺癌 患肺癌 总计
相关主题