高中数学1-1独立性检验
吸烟与患呼吸道疾病列联表 患病 不患病 总计 吸烟 37 183 220
不吸烟 总计
21 58
274 457
2
295 515
2
通过公式计算
2
n(n11n12 n12n21 ) n1 n2 n1n2
2
其中n n11 n12 n21 n22
51537 274 21183 11.8634 58 457 220 295
n1
n22
n 2
n2
n
n1
2、做出相反的假设
结论的可靠 程度如何?
通过数据和图表分析,得到结论是:
吸烟与患呼吸道病有关
H0: 吸烟 和患呼吸道疾病没有关系
3、计算
吸烟 不吸烟 总计
2
吸烟与患呼吸道疾病关系列联表
患病 n11 n21 不患病 总计 n12
n1
n22
n 2
n2
n
患病 比例
患肺癌 患病 不患肺癌 不患病
不患病 比例
初步结论:
问题1:吸烟与不吸烟,患病的可能性的大小是 否有差异? 吸烟者和不吸烟者患呼吸道疾病的可能性存在差 异,吸烟者患呼吸道疾病的可能性大 问题2:差异大到什么程度才能作出“吸烟与患病有 关”的判断? 问题3:能否用数量刻画出“有关”的程度?
n1
吸烟的人中患病的比例:
不吸烟的人中患病的比例:
n11 n1 n21 n2
若H0成立
n11 n1
n 21 n2
n11 (n21 n22 ) n21 (n11 n12 )
n11n22 n21n12 0
| n11n22 n21n12 | 越小,说明吸烟与患呼吸道疾病关系越弱; | n11n22 n21n12 |
绩优秀与班级有关系”犯错误的概率为0.5。
小结: 1、独立性检验的基本思想 2、独立性检验是用 类问题的方法。
2
统计量研究一
3、用
2
统计量研究问题的步骤
由于抽样的随机性,由样本得到的推断 2 有可能正确,也有可能错误。利用 进 行独立性检验,可以对推断的正确性的概 率作出估计,样本量n越大,估计越准确。
有99%的把握认为“秃顶与患心脏病有关”
例5 为考察高中生的性别与是否喜欢数学课程之间的关 系。在某城市的某校高中生随机抽取300名学生。得到 如下列联表: 性别与喜欢数学课程列联表
男 女 总计
喜欢 37 35 72 不喜欢 85 143 228
2
总计 122 178 300
2 由表中数据计算得到 的观测值 ≈4.514。能够 以95%的把握认为高中生的性别与是否喜欢数学课程
思考交流: 反证法原理:
在一个已知假设 下,如果推出一 个矛盾,就证明 了这个假设不成 立。
假设检验原理:
在一个已知假设 下,如果一个与 该假设矛盾的小 概率事件发生, 就推断这个假设 不成立。
统计学对此类问题提供了这样的方法:
①数据整理;(列2× 2联表) ②做出相反的假设;(“患病与吸烟没有关系”)
再见
1)通过图形直观判断
三维柱 状图
300 250 200 150 100 50 0
不吸烟 吸烟 吸烟 不吸烟 患肺癌 患病
不患病 不患肺癌
2) 通过图形直观判断
350 300 250 200 150 100 50 0 不吸烟 吸烟 患肺癌 患病 不患病 不患肺癌
二维条 形图
3)通过图形直观判断
100% 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% 不吸烟 吸烟
4、查表
2 1)如果P( >10.828)= 0.001表示有99.9%的把握认为”X与Y”有关 2 系 2); 如果P( >7.879)= 0.005表示有99.5%的把握认为”X与Y”有关系; 2 3)如果P( >6.635)= 0.01表示有99%的把握认为”X与Y”有关系; 2
越大,说明吸烟与患呼吸道疾病关系越强;
统计学家为了消除样本量对上式的影响,引入 了卡方统计量 2
n( n11n22 n12 n21 ) n1 n2 n1n 2
2
2
其中n n11 n12 n21 n22
作为检验在多大程度上可以认为“两个变量 有关系”的标准 。
11.8不成立,即有99.9% 的把握认为“患呼吸道疾病与吸烟有关系”。
DNA亲子鉴定的原理和程序
DNA是从几滴血,腮细胞或培养的组织纤内提取而 来.用畴素将DNA样本切成小段,放进喱胶内,用电泳槽推动 DNA小块使之分离--最细的在最远,最大的最近. 之後, 分 离开的基因放在尼龙薄膜上,使用特别的DNA探针去寻找基 因, 相同的基因会凝聚于一,然後,利用特别的染料,在X光 的环境下,便显示由DNA探针凝聚于一的黑色条码.小孩这 种肉眼可见的条码很特别 ----一半与母亲的吻合,一半与 父亲的吻合.这过程重覆几次,每一种探针用于寻找DNA的 不同部位并影成独特的条码,用几组不同的探针,可得到超 过99,9%的父系或然率或分辨率.
根据这些数据能否断定:患呼吸道疾病与 吸烟有关?
●
列联表
为了调查吸烟是否对呼吸道有影响,某医疗研究所随 机地调查了515人,得到如下结果(单位:人)
吸烟与患呼吸道疾病列联表
患病 吸烟 37 不患病 183 总计 220
不吸烟 总计
21 58
274 457
7.12% 16.82%
295 515
在不吸烟者中患病的比重是 在吸烟者中患病的比重是
4)如果P( >5.024)= 0.025表示有97.5%的把握认为”X与Y”有关系;
5)如果P( 2 >3.841)= 0.05表示有95%的把握认为”X与Y”有关系; 6)如果P( 2 ≤3.841)就认为没有充分的证据显示”X与Y”有关系;
2
5、下结论
P(
2
已知在 H 0成立的情况下,
DNA亲子鉴定的结果 孩子会有一条纹与亲生母亲相同而另一条码与 待证实父亲1号(AF1)相同,此人是生父; 被排除的男子 (AF2),则与小孩并无相同的条码. 肯定父系关系 = 99.99%或更大的生父或然率
(法律上证明是生父)
否定父系关系 = 0% 生父或然率(100%排除为生父)
例4.在某医院,因为患心脏病而住院的665名男性病人 中,有214人秃顶;而另外772名不是因为患心脏病而住 院的男性病人中有175秃顶.分别利用图形和独立性检 验方法判断秃顶与患心脏病是否有关系?你所得的结论 在什么范围内有效? 秃顶与患心脏病列联表
日常生活中我们关心这样一些问题: 1. 吸烟与患呼吸道疾病有无关系? 2. 秃顶与心脏病之间有无关系? 3. 性别与喜欢数学课之间有无关系? 以上问题用什么知识来解决呢?
统计学中检验两个变量是否有关系的一种 统计方法———独立性检验
• 某医疗机构为了了解患呼吸道疾病与 吸烟是否有关,进行了一次抽样调查,共调 查了515个成年人,其中吸烟者220人,不吸 烟者295 人,调查结果是:吸烟的220 人中 37人患呼吸道疾病, 183人未患呼吸道 疾病;不吸烟的295人中21人患病, 274人 未患病。
2 2 ③计算 ;
2 n ( n n n n ) 11 12 12 21 2 n1 n2 n1n2 ` ④查临界值表; (n n11 n12 n21 n22为样本量
⑤下结论。
1、列2× 2联表
吸烟与患呼吸道疾病关系列联表
患病 吸烟 不吸烟 总计 n11 n21 不患病 总计 n12
2
2 的观测值 4.514超过3.841,这就
练习: 甲乙两个班级进行一门考试,按照学生考试成绩优秀和 不优秀统计后,得到如下列联表:
优秀 甲班 乙班 总计 10 7 17 不优秀 35 38 73 总计 45 45 90
画出列联表的条形图,并通过图形判断成绩与班级是否 有关.利用列联表的独立性检验估计,认为“成绩与班级 有关系”犯错误的概率是多少。
之间有关系吗?为什么?
2 解:在假设 2 “性别与是否喜欢数学课程之间没有关系” 的前提下, 应该很小,并且
P( 3.841) 0.05
2
而我们所得到的 意味着“性别与是否喜欢数学课程之间有关系”这一结论 是错误的可能性约为0.05,即有95%的把握认为“性别与 是否喜欢数学课程之间有关系”。
列联表的条形图: 100% 90%
80% 70% 60% 50% 40% 30% 20% 10% 0%
优秀 不优秀
由图及表直观判断,好像“成绩优秀与班级有关系”,由表中 数据计算,得的观察值为 。由教科书中表 2 2 0.653 0.455 1-12,得
2 P ( 0.455) 0.50 从而由50%的把握认为“成绩优秀与班级有关系”,即断言“成
患心脏病
秃顶 不秃顶 总计 214 451 665
患其他病
175 597 772
总计
389 1048 1437
600 500 400 300 200 100 0 患心脏病 患其他病 不秃顶 秃顶 秃顶 不秃顶
2 1437 (214 597 175 451) 2 16.373 6.635 389 1048 665 772