当前位置:
文档之家› 数学选修2-3 列联表独立性分析 课件
数学选修2-3 列联表独立性分析 课件
2
500 500 1000
解:设H0:感冒与是否使用该血清没有关系。
1000 258 284 242 216 2 7 .075 474 526 500 500 因当H0成立时,χ2≥6.635的概率约为0.01,故有99%的把握认 为该血清能起到预防感冒的作用。
例 1. 在 500 人身上试验某种血清预防感冒作用,把他们 P(2 ≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 一年中的感冒记录与另外 500 名未用血清的人的感冒记 x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 录作比较,结果如表所示。问:该种血清能否起到预防 感冒的作用? 未感冒 感冒 合计 使用血清 未使用血清 合计 258 216 474 242 284 526
例3:气管炎是一种常见的呼吸道疾病,医药研究人 P(χ≥x0) 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001 员对两种中草药治疗慢性气管炎的疗效进行对比, x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 所得数据如表所示,问:它们的疗效有无差异? 复方江剪刀草 胆黄片 合计 有效 184 91 275 无效 61 9 70
n11 n1 n1 若 ,则吸烟是与肺癌无关联,可以认为它们相 n n n n1 n1 互独立。这个式子还可以改写为:n11 .在吸烟与患肺癌 n n1 n1 32.4<39 ,这说明既吸烟又患肺癌的人数比独 问题中, n
立时要多,在这种情况下,吸烟会使患肺癌的人数增加。
来衡量独立性的大小
2 n ( n n n n ) 11 22 12 21 可以化简为 2 n1 n2 n1n2
怎样描述实际观测值与估计值的差异呢? 统计学中采用
2 ( 观测值 预期值 ) 用卡方统计量: 2 预期值 来刻画实际观测值与估计值的差异.
即
ab bd 2 ab ac 2 (b n ) (a n ) n n n n k2 ab ac ab bd n n n n n n cd ac 2 cd bd 2 (c n ) (d n ) n n n n cd ac cd bd n n n n n n
根据这些数据能否断定:患肺癌与吸烟有关吗?
案例 患肺癌与吸烟是否有关? 肺癌与吸烟的调查数据 患肺癌 吸烟 不吸烟 总计 未患肺癌 总计
n11 =39
n12 =15 n22 =25 n2 =40
n1 =54
n2 =46
n21 =21 n1 =60
n =100
分析: 吸烟的人在调查总人数中所占的百分比:54% 患肺癌的人在调查总人数中所占的百分比:60% 既吸烟又患肺癌的人在调查总人数中所占的百分比:39% 显然, 54% 60% 39%。 我们有理由相信吸烟是与肺癌有关的。
P ( 6.635) 0.010
2率非常 小,近似为0.010 2 现在的 =7.307的观测值远大于6.635,出 现这样的观测值的概率不超过0.010。
故有99%的把握认为H0不成立,即有99%的把 握认为“患病与吸烟有关系”。
世博会英国馆
8.4列联表独立性 分析案例1(一)
2015/9/1
郑平正
制作
在许多实际问题中,我们需要考察两种因素的关系。例如: 数学解题能力是否与性别有关;高考升学率是否与补课有关。为 了分析这些问题,我们需要获取一些数据,并对数据进行分析处 理,对所得的结论作出判断。
某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽 样调查,共调查了 100 个成年人,其中吸烟者 54 人,不吸烟者 46 人,调查结果是:吸烟的 54 人中 39 人患病, 15 人不患病; 不吸烟的 46 人中 21 人患病, 25 人不患病。
2
合计 245 100 345
解:设H0:两种中草药的治疗效果没有差异。
345 184 9 61 91 2 11 .098 275 70 245 100
因当H0成立时,χ2≥10.828的概率为0.001,故有99.9%的把握 认为,两种药物的疗效有差异。
课堂小结 1.在统计学中,独立性检验就是检验两个分类变量是否有关 系的一种统计方法。
2
合计 98 95 193
解:设H0:药的效果与给药方式没有关系。
2
193 58 31 64 40 1 .3896 <2.072 122 71 98 95 因当H0成立时,χ2≥1.3896的概率大于15%,故不能否定假设 H0,即不能作出药的效果与给药方式有关的结论。
作业P87 习题?
2.为使不同的样本容量的数据有统一的评判标准,构造了一
2 n ( n n n n ) 11 22 12 21 个随机变量 2 n1 n2 n1n2
P(2 ≥x0) 0.50 0.40 0.25 0.15 x0
0.10
0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
实际上,为了应用概率论得到统计量的近似的分布,统计学 家最终选用了:
n11 n1 n1 2 n12 n1 n2 2 ( ) ( ) n n n n n 2 n[ n n1 n1 n1 n2 n n n n n21 n1 n2 2 n22 n2 n2 2 ( ) ( ) n n n n n n n1 n2 n2 n2 n n n n
P(2 ≥x0) 0.50 0.40 0.25 0.15 x0 0.10 0.05 0.025 0.010 0.005 0.001 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
P(2 ≥x0) 0.50 0.40 0.25 0.15 x0
0.10
0.05 0.025 0.010 0.005 0.001
0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828
例如 0.1%把握认为A 99.9%把握认 10.828 与B无关 为A与B有关 1%把握为A与B 99%把握认 2 6.635 无关 为A与B有关 90%把握认 10%把握认为 2 2.706 为A与B有关 A与B无关 没有充分的依据显示A与B有关 2 2.706 ,但也不能显示A与B无关
例 2:为研究不同的给药方式(口服与注射)和药的效 P(χ≥x 0.10 0.05 0.025 0.010 0.005 0.001 0) 0.50 0.40 0.25 0.15 果(有效与无效)是否有关,进行了相应的抽样调查, x0 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.828 调查的结果列在表中,根据所选择的193个病人的数 据,能否作出药的效果和给药方式有关的结论? 口服 注射 合计 有效 58 64 122 无效 40 31 71
吸烟 不吸烟 总计 患病 a c a+c 不患病 b d b+d 总计 a+b c+d a+b+c+d
第三步:引入一个随机变量:卡方统计量
k
2
a b c d a c b d
其中n a b c d
n ad bc
2
第四步:查对临界值表,作出判断。
2
独立性检验 解:H0: 吸烟和患病之间没有关系 患病 吸烟 不吸烟 总计 通过公式计算 39 21 60 不患病 15 25 40 总计 54 46 100
100 39 25 15 21 7.307 54 46 60 40
2 2
已知在 H 0 成立的情况下,
2 n ( ad bc ) 化简得 k 2 ( a c )(b d )( a b )(c d )
独立性检验
用χ2统计量研究 这类问题的方法 步骤
通过数据和图表分析,得到 结论是:吸烟与患病有关 结论的可靠 程度如何?
第一步:H0: 假设吸烟和患病之间没有关系
第二步:列出2×2列联表