当前位置:
文档之家› R语言--列联表检验和相关性检验概述
R语言--列联表检验和相关性检验概述
假设检验简介
3. 基本思想:反证法思想
为了检验一个“假设”是否成立,就先假定这个“假设”是成立的, 而看由此会产生的效果。如果导致一个不合理现象出现,就表明原先 的“假设”不成立,就拒绝这个“假设”;如果由此没有导致不合理 现象的发生,则不能拒绝原“假设”。
该方法又区别于纯数学中的反证法。这里所谓的“不合理”,并不是形式逻辑 中的绝对矛盾,而是基于人们实践中广泛采用的一个原则:小概率事件在一次 观察中可以认为基本上不会发生。
H0:X与Y独立,H1:X与Y不独立(相关). 用chisq.test()函数可完成列联表数据的Pearsonχ2 独立性检验,需将列联表写成矩阵形式。
P198,使用该函数计算 Pearson拟合优度χ2检验
5.5 列联表检验
例5.26 在一次社会调查中,以问卷方式共调查了901人的月收入及对工作的满意程度,其中有收入A分为:小于 3000元、3000~7500元、7500~12000元及超过12000元4档。对工作的满意程度B分为:很不满意、较不满意、基本 满意和很满意4档。调查表用4x4列联表表示,如表5.10所示。试分析工资收入与对工作的满意度是否有关。
后出生的儿童
88
76
64
96
65
80
81
72
60
总结
列联表检验
相关性检验
1. 2. 3. 4.
Pearsonχ2独立性检验 Fisher精确独立性检验 McNemar检验 三维列联表的条件独立性检验
cor.test()函数进行相关性系数的计算和检验
107
132
128
202
5.5 列联表检验
5. 三维列联表的条件独立性检验:
例5.30 表5.15是1976—1977年美国佛罗里达州的凶杀案件中,326名被告的肤色与 死刑判决情况表。试用这组数据分析,被判死刑是否与被告的肤色有关。
表5.15 被告肤色与死刑判决情况
被告
白种人 黑种人 合计
死刑 是 19 17 36 否 141 149 290
合计
160 166 326
用chisq.test()函数作χ2检验,再用prop.test()函数作比例检验。
5.5 列联表检验
例5.31 (继5.30)表5.16给出了带有被害人的数据。再分析被判死刑是否与被告的肤色有关。
表5.16 被告人与被害人肤色以及死刑判决情况 被告 被害人 白种人 白种人 黑种人 白种人 黑种人 黑种人 6 97 0 11 9 52 死刑 是 19 否 132
McNemar是用来比较两种检验,比如A和B,来看A和B是否有差异。
例5.29 某胸科医院同时用甲、乙两种方法测定202份痰标本中的抗酸杆菌,结果如 表5.14所示。问甲、乙两法的检出率有无显著差异?
表5.12 两组新生儿HBV感染情况的比较 乙 法 甲法 合计 — 25 74
+
49
+
—
合计
21
70
5.5 列联表检验
1. 概念 2. Pearsonχ2独立性检验 3. Fisher精确独立性检验
4. McNemar检验
5. 三维列联表的条件独立性检验
5.5 列联表检验
设两个随机变量X,Y均为离散型的,X取值于{a1, a2, …,aI}, Y取值 1. 概念: 于{b1, b2, …,bJ}。设(X1,Y1),(X2,Y2), …,(Xn,Yn)为简单样 本,记nij为(X1,Y1),(X2,Y2), …,(Xn,Yn)中等于( ai, aj ) 的个数。在求解问题时,常把数据列为形如表5.9的形式,称为 列联表;根据列联表数据做的检验称为列联表检验。
表5.10 列联表 工资收入 很不满意 较不满意 基本满意 很满意 合计
<3000
3000~7500 7500~12000 >12000 合计
20
22 13 7 62
24
38 28 18 108
80
104 81 54 319
82
125 113 92 412
206
289 235 171 901
5.5 列联表检验
假设检验简介
4. 两类错误:
第一类错误:否定了真实的原假设。 犯第一类错误的概率为:P {否定H0|H0为真|}
第二类错误:接受了错误的原假设。 犯第二类错误的概率为:P {接受H0|H0为假|}
5. P值:
犯第一类错误的概率,即:P 值=P {否定H0|H0为真}
当P值<α(如α=0.05),则拒绝原假设;否则,接受原假设。 使用P值的方法与使用拒绝域的方法是等价的。
采用连续修正的情况下, 参数orrect默认为TRUE
5.ቤተ መጻሕፍቲ ባይዱ 列联表检验
3. Fisher精确独立性检验:
在样本数较小时,需要用Fisher精确检验来完成独立性实验。 使用函数fisher.test()作精确独力检验。
例5.28 某医师为研究乙肝免疫球蛋白预防胎儿宫内感染HBV的效果,将33例HBsAg阳性孕妇随机分为
5.6 相关性检验
例5.33 一项有6个人参加表演的竞赛,有两人进行评定,评定结果如表5.18所示。试检验这两个评定员对 等级评定有无相关关系。 表5.18 两位评判者的评判成绩 甲的打分 乙的打分 1 6 2 5 3 4 4 3 5 2 6 1
例5.34 某幼儿园对9对双胞胎的智力进行检验,并按百分制打分。现有资料如5.19所示,使用Kendall相关 检验方法检验双胞胎的智力是否相关。 表5.19 9对双胞胎的得分情况 先出生的儿童 86 77 68 91 70 71 85 87 63
预防注射组和对照组,结果如表5.12所示。问两组新生儿的HBV总体感染率有无差别。
表5.12 两组新生儿HBV感染情况的比较 组别 预防注射组 对照组 合计 阳性 4 5 9 阴性 18 6 24 合计 22 11 33
用Fisher精确检验对吸烟数(据例5.27)作检验。
5.5 列联表检验
4. McNemar检验:
表5.9 列联表 b1 a1 a2 . . . aI 合计 n11 n21 . . . nI1 N·1 b2 n12 n22 . . . n2J N· 1 … … … bJ n1J n2J . . . nIJ N· 1 合计 n1· n2· . . . nI·
… …
5.5 列联表检验
2. Pearsonχ2独立性检验:
H0:ρXY=0,H0:ρXY≠0
5.6 相关性检验
例5.32 对于20个随机选取的黄麻个体植株,记录青植株重量Y与它们的干植株重量X。设 二元总体(X,Y)服从二维正态分布,其观测数据如表5.17所示。试分析青植株重量与干植 株重量是否有相关性。
表5.17 青植株与干植株的重量 X 1 2 3 4 5 6 7 68 63 70 6 65 9 10 Y 971 892 1125 82 931 112 162 8 9 10 11 12 13 14 X 12 20 30 33 27 21 5 Y 321 315 375 462 352 305 84 15 16 17 18 19 20 X 14 27 17 53 62 65 Y 229 332 185 703 872 740
R语言实用教程
第五章
假设检验
假设检验简介 5.5 列联表检验
5.6 相关性检验
总结
假设检验简介
1. 概念 2. 方法 3. 基本思想 4. 两类错误
5. P值
假设检验简介
1. 概念:假设检验是统计推断中的一个重要内容,它是利用样 本数据对某个事先做出的统计假设按照某种设计好的 方法进行检验,判断此假设是否正确。
例5.27 为了研究吸烟是否与患肺癌有关,对63位肺癌患者及43名非肺癌患者(对照组) 调查了其中的吸烟人数,得到2x2列联表,如表5.11所示。
表5.11 列联表 患肺癌 吸烟 不吸烟 合计 60 3 63 未患肺癌 32 11 43 合计 92 14 106
Chisq.test(x,correct=FALSE) 与 Chisq.test(x)
原假设/零假设(记为H0):作为检验的对象的假设。 备择假设(记为H1):与原假设对立的假设。
参数性假设检验:总体分布已知,通过样本检验 2. 方法
关于未知参数的某个检验。
用t.test()函数作 t 检验 用var.test()函数作 F 检验 用prop.text()函数作二项分布的近似检验
非参数性假设检验:总体分布未知时的检验问题。
用mantelhaen.test()函数完成Mantel-Haenszel检验。
5.6 相关性检验
cor.test()函数进行相关性系数的计算和检验:
函数功能:对成对数据进行相关性检验,有3中方法可供使用,分别是 Pearson检验、Kendall检验和Spearman检验。 函数的使用格式为: cor.test(x, y, alternative = c(“two.sided”, “less”, “greater”), method = c("pearson", "kendall", "spearman"),conf.level = 0.95) 其中x,y是供检验的样本;alternative指定是双侧检验还是单侧检验;method 为检验的方法;conf.level为检验的置信水平。