当前位置:文档之家› 数据统计学处理方法与选择

数据统计学处理方法与选择


2.5
2.0
2.6
2.5
1.6
2.6
1.8
1.7
1.9
2.0
2.6
样本均数与总体均数比较
(一)单变量计量资料的分析
2、配对样本均数比较 3、两样本均数比较
2014-12-26
冯启明
40名艾滋病患者随机分为两组,分别给予A药和B药治 疗,治疗后艾滋病患者血液CD4含量如下,请比较两组 患者治疗后CD4差异。
50 40 90 40 30 70
其他
40 60
干预组 150 对照组 120 合计 270
资料 类型
多项无序分类资料
案例2
请选择适当指标描述两组结果。
两方法治疗尖锐湿疣疗效比较
组别 例数 有效 无效
A方法
B方法
150
130
112
118
38
12
两项分类资料
案例3
请选择适当指标描述两组结果。
病人 编号 1 2 3 4 . 274
病案 号
004757 007950 011093 017555 . 279183
性 别 男 女 男 男 . 女
年龄 26 31 55 25 . 78
生理 评分 14 13 17 9 . 15
肾毒 黄疸 性 无 无 无 有 . 有 有 无 无 无 . 无
昏迷 无 无 无 无 . 无
数据统计学处理方法与选择
2014-12-26
第一部分
数据输入与整理
一、原始数据的录入
1、原始数据的记录形式
医学研究的原始数据常列成类似下表的二维结构,即行与列结构的数据集形式。 每 一 行 称 为 一 个 记 录 (record) , 或 一 个 观 察 单 位 (case) ; 每 一 列 称 为 一 个 变 量 Variable),用以表示变量、项目或观察指标等。 肾衰病人预后分析临床资料
治疗后艾滋病患者血液CD4含量
A药
B药
200, 250,300, 500 , 1005, 350, 280, 450,600, 780 1400,1250,1580,1890,900 1104,1589,789, 698, 1560 完全随机设计两样本均数比较
两种方法检测 7名艾滋病患者的血液 CD4含量, 所得结果如下。问:甲乙两法检出 CD4 含量 是否相同,用何统计方法?
某医院用某中药给8名吸毒者戒毒,在治疗前、治疗后一周、 二周、三周和四周分别测定患者的血清谷丙转氨酶SGPT的变化, 其数据如表5-2所示,试分析各周SGPT值的差别是否有显著性 意义。
ª í 5-2 Ð Ò Ö © Ö Î Á Æ 8Ã û Ñ ª Î ü ³ æ ² ¡ » ¼ Õ ß Ö Î Á Æ Ç ©ó º SGPT Ö µ µ Ä ª ä » ¯ Î Æ Ö Á º ó Ú Ò µ » Ö Ü 188 238 300 140 175 300 207 165 Ú ¶ µ þ Ö Ü 138 220 83 213 150 163 185 130 Ú È µ ý Ö Ü 63 188 100 144 100 144 122 l00 Ú Ë µ Ä Ö Ü 54 144 92 100 36 90 87 65 ¼ Õ » ß ª à º Å 1 2 3 4 5 6 7 8 Î Á Ö Æ Ç © 63 90 54 45 54 72 64 68
两方法治疗尖锐湿疣疗效比较
组别 例数
控制
30
显效
50
有效
22
无效
38
A方法 150
B方法 130
10
60
48
12
等级资料(多项有序分类资料)
资料统计描述方法
计量资料 集中 趋势 均数 几何均数 离散 趋势
全距 四分位数 间距 方差 标准差 变异系数
分类资料 计数资料
等级资料 二项分类 资料
多项无序 分类资料
第三部分
统计学假设检验方法的选择
选择统计方法的基本思路: 反应变量是单变量、双变量或多变量
数据属于哪种类型资料:计量资料、计数资料或等级资料
(针对单变量数据) 数据所属的设计类型:完全随机设计、配对设计、随机区组设 计或其他设计 影响因素是单因素还是多因素
数据是单一样本、两组样本还是多组样本
数据是否符合拟采用的统计分析方法的应用条件
2014-12-26
冯启明
二、输入数据的质量控制
1、数据核查 数据录入后,首先须对录入的数据进行核查,以确 保录入数据的准确性和真实性。核查准确性可分两步进 行。第一步逻辑检查,通过运行统计软件中的基本统计 量过程,列出每个变量的最大值与最小值,如果某变量 的最大值或最小值不符合逻辑,则数据有误;第二步将 原始数据与输入数据进行核对,更正错误。 在一些大型数据的录入过程中,为保证数据的质量, 往往采用对同一资料进行双人重复录入的方法,然后应 用程序对两个数据库进行比对,如有录入结果不符,则 进行核查,找出其错误所在。
件对其的定义为:观察值距箱式图(boxplot)的箱体底线(第25百
分位数)或顶线(第75百分位数)的距离为箱体高度(四分位数间距) 的1.5倍至3倍时被视为离群点,观察值距箱体底线或顶线的距离
超过3倍的箱体高度时被视为极端值。
300
93
250
200
95
150
100
39
50
94
0
体重
二、输入数据的质量控制
正态分布或对称分布资料
四分位数 间距 Q75-Q25
标准差 S
偏态数据或“开口数据”
几何均数 对数正态分布或成倍数关 系的数据 G 中位数 M 偏态数据或“开口数据”
正态分布或对称分布资料
某市抽查187名宾馆女性服务人员年龄资料如下
23 25 40 33 18 22 25 33 30 35 18
24
偏态分布与开口资 料,采用中位数(M) 与四分位数间距 (Q75-Q25)描述
1500~ 2000~ >=2500 合计
8 6 2 74
某人收集到如下的统计资料,从资料表达方式的角度 看,存在的主要错误是什么?该资料应如何进行表达?
艾滋病患者某药治疗前后CD4测定结果
治疗例数 治疗前 治疗后 19 19
A药组 365 394 373 375 358 370 350 410 360 B药组 348 355 319 354 352 356 324 356 350 C药组 360 368 386 369 352 371 374 368 372
完全随机设计多样本比较
按性别相同、年龄相近、病情相近把33例艾滋病患者配成11个 区组,每区组3个患者,分别给予A药、B药和C药治疗。治疗后 患者血浆中的IGA含量见表。问经三种不同药物治疗后该病患者 血浆中IGA含量有无差别? A药 B药 C药 1.67 1.77 2.10 随机区组 2.04 2.03 2.07 设计计量 1.38 1.45 1.48 资料 1.02 1.09 1.07 1.29 1.15 1.92 1.32 1.05 1.28 1.17 1.26 1.08 2.12 1.87 2.07 1.64 1.72 1.65 1.75 1.85 2.45 1.65 1.56 1.38
xs
24ª38 1008ª1586
标准差 大于均 数,提 示明显 偏态。
明显偏态资料-采用中位数描述平均水平,由于例 数太少,采用最大值-最小值反映离散。
二、分类资料的统计描述
案例1
请选择适当指标描述该两组资料结果。 艾滋病健康教育干预组与对照组的职业构成
组别
例数
工人
20 30 50
个体户 职员
二、输入数据的质量控制
2、缺失值的处理 在资料收集过程中,特别是大型数据的收集,不可避免的会 有一些缺失值产生,这主要来自于资料收集中的漏填和漏报。通 常认为,缺失值应控制在数据记录总量的10%以内。在计算机的
数据录入过程中,要注意把缺失值和“0”区分开来,“0”通常用
来表示“无”,即该事件未发生,具有确切的含义,表明该数据 已收集到;而缺失值表示该数据未填或未收集,两者要注意区分,
187名宾馆女性服务人员年龄分布
年龄分组(岁) <20 频数 21
20~
25~ 30~ >=35
49
89 19 9
计量资料统计描述
集中趋势
离散趋势
全距
四分位数 间距 方差 标准差 变异系数
均数
几何均数 中位数
计量资料描述的常用统计指标选择
集中趋势 指标 适用范围 离散趋势 指标 适用范围
均数
x
中位数

构成比
构成比
据表中某地、某年梅毒监测资料,计算各年龄的 构成比和梅毒报告发病率
某地、某年梅毒监测资料
年龄(岁)
0203040>=50 合 计
人口数
589452 654935 432567 123794 31129 1831877
梅毒报 构成比/% 发病率(1/万) 告数
19 194 503 536 261 1513
样本号 乙 法 甲 法 1 2 3 4 500 625 5 485 508 6 185 175 7 650 761
270 540 125 329 602 101
配对设计计量资料
(一)单变量计量资料的分析
4、多个样本均数比较
某研究者将 27 只感染艾滋病雄性猩猩随机分成三组(每组 9 只),给予不同处理,观察12周。测定。处理前后血液中的CD4 升高值见下表。问三组的CD4升高值是否相同?
3、离群数据的处理 若有离群数据出现,可分为两种情况处理:
(1)如果确认数据有逻辑错误,又无法纠正,可直接 删除该数据。例如,若某一数据中某病例的身高变量为 “1755”cm,且原始记录亦如;又无法再找到该病例时, 显然这是一个错误的记录,只能删除。 (2)若数据并无明显的逻辑错误,可将该数据剔除前 后各做一次分析,若结果不矛盾,则不剔除;若结果矛 盾,并需要剔除,必须给以充分合理的解释,例如用何 种方法确定偏离数据,该数据在实验中何种干扰下产生 等。
相关主题