当前位置:文档之家› 计数资料的统计分析2013

计数资料的统计分析2013


发病率(incidence)
• 是指一定时间内某人群中新发病例的频率。
某时期某人群中发生某病的新病例数 发病率 K 同期该人群平均人口数
观察时间可为年、季、月,一般为年。 K可以为100%,1000‟,100000/10万 年发病率/月发病率/季发病率
• 计算发病率时,分子确定要注意:
1、95%可信区间(置信区间)
• 定义:有95%(1-0.05())的可能性,在所计 算得到可信区间包含了总体参数(不是总体参 数落在该范围的可能性为95%)(置信区间) • 可信区间由可信上限和可信下限构成:
95% 可信区间CI
95 个 包 含 总 体 均 数 CI *5 个 CI 不 包 含 总 体 均 数
因此,统计推断结果的表达:P值与可 信区间相结合,同时报告。
2、数值变量资料可信区间的分类
• 单个总体均数的估计 • 两个总体均数差值的估计:
– 基于两组比较t检验的可信区间
– 基于方差分析两两比较的可信区间
两两比较及计算效应量的95%可信区间
药物因素(不同药物):两两比较的q检 验及其均数差值的95%可信区间。
反映疾病严重程度及诊治水平,多用于急性病. 复发率 缓解率 有效率 治愈率
2、构成比 (proportion)
• 说明某一事物内部各组成部分所占的比重和分布, 常用百分数表示(0%-100%)。
结石 部位 胆囊 (%) 肝外胆管 (%) 肝内胆管 (%) 合计 胆固醇 70 59.3 12 16.0 2 7.0 84 结石类型 胆红素 16 13.6 39 52.0 20 69.0 75 其它 32 27.1 24 32.0 7 24.0 63 合计 118 100 75 100 29 100 222
3、应围绕研究本身全面考虑,再下 结论
从研究设计、抽样等全面评估结果。如样本代 表性,有无可能出现系统偏差等。
抽样误差
样本均数 x
系统误差
总体均数 ?
4、专业结论同样不能绝对化
• 因统计结论具有概率性质,专业结论同样不 要使用“肯定”、“一定”、“必定”等词 汇。
计数(分类变量)资料的统计分析
1
0%
50%
100%
一、计数资料的统计描述
(二)率、比 (构成比、相对比) rate, proportion, ratio
1、率 (rate, frequency)
率又包括频率指标(frequency)和强度指标 (rate),用来测量一定时期内,某人群特 定事件发生的频率或强度。
• 率=(发生某现象的观察单位数)/(某时间段 可能发生某现象的观察单位数)
一、计数资料的统计描述
(一)图表: 频数表,直条图,饼图
变量类型的识别
病例号
1
2 3
年龄 (岁)
35
44 26
性别

男 男
身高 血型 心电图 尿WBC (m)
1.65
1.74 1.80
职业
教师
工人 职员
RBC 1012/L
4.67
5.21 4.10
A
B O
正常
正常 正常

- +
4
5 6 7 8 9
• 比较两独立事件数量大小关系指标(独立指 互不包含):a/b
–是一个静态指标,反映一特定时间(time point) 的情况。 –无时间单位
计数资料的统计描述:率与比的综合应用
例 某地中毒与损伤汇总分析
年度 1993 1994 1995 1996 1997 1998 合计 发病人数 584 571 714 748 942 1095 病死人数 8 10 12 16 21 24 91 病死率 1.37 1.75 1.68 2.14 2.23 2.19 构成比 8.8 11.0 13.2 17.6 23.0 26.4 相对比 -1.28 1.23 1.56 1.63 1.60
可信区间估计的优劣取决两个方面: 准确度:1,即区间包含的理论概率大小,愈 接近1愈好。 精度:区间的宽度,区间愈窄愈好。 精度:可信上限与可信下限间的宽度; 与准确度、样本量、标准差大小有关。
可信区间(CI)能提供更多的推断信息:
区间范围是否包括总体参数(总体参数差 值),若不包括,表明差别无统计学意义; 同时能显示差别的程度及临床意义; 可信区间CI不能提供确切概率,假设检验提 供P值。
第二讲 计量资料的统计分析(补 )
一)假设检验:t检验,ANOVA ,秩和检验 二)参数及可信区间估计 • 参数估计是用样本统计量估计总体参数,是 假设检验的重要补充。
– 点估计:用样本统计量直接作为总体参数的 估计值,简单但未考虑抽样误差的大小。 – 区间估计:即按预先设定的概率(1-)确定 的包含未知总体参数的可能范围。
Based on observed means. *. The mean difference is significant at the .05 level.
三)统计推断结果的综合评价
1、应考虑统计推断的概率性
假设检验结论的概率性,应注意I/II型 错误;在报告结论时,最好列出检验统计量 的值,尽量写出具体的P值或P值的确切范围, 而不简单写成P﹤0.05,以便读者与同类研究 比较或进行Meta分析之用。
第三讲
计数资料的分类
• 无序分类: 二项或二分类:对立、不相容的两类。 如疗效:病死与未愈等。 多项或多分类:互不相容的多类。 如血型、疾病分型、种族等 • 有序分类:类间不相容且有程度差别。 如疗效:痊愈、显效、好转、无效。 特点:无度量衡单位;定性测量
临床研究中计数资料来源、分类
• 本身设置为分类变量(PI/ECOS) • 计量资料转化而来:
• 也称患病率或流行率,指某特定时间某人群中 某病现患人数所占比重或比例。
特定时间某病现存病例数 现患率 K 被调查(或检查)的人数
• 计算现患率时应注意: – 分子包括新、老病例,只要调查时正处于患病 状态,均计算在内。 – 分母不考虑“暴露人口”
可分为时点现患率与期间现患率 point prevalence period prevalence 调查时应尽量缩短调查时间
Multiple Comparisons Dependent Variable: 肉 重 瘤 量 Bonferroni Mean Difference (I-J) .1800 .3000* -.1800 .1200 -.3000* -.1200
(I) 药 物 1.00 2.00 3.00
(J) 药 物 2.00 3.00 1.00 3.00 1.00 2.00
原来分类
age1
1(18岁以下) 2(18-40岁) 3(40岁以上) 1 0 0
哑变量赋值
age2
0 1 0
结果18岁以下赋值为(1,0),18-40岁赋值为(0, 1),40岁以上赋值为(0,0) 无序多分类变量同样赋值: A、B、AB、O ABO血型如何赋值?bt1,bt2,bt3?
革阳菌的哑变量赋值为(1,0,0),革阴菌哑变量 赋值为(0,1,0),真菌哑变量赋值为(0,0,1)
如评价降压疗效时,将舒张压降低值分为三类:
<5mmHg
5-10mmHg 10-20mmHg
无效
有效 显效
计量资料转化为计数资料,过程本身损失信 息,应慎重。
计数资料的分类赋值

在赋值时应考虑类型而定。
* 二分类变量: 0,1 * 有序多分类: 满足线性关系,多采用等间距赋值 如 -、+、++、+++(0、1、2、3) 不满足线性关系,采用哑变量赋值 * 无序多分类变量赋值: A、B、AB、O
–病人的发病时间要“落入”观察期内,即必须是 新病例。 –注意病例与病人的区别。 –疾病必须确诊
新发病 新发病 新发病 已发病 新发病 发病
观察期
2009.1.1 2009.12.31
• 分母:可能发病的人口数,其范围界定很关键
某时期某人群中发生某病的新病例数 发病率 K 同期该人群暴露人口数
Std. Error .06181 .06181 .06181 .06181 .06181 .06181
Sig . .059 .004 .059 .264 .004 .264
95% Confidence Interval Lower Bound Upper Bound -.0064 .3664 .1136 .4864 -.3664 .0064 -.0664 .3064 -.4864 -.1136 -.3064 .0664
9

1.62
军人
2、直条图
3.5 3 2.5 2 1.5 1 0.5 0 工人 干部 职员 军人 农民 教师
直条图(bar 条形图):分类变量资料的频数图,
条与条间独立,顺序可不固定。 与Histogram直方图不同
饼图/圆饼图/圆图/pie图
百分条图 (percent bar)
工人 干部 职员 军人 农民 教师
25
41 45 50 28 31

男 女 女 男 女
1.61
1.71 1.58 1.60 1.76 1.62
AB
A B O AB O
正常
异常 正常 异常 正常 正常

++ ++ ++ +++ +
农民
工人 工人 干部 干部 军人
3.92
3.49 5.48 6.78 7.10 5.24
1、频数表
部分原始数据
1 2 3 4?
例如:在先天性畸形儿与产妇年龄关系研究中,将 年龄划分为三组,<18岁,18-40岁,>40岁。目的是 探讨不同怀孕年龄段的先天性畸形儿发生是否不同?
相关主题