当前位置：文档之家› 计数资料的统计分析2013

计数资料的统计分析2013

发病率（incidence）
• 是指一定时间内某人群中新发病例的频率。
某时期某人群中发生某病的新病例数发病率 K 同期该人群平均人口数
观察时间可为年、季、月，一般为年。 K可以为100%，1000‟，100000/10万年发病率/月发病率/季发病率
• 计算发病率时，分子确定要注意：
1、95%可信区间（置信区间）
• 定义：有95%(1-0.05())的可能性，在所计算得到可信区间包含了总体参数(不是总体参数落在该范围的可能性为95%)(置信区间) • 可信区间由可信上限和可信下限构成:
95% 可信区间CI
95 个包含总体均数 CI *5 个 CI 不包含总体均数
因此，统计推断结果的表达：P值与可信区间相结合，同时报告。
2、数值变量资料可信区间的分类
• 单个总体均数的估计 • 两个总体均数差值的估计：
– 基于两组比较t检验的可信区间
– 基于方差分析两两比较的可信区间
两两比较及计算效应量的95%可信区间
药物因素（不同药物）：两两比较的q检验及其均数差值的95%可信区间。
反映疾病严重程度及诊治水平,多用于急性病. 复发率缓解率有效率治愈率
2、构成比 (proportion)
• 说明某一事物内部各组成部分所占的比重和分布，常用百分数表示（0%-100%）。
结石部位胆囊（%）肝外胆管（%）肝内胆管（%）合计胆固醇 70 59.3 12 16.0 2 7.0 84 结石类型胆红素 16 13.6 39 52.0 20 69.0 75 其它 32 27.1 24 32.0 7 24.0 63 合计 118 100 75 100 29 100 222
3、应围绕研究本身全面考虑，再下结论
从研究设计、抽样等全面评估结果。如样本代表性，有无可能出现系统偏差等。
抽样误差
样本均数 x
系统误差
总体均数 ?
4、专业结论同样不能绝对化
• 因统计结论具有概率性质，专业结论同样不要使用“肯定”、“一定”、“必定”等词汇。
计数（分类变量）资料的统计分析
1
0%
50%
100%
一、计数资料的统计描述
（二）率、比 (构成比、相对比) rate, proportion, ratio
1、率 (rate, frequency)
率又包括频率指标(frequency)和强度指标 (rate)，用来测量一定时期内，某人群特定事件发生的频率或强度。
• 率=(发生某现象的观察单位数)/(某时间段可能发生某现象的观察单位数)
一、计数资料的统计描述
（一）图表: 频数表,直条图，饼图
变量类型的识别
病例号
1
2 3
年龄 (岁)
35
44 26
性别
女
男男
身高血型心电图尿WBC (m)
1.65
1.74 1.80
职业
教师
工人职员
RBC 1012/L
4.67
5.21 4.10
A
B O
正常
正常正常
－
－＋
4
5 6 7 8 9
• 比较两独立事件数量大小关系指标（独立指互不包含）：a/b
–是一个静态指标，反映一特定时间（time point）的情况。 –无时间单位
计数资料的统计描述：率与比的综合应用
例某地中毒与损伤汇总分析
年度 1993 1994 1995 1996 1997 1998 合计发病人数 584 571 714 748 942 1095 病死人数 8 10 12 16 21 24 91 病死率 1.37 1.75 1.68 2.14 2.23 2.19 构成比 8.8 11.0 13.2 17.6 23.0 26.4 相对比 -1.28 1.23 1.56 1.63 1.60
可信区间估计的优劣取决两个方面：准确度：1，即区间包含的理论概率大小，愈接近1愈好。精度：区间的宽度，区间愈窄愈好。精度：可信上限与可信下限间的宽度；与准确度、样本量、标准差大小有关。
可信区间(CI)能提供更多的推断信息：
区间范围是否包括总体参数（总体参数差值），若不包括，表明差别无统计学意义；同时能显示差别的程度及临床意义；可信区间CI不能提供确切概率,假设检验提供P值。
第二讲计量资料的统计分析（补）
一）假设检验：t检验，ANOVA ，秩和检验二）参数及可信区间估计 • 参数估计是用样本统计量估计总体参数，是假设检验的重要补充。
– 点估计：用样本统计量直接作为总体参数的估计值，简单但未考虑抽样误差的大小。 – 区间估计：即按预先设定的概率（1-）确定的包含未知总体参数的可能范围。
Based on observed means. *. The mean difference is significant at the .05 level.
三）统计推断结果的综合评价
1、应考虑统计推断的概率性
假设检验结论的概率性，应注意I/II型错误；在报告结论时，最好列出检验统计量的值，尽量写出具体的P值或P值的确切范围，而不简单写成P﹤0.05，以便读者与同类研究比较或进行Meta分析之用。
第三讲
计数资料的分类
• 无序分类：二项或二分类：对立、不相容的两类。如疗效：病死与未愈等。多项或多分类：互不相容的多类。如血型、疾病分型、种族等 • 有序分类：类间不相容且有程度差别。如疗效：痊愈、显效、好转、无效。特点：无度量衡单位；定性测量
临床研究中计数资料来源、分类
• 本身设置为分类变量(PI/ECOS) • 计量资料转化而来:
• 也称患病率或流行率，指某特定时间某人群中某病现患人数所占比重或比例。
特定时间某病现存病例数现患率 K 被调查（或检查）的人数
• 计算现患率时应注意： – 分子包括新、老病例，只要调查时正处于患病状态，均计算在内。 – 分母不考虑“暴露人口”
可分为时点现患率与期间现患率 point prevalence period prevalence 调查时应尽量缩短调查时间
Multiple Comparisons Dependent Variable: 肉重瘤量 Bonferroni Mean Difference (I-J) .1800 .3000* -.1800 .1200 -.3000* -.1200
(I) 药物 1.00 2.00 3.00
(J) 药物 2.00 3.00 1.00 3.00 1.00 2.00
原来分类
age1
1（18岁以下） 2（18-40岁） 3（40岁以上） 1 0 0
哑变量赋值
age2
0 1 0
结果18岁以下赋值为（1，0），18-40岁赋值为（0， 1），40岁以上赋值为（0，0）无序多分类变量同样赋值： A、B、AB、O ABO血型如何赋值?bt1,bt2,bt3?
革阳菌的哑变量赋值为（1，0，0），革阴菌哑变量赋值为（0，1，0），真菌哑变量赋值为（0，0，1）
如评价降压疗效时，将舒张压降低值分为三类：
<5mmHg
5-10mmHg 10-20mmHg
无效
有效显效
计量资料转化为计数资料，过程本身损失信息，应慎重。
计数资料的分类赋值

在赋值时应考虑类型而定。
* 二分类变量: 0,1 * 有序多分类：满足线性关系，多采用等间距赋值如 -、+、++、+++（0、1、2、3）不满足线性关系，采用哑变量赋值 * 无序多分类变量赋值： A、B、AB、O
–病人的发病时间要“落入”观察期内，即必须是新病例。 –注意病例与病人的区别。 –疾病必须确诊
新发病新发病新发病已发病新发病发病
观察期
2009.1.1 2009.12.31
• 分母：可能发病的人口数,其范围界定很关键
某时期某人群中发生某病的新病例数发病率 K 同期该人群暴露人口数
Std. Error .06181 .06181 .06181 .06181 .06181 .06181
Sig . .059 .004 .059 .264 .004 .264
95% Confidence Interval Lower Bound Upper Bound -.0064 .3664 .1136 .4864 -.3664 .0064 -.0664 .3064 -.4864 -.1136 -.3064 .0664
9
女
1.62
军人
2、直条图
3.5 3 2.5 2 1.5 1 0.5 0 工人干部职员军人农民教师
直条图(bar 条形图)：分类变量资料的频数图，
条与条间独立，顺序可不固定。与Histogram直方图不同
饼图/圆饼图/圆图/pie图
百分条图 (percent bar)
工人干部职员军人农民教师
25
41 45 50 28 31
女
男女女男女
1.61
1.71 1.58 1.60 1.76 1.62
AB
A B O AB O
正常
异常正常异常正常正常
＋
++ ++ ++ +++ ＋
农民
工人工人干部干部军人
3.92
3.49 5.48 6.78 7.10 5.24
1、频数表
部分原始数据
1 2 3 4？
例如：在先天性畸形儿与产妇年龄关系研究中，将年龄划分为三组，<18岁，18-40岁，>40岁。目的是探讨不同怀孕年龄段的先天性畸形儿发生是否不同？

e商务文档

计数资料的统计分析2013

相关文档推荐：