当前位置:
文档之家› 临床研究中常用统计分析方法及选择
临床研究中常用统计分析方法及选择
样本数据间的差异有两种原因所致
• 样本来自同一总体,差异因抽样误差所引起 • 样本来自不同总体,差异因不同总体所引起
假设检验以P值大小作为推断依据
• P值大,表示差异由抽样误差引起可能性大 • P值小,表示差异由抽样误差引起可能性小,即由总体不同引起 的可能性大 • 一般以0.05作为临界值来判断
比较目的 应用条件 统计方法 二项分布的直接法 二项分布的Z检验 二项分布的Z检验
样本率与总体率 n较小时 的比较 np>5且n(1-p)>5 两个率或构成比 np>5且n(1-p)>5 的比较(完全随 n>40且T>5 机设计) n>40且1<T<5
卡方检验
校正卡方检验
n<40或T<1
Fisher精确检验
3、常用等级资料假设检验方法
比较目的 两组比较(完全随机设计) 多组比较(完全随机设计) 配伍设计 配对设计 统计方法 Wilcoxon秩和检验 秩和检验(H检验) 秩和检验(Friedman检验) 符号秩和检验
几个例子
实例1 30只大鼠随机分为A、B、C三组,每组10只,分别给予三 种药物,5天后测定某指标值如下表。
矛盾:移民组的发病率在各个年龄组均高于英格兰和威尔 士组,为什么它的合计发病率反而低? 分析中混杂因素的控制
例子3:为鉴别胃癌、胃炎、非胃病患者,各测定了50名 对象的铜兰蛋白等指标,其中铜兰蛋白的观察结果如下:
胃癌
228 235 143
187 250
…
胃炎
非胃病
100 153 178
98
143 200
n较小,差值为非正态
多组资料的比较 (完全随机设计) 配伍资料的比较 (配伍设计) 正态分布,方差齐 非正态分布,方差不齐 正态分布,方差齐 非正态分布,方差不齐
配对设计的秩和检验
方差分析 秩和检验(H检验) 配伍设计的方差分析 配伍设计的秩和检验 (Friedman检验)
2、常用计数资料假设检验方法
◦ 方差是否齐同(相等) ◦ 粗略判断 两组标准差之比在2.5倍以上,就得警惕Байду номын сангаас差不齐
描述数值变量资料的常用指标
指标名称 均数(X) 中位数(M) 几何均数(G) 标准差(s) 四分位数间距 极差(R) 变异系数(CV) 适用的资料 正态分布或近似正态分布 偏态分布、分布未知、两端无界 对数正态分布、等比资料 正态分布或近似正态分布 偏态分布、分布未知、两端无界 观察例数相近的数值变量 比较几组资料间的变异大小
(二)组间比较常用的假设检验方法
根据资料类型选择
计量资料的假设检验
• t检验、F检验(方差分析)、Z检验、秩和检验 (Wilcoxon秩和检验、H检验、Friedman检验)等
计数资料的假设检验
• 卡方检验、Z检验等
等级资料的假设检验
• 秩和检验(Wilcoxon秩和检验、H检验、Friedman检验)
• 数据的分布特征(正态、偏态) • 方差齐性 • 理论数大小 • 样本量大小
三、数据资料的描述
108例高血压患者治疗后临床记录
编号 年龄 性别 治疗组 舒张压 心电图 疗效
NO 1 2 3 4 … 108
X1 37 45 43 59 54
X2 男 女 男 女 … 男
X3 A B A B B
X4 11.27 12.53 10.93 14.67 … 16.80
实例3
72只小鼠随机分为3组,每组24只,进行实验,分别于试验 后1,3,5,7天处死小鼠6只小鼠,测定大脑中酪氨酸激酶B 的表达水平,如下表。
资料特点:计量资料,三组,重复测量? 析因设计? 不妥的方法:每个时间点用t检验,重复测量的方差分析 恰当的方法:3×4析因设计方差分析
实例4 两组手术病人,采用两种不同的镇痛方式(试验组、对照 组),于手术后24小时测定血清中的IL-6,结果如下表。
资料特点:完全随机设计,计量资料,三组 不妥的方法:t检验 恰当的方法:方差分析
实例2
36只大鼠随机分为对照组、实验组1、实验组2三组,每组12 只,分别给予三种饲料,分别于10天、15天、20天、25天测 定大鼠体重,如下表。
资料特点:完全随机设计,计量资料,三组,重复测量 不妥的方法:每个时间点用t检验或方差分析 恰当的方法:重复测量的方差分析
X5 正常 正常 异常 异常 正常
X6 显效 有效 有效 无效 无效
(一)数值变量资料的描述
通过绘制直方图可以直观了解数据的分布
平均水平
平均水平
变异水平
偏态分布
近似正态分布
偏态分布形状
研究中,右偏态分布更常见,如住院时间,住院费用,病程等 左偏态分布较少见,如考生成绩有时呈左偏态分布
方差齐性
无序分类:指类别或属性间无顺序、程度之分
例如,性别(男、女)为二分类 血型(A、B、AB、O)为多分类
有序分类:指类别间存在着次序,或程度上的差异。
例如,治疗效果:无效、好转、显效、治愈 实验室检验:–、+、++、+++
(四)数据特征
任何统计方法都有自己的适用条件,只有当某个或某些条 件满足时,统计计算公式才成立 适用条件可根据数据特征来判断
(二)分析目的
对临床资料进行统计描述
◦ 描述性统计分析方法 ◦ 如,均数,中位数,标准差,百分比,频数分布等
估计总体参数
◦ 95%可信区间
对几组资料进行差异性检验
◦ 假设检验方法 ◦ 如,t检验,卡方检验,方差分析,秩和检验等
探讨变量之间的关系,或者自变量(影响因素) 对应变量(结果变量)的影响大小
资料特点:计量资料,两组,标准差相差比较大(方差不齐) 不妥的方法:t检验 恰当的方法:t’检验 或者 Wilcoxon秩和检验
实例5
两组病人,采用两种药物治疗,治疗疗效如下表。经卡方 检验,P=0.0486,差异有统计学意义。因此可以认为试验组 的疗效比对照组的疗效好。
资料特点:计数资料,两组,例数比较少 不妥的方法:卡方检验 恰当的方法:Fisher精确检验
2、常用计数资料假设检验方法(续表)
比较目的 配对四格表比较 (配对设计) 应用条件 b+c >40 np>5且n(1-p)>5 统计方法 配对卡方检验 校正配对卡方检验
多个率或构成比的比较 (完全随机设计)
全部格子T>5 或1<T<5小于25% T<1或1<T<5超过25%
卡方检验 Fisher精确检验
(一)研究设计
析因设计
--同时研究多个实验因素对结果的影响 --例如,研究药物剂量(3mg、6mg)及给药方式(口服、肌注) 对结果的影响,每种组合均需要做试验(3mg+口服,3mg+肌 注, 6mg+口服,6mg+肌注),为2×2析因设计
重复测量设计
--同一对象在不同时间点上进行某个指标的观测,以分析该 指标在时间上的变化。 --临床上很常见的一类资料
该新药是否值得推广?
假设检验及临床优效性检验
例子2:英国某年全人口统计资料
英格兰和威尔士 年龄 分组 0~ 5~ 15~ 45~ 65~ 合计 人口 (千人) 1900 3100 9400 4900 2000 21300 发病数 1406 186 1786 7350 17400 28128 发病率 (10 万) 74.0 6.0 19.0 150.0 870.0 132.1 人口 (千人) 26 30 127 25 5 213 移民 发病数 21 2 27 42 48 140 发病率 (10 万) 80.8 6.7 21.3 168.0 960.0 65.7
中位数
平均水平
均数
平均水平
偏态分布
近似正态分布
变异水平
P25,P75 四分位数间距
标准差
论文中最常用组合
正态分布或近似正态分布:
均数 与 标准差
偏态分布或未知分布
中位数 与 P25、P75(四分位数间距)
(二)分类变量资料的描述
通常需要描述各个类别的频数及频率(百分比)
108 名高血压患者的疗效 疗效 治愈 显效 有效 无效 频数 46 29 18 15 百分比 (%)
1、常用计量资料的假设检验
比较目的 样本与总体比较 n较大 n大小均可 两组资料的比较 (完全随机设计) n较大 n较小,正态分布,方差齐 n较小,非正态分布,方差不齐 应用条件 Z检验 t检验 Z检验 t检验 Wilcoxon秩和检验 t’检验 统计方法
1、常用计量资料的假设检验(续表)
比较目的 配对资料的比较 (配对设计) 应用条件 n较大(任意分布) n较小,差值为正态 统计方法 配对设计Z检验 配对设计的t检验
…
…
123 170 100 120
问:三种人的铜兰蛋白有无不同? 能否根据测定的铜兰蛋白数据对患者进行初步诊断? 假设检验及判别诊断
例子4:研究心肌梗死患者预后的影响因素,以是否发生 心性死亡作为观察结果指标,对116名心梗患者的22个可 能影响预后的因素进行观察和记录
结局指标:心性死亡
预后因素:年龄、性别、高血压病、心梗位置、心梗分级、
实例7
欲研究治疗某病的改进法(传统药+辅药)与传统法(传统药) 在不同剂量下的疗效。将150例研究对象随机分成10组,每组15例; 每种剂量及每种疗法下观察15例。结果如下表:
资料特点:结果变量:是否有效,二分类(有效、无效) 两个影响因素:治疗方法、药物剂量 不妥的方法:卡方检验或Fisher精确检验 恰当的方法:多因素分析中的Logistic回归分析
实例6
两组病人,采用两种药物治疗,治疗疗效如下表。经卡方检 验,P=0.0570,差异无统计学意义。