偏倚
变异的来源分为两个层次
生物学(真实)变异和测量变异 生物学变异 真实的客观变异
测量变异 测量过程的误差
随机变异和系统变异
随机变异 绝对值和方向交错变化,正态分布
系统变异 绝对值和方向保持恒定
个体水平的变异性
某个体特征测得值的变化,是个体真值随时间的改变, 或是由于测量误差引起的变化。
表 8-2 个体水平测得值的变异来源 变异来源 特 点 个体状态 日间变异,年龄、膳食或运动改变,环境因素(季节、 温度等) 测量误差 仪器标度差,仪器精密度差,仪器读数或记录错误
3.患颈椎病并属上等阶层:共1200人, 正常入院:1200×25%=300人 接受保健检查入院:900×40%=360人 实际入院人数:300+360=660人 4.患颈椎病不属上等阶层:共4800人 正常入院:4800×25%=1200 实际入院人数:1200
颈椎病与社会地位的关系:
社会地位 上等阶层 非上等阶层 合计
真值 均值
发 生 频 次
偏倚
随机误差
测量 均值
80
100
舒张压 ( mmHg )
血压计法测量某人舒张压值的分布
临床科学研究中的误差与样本的关系
偏倚
偏倚是指在调查研究设计或实施阶段,由于某 种或某些因素的影响,使得研究或推论结果与 真实情况存在系统误差,或者指在研究或推论 过程中所获得的结果系统地偏离其真实值,属 于系统误差。
死风险)的95%CI较小,未发生重叠,有显著性差异。
样本越大,效应估计值的抽样误差越小(95% 可信限越小),统计检验能发现的两组间效应差值 越小。 样本非常大,两组间差异很小的效应值也会有
统计学显著差异,但这很少有生物学或临床意义。
研究的真实性 概
真实性(效度)
述
定义 指研究收集的数据、分析结果和所得结论
现患-新发病例偏倚 (prevalenceincidence bias) / Neyman偏倚
☻ 入选的为现患或存活病例 ☻ 不包括死亡病例、病程短 的病例
解决办法:新发病例
例如:Friedman等人在美国弗明汉地区对胆固醇与冠 心病的关系中发现,男性居民在队列研究和病例对 照研究中RR和OR分别为2.4和1.16,
程度,又称为普遍性(generalizability)。它回答 一个研究能否推广应用到研究对象以外的人群。 改善措施 增加研究对象的异质性,使得研究对象的代
表性范围扩大。
研究误差
研究误差是真实性的反面,变异可以是真实的 (如生物学个体变异),而反映研究误差的变 异肯定是不真实的。
研究误差的两种常见类型
偏倚的方向
偏倚的方向是指对事物所产生的效应的估计值 是大于或小于效应真值所做出的一种定性判断, 不涉及偏倚的大小。
效应值为危险效应
正偏倚与负偏倚
负偏倚
正偏倚
RR=1 Null value
RR>1
效应值为保护效应
正偏倚
负偏倚
RR<1
RR=1 Null value
颠倒偏倚
RR>1
RR=1 Null value
原因:冠心病病人在确诊后,改变了原来的生活习惯 或嗜好,从而使血中胆固醇水平降低或与正常人相 比血中胆固醇水平增长速度较慢所致。
血胆固醇与冠心病的关系 队列研究 病例对照研究 胆固醇 水平 病例 对照 合计 病例 对照 合计 >75 85 462 547 38 34 72 <75 116 1511 1627 113 117 230 合计 201 1973 2174 151 151 302 RR=2.40 OR=1.16
个体状态
日间变异 年龄 膳食运动 环境
测量误差
仪器标度差 仪器精密度差 读数或记录错误
群体水平的变异性
个体的累计变异 群体中的个体具有不同的遗传素质并受环境影响 常大于个体变异 根据群体的变异范围确定“正常值”范围,用于判定 个体测得值是否“正常” 群体水平的变异性受测量误差影响
样本水平的变异性
时间效应偏倚 (time effect bias)
入院率偏倚 (admission rate) / Berkson偏倚
利用医院就诊或住院病例为研究对象,由于入 院率不同而导致偏差。
入院率偏倚 (admission rate) / Berkson偏倚
☻ 病例组与对照组 (其他疾病的患者) 入院率不同 ☻ 入选的与不入选的 暴露率不同
例如:在一般人群和住院病人中研究骨和运动器官疾 病与呼吸道疾病3; – 合计 OR
一般人群 + – 17 207 184 2376 201 2583 1.06
合计 224 2560 2784
住院病人 + – 合计 5 15 20 18 219 237 23 234 257 4.06
以医院中心肌梗死病人为病例进行 病例对照研究,得到结论:大量饮用咖 啡与心肌梗死无关。 而队列研究表明:大量饮用咖啡者 心肌梗死发病危险性是对照的2倍。 原因: Neyman bias 50%的心肌梗死患者入院前死亡。调查 对象只是心肌梗死后的幸存者; 死亡者多是大量饮用咖啡者且时间较长; 入院的未死亡病例只是一般的饮用者;
RR=1 Null value
RR>1
三.机遇 机遇是观察结果的精确性和可重复性受到影 响。机遇是一种随机误差,它是各测量结果 间受机会影响的变异度的大小,是任何观察 所固有的。 机遇对研究结果的影响具体表现在假阳性和 假阴 性上。例如评价两种疗法。
常见偏倚 选择偏倚 (selection bias) 信息偏倚 (information bias)
第十章 临床科研中常见的偏倚及防 治方法
研究结果的变异性
个体水平的变异性 群体水平的变异性 样本水平的变异性
概 述
变异性(variability) 研究结果包括描述性和分析性数据(指标)的变
动或波动。
表 8-1 变异性的水平和来源 变异性水平 变异的来源 个体 个体生物学变异,测量误差 群体 个体间遗传学变异,环境变异,测量误差 样本(研究) 抽样方式,样本大小,测量误差
通过不同样本研究所得结果的差异性
为什么高水平的血清总胆固醇是不利的或不健
康的? 这可以在关于血清总胆固醇与心血管死亡风险 呈正相关的研究中找到答案。 如Framingham心脏研究。
描述性结果的样本变异性
源群体 180,174,215,305 233,276,146,195 205,188,190,295 170,164,248,162 220,219,228,250 高胆固醇率 = 25% (>240mg/dL)
五年内发生 心肌梗死风险(%)
图 8-2 膳食与药物预防心机梗死的样本变异性示例
如图8-2,研究A和B中膳食改良组五年内发生心机梗 死的风险为9%,而降胆固醇药物组为6%。
研究A样本较小(200人),两组效应指标(心肌梗死
风险)的95%可信限较大,发生重叠,无显著性差异。
研究B样本较大(2000人),两组效应指标(心肌梗
样本 样本A A
305,276,195,215,170
样本 BB 样本
高胆固醇率 = 40%
295,146,220,162,228 样本 样本 CC 219,164,190,188,233
=20%
=0%
图 8-1 源群体与样本高胆固醇率的样本变异性示例
在上图中,群体高胆固醇率为25%,样本A 为40%,样本B为20%,样本C为0%。 增大样本含量,样本的变异性会减少。
与客观实际的符合程度。
内部真实性
内部真实性(internal validity) 定义 研究结果与实际研究对象真实情况 的符合程度 ,它回答一个研究本身是否真实或有 效。
改善措施
限制研究对象的类型和研究的环境条件。
外部真实性
外部真实性(external validity)
定义
研究结果与推论对象真实情况的符合
例:以糖尿病为对照研究肝癌与高血压的关系,假如人群中 糖尿病和肝癌患者各1000人,两种病人暴露于高血压者各 200人,暴露率为20%,计算结果如下:
高血压 + – 合计
肝癌 200 800 1000
糖尿病 200 800 1000
合计 400 1600 2000
OR=ad/bc=200×800/200 ×800=1 说明肝癌的发生与高血压无关
假定肝癌、糖尿病、高血压患者的入院率分别为 20%,50%和40%,计算结果如下:
肝癌合并高血压者200*20%+(20040)*40%=104 肝癌(无高血压者)=800*20%=160 糖尿病合并高血压者200*50%+(200100)*40%=140 糖尿病(无高血压者)=800*50%=400
假定肝癌、糖尿病、高血压患者的住院率分别为 20%,50%和40%,计算结果如下:
高血压 + – 合计
肝癌 104 160 264
糖尿病 140 400 540
合计 244 560 804
OR=ad/bc=104 ×400/160 ×140=1.86
说明两者有联系
社会阶层与颈椎病 假定某人群中有6000人患颈椎病, 6000人患冠心病,并且在患这两种疾病的 人中各有20%的人属于上等社会阶层。 这两种疾病的病人社会阶层情况: 1.患冠心病并属上等阶层:1200人 2.患颈椎病并属上等阶层:1200人 3.患冠心病不属上等阶层:4800人 2.患颈椎病不属上等阶层:4800人
混杂偏倚 (confounding bias)
选择偏倚
(Selection Bias)
指由于入选的研究对象与未入选的研 究对象在某些特征上存在差异而引起的 误差。这种偏倚常发生在设计阶段。