真实性与偏倚
三 样本水平的变异性
定义
不同样本的研究所得结果的差异性
来源
抽样方式 样本大小 测量误差
分类
描述性结果的样本变异性(图1) 分析性结果的样本变异性(图2)
样本水平的变异性
通过不同样本研究所得结果的差异性 为什么高水平的血清总胆固醇是不利的或 不健康的?
这可以在关于血清总胆固醇与心血管死亡
风险呈正相关的研究中找到答案。 如Framingham心脏研究。
来源
个体状态 测量误差
表2 个体水平的变异来源
变异来源 个体状态
特
点
日间变异, 年龄、 膳食或运动改变, 环境因素 (季节、 温度等)
测量误差
仪器标度差,仪器精密度差,仪器读数或记录错误
二 群体水平的变异性 来源 个体间遗传变异 环境变异 测量误差 特点 变异程度常常大于个体的变异 也受到测量误差的影响 可确定“正常值”范围
OR= (60╳60)/(40╳40)=2.3
OR= (60╳68)/(40╳32)=3.2
表 图 8-3 无差异性错误分类和差异性错误分类的示例
信息偏倚常见的种类
差异性信息偏倚的常见类型
不应答偏倚 回忆偏倚 报告偏倚(说谎偏倚) 社会期望偏倚 诊断怀疑偏倚 暴露怀疑偏倚 测量偏倚
真实性的反面(研究误差)
概念 研究结果与客观实际存在不符合的地方 分类 系统误差 随机误差
一 内部真实性(internal validity)
定义 研究结果与实际研究对象真实情况的符合程 度,回答一个研究本身是否真实或有效 改善措施 限制研究对象类型 限定研究的环境条件 限定干预措施
源群体
180 ,174,215,305
样本A
305,276,195,215,170
高胆固醇率
= 40%
233,276,146,195
205,188,190,295 170,164,248,162 220,219,228,250
样本B
295,146,220,162,228
=20%
样本C
219,164,190,188,233
1976 年,Miettinen 详细讨论了偏倚的定义,
并给出分类框架,分三类 选择偏倚 信息偏倚 混杂偏倚
偏倚 定义
属于系统误差,在研究或推论过程 中所获得的结果系统地偏离其真实值 特点 具有单方向性 可高于真值,也可低于真值 分类 选择偏倚、信息偏倚、混杂偏倚
一 选择偏倚 ( selection bias ) 研究者在挑选研究人群时由 于选择条件受限制或设计失误所 致的系统误差 常见种类 控制方法
E C D
(1)继发关联
E ? F D
(2)直接因果关联的歪曲
E ? F ? D
(3)直接因果关联的歪曲
图 8-4 混杂偏倚引起假关联
调控方法
分层分析 多变量分析
配比
随机化分配
限制进入
真实性(validity) 定义
研究收集的数据、分析结果和所得结 论与客观实际的符合程度 两个方面 内部真实性 外部真实性
?
图A
F
?
图B
D
D
混杂偏倚
例如 静脉吸毒E与性乱F都是HIV感染D的 危险因素,吸毒者易发生多性伴行为, 即吸毒同HIV感染既存在直接关联(E→D) 又存在间接关联(E→F→D),吸毒与多 性伴没有确定的时间先后而呈双向相关, 多性伴F将对吸毒E与HIV感染D的直接因 果关联起混杂或歪曲作用。
混杂偏倚
0
5
10
15
五年内发生 心肌梗死风险(%)
研究 B(研究对象 2000 人,随机分配到两组) 膳食改良组 降胆固醇药物组
0
5
10
15
五年内发生 心肌梗死风险(%)
图2
膳食与药物预防心机梗死的样本变异性示例
图2,研究A和研究B中膳食改良组五年内发生 心梗死的风险为9%,降胆固醇药物组为6% A样本较小(200人),两组效应指标(心肌梗 死风险)的95%可信限较大,从而发生重叠, 统计检验无显著性差异 研究B样本较大(2000人),两组效应指标的 95%可信限较小,从而未发生重叠,统计检验 有显著性差异 一般而言,研究样本越大,效应估计值的抽样 误差越小(95%可信限越小),统计检验能发 现的两组间效应差值越小
二 外部真实性(external validity) 研究结果与推论对象真实情况的 符合程度,又称普遍性,回答一个 研究能否推广应用到研究对象以外 的人群
内部真实性与外部真实性的联系
推论代表性不好,内部真实性可能好, 而外部真实性差 增加研究对象的同质性(如限制类型如 年龄、职业、体质特征或疾病分型等), 可改善内部真实性 增加研究对象的异质性,可改善外部真 实性
OR= (60╳60)/(40╳40)=2.3
研究真实数据 研究真实数据
OR= (48╳68)/(52╳32)=2.0 差异性错误分类 差异性错误分类
错误分类数据 错误分类数据
心肌梗死 对 照
高脂肪 膳食 60 40
低脂肪 膳食 40 60
心肌梗死 对 照
高脂肪膳 食 60 32
低脂肪 膳食 40 68
定义 是一种纯粹由混杂偏倚产生的关联 即怀疑的病因(暴露)E与疾病D并不存在 因果关系,而是由于两者(E,D)有共同的原因 C,E,D同C存在关联,从而继发产生E与D的关联。 E
C
?
D
例如 高血清胆固醇是冠心病的危险因素,高血 清胆固醇可产生沉积于眼睑的黄色瘤,从而导致
黄色瘤与冠心病的继发关联。另外,E与C也可以
研究结果的真实性与偏倚
主要内容
研究结果的变异性 研究的偏倚 研究的真实性
引言
研究结果的解说涉及到研究的真实性与 因果推断的问题。研究结果的真实性直 接关系到是否获得正确的结论,而真实 性需要通过变异性估计来确定 对于因果关系的研究,从研究结果如何 做出正确的因果推断,也是非常重要的
研究结果的变异性
描述性研究的选择偏倚
主要体现在样本对总体的代表性上 如不是采用随机抽样而是使用方便样本,或某些 特定群体(志愿者、因特网利用者等)造成的外部效 度(外推)受限问题。 控制方法
尽量采用随机抽样,避免样本选取的偏向
对特定群体的结果在外推上要谨慎等
分析性研究的选择偏倚
主要体现 研究对象进入、排除、不参与或失访等与研究
误差
定义
指对事物某一特征的度量值偏离真实 值的部分,即测定值与真实值之差 分类 随机误差 系统误差(偏倚)
举例:用动脉血压计测量某人血压(实际值为 80mmHg),各次读数的均值为100mmHg,系统 误差和随机误差可用以下图示
发 生 频 次
系统误差
随机误差
80
100
舒张压 (mmHg)
来自于被调查者
来自于调查者
来自于测量仪器
控制方法
明确资料收集方法和严格质量控制 尽可能采用盲法 采用客观指标的信息 采用调查技巧避免回忆偏倚 资料校正
三 混杂偏倚
暴露因素与疾病发生的相关(关联)程度受
到其他因素的歪曲或干扰
判定方法
专业知识
分层分析进行定量判别
继发关联(secondary association)
高胆固醇率 = 25% (>240mg/dL)
=0%
图1 源群体与样本高胆固醇率的样本变异性示例
源群体高胆固醇率为25%,样本A为40%,样本B为 20%,样本C为0%。如果增大样本含量,样本的变异性 会减少,样本的高胆固醇率对群体的代表性会增大
研究 A(研究对象 200 人,随机分配到两组) 膳食改良组 降胆固醇药物组
变异性
描述性和分析性数据(指标)的变动 或波动
表1 变异性的水平
变异性水平 个体 变异的来源 个体生物学变异、测量误差
群体 样本(研究)
个体间遗传学变异、环境变异、测量误差 抽样方式、样本大小、测量误差
一 个体水平的变异性
定义
某个体特征测得值的变化,可以是个体真 值随时间的改变,也可以是由于测量误差引起 的变化
象的代表性,增加应答和减少失访等
选择偏倚的控制
随机选择研究对象; 选择多种对照; 明确规定纳入和排除标准; 选择依从性高的对象,掌握调查技巧; 延长收集病例的时间; 尽量采用敏感的疾病早期检查技术,或 者开展观察期较长的纵向调查;
二 信息偏倚(information bias)
在收集和整理有关暴露或疾病资料时所 出现的系统误差,主要发生在观察、收集资料 及测量等实施阶段。
暴露或处理因素存在关联,由此增大或减少暴露与疾病、 处理与效应的关联,导致效应估计的偏倚。 控制方法 分析研究对象的选取是否同暴露或处理因素有关
常见选择偏倚 入院偏倚
失访偏倚
志愿者偏倚
确定有无选择偏倚的关键
把握选取环节或已入选对象,是否存在人为
增大或减少研究因素与结局的关联程度
控制方法
严密掌握对象选取的各个环节,注意选取对
由于相关(因果方向不明)而产生继发关联。 例如 吸烟是胰腺癌的危险因素,吸烟又与喝咖 啡存在相关(没有确定的时间先后),从而造成 喝咖啡与胰腺癌的继发关联。
直接因果关联的歪曲 如果怀疑病因E与疾病D既存在直接关联,又存 在间接关联(图A)或与其他危险(保护)因素F存在 相关(图B),暴露E与疾病D的直接因果关联程度或 方向将可能受到混杂干扰,即得到歪曲的关联估计 值。 E E F
图3 血压计法测量舒张压值的分布