当前位置：文档之家› 真实性与偏倚

真实性与偏倚

三样本水平的变异性

定义
不同样本的研究所得结果的差异性

来源
抽样方式样本大小测量误差

分类
描述性结果的样本变异性（图1）分析性结果的样本变异性（图2）
样本水平的变异性
通过不同样本研究所得结果的差异性为什么高水平的血清总胆固醇是不利的或不健康的？
这可以在关于血清总胆固醇与心血管死亡
风险呈正相关的研究中找到答案。如Framingham心脏研究。

来源
个体状态测量误差
表2 个体水平的变异来源
变异来源个体状态
特
点
日间变异，年龄、膳食或运动改变，环境因素（季节、温度等）
测量误差
仪器标度差，仪器精密度差，仪器读数或记录错误
二群体水平的变异性来源个体间遗传变异环境变异测量误差特点变异程度常常大于个体的变异也受到测量误差的影响可确定“正常值”范围
OR= (60╳60)/(40╳40)=2.3
OR= (60╳68)/(40╳32)=3.2
表图 8-3 无差异性错误分类和差异性错误分类的示例
信息偏倚常见的种类
差异性信息偏倚的常见类型

不应答偏倚回忆偏倚报告偏倚(说谎偏倚) 社会期望偏倚诊断怀疑偏倚暴露怀疑偏倚测量偏倚

真实性的反面（研究误差）
概念研究结果与客观实际存在不符合的地方分类系统误差随机误差

一内部真实性（internal validity）

定义研究结果与实际研究对象真实情况的符合程度，回答一个研究本身是否真实或有效改善措施限制研究对象类型限定研究的环境条件限定干预措施
源群体
180 ，174，215，305
样本A
305，276，195，215，170
高胆固醇率
= 40%
233，276，146，195
205，188，190，295 170，164，248，162 220，219，228，250
样本B
295，146，220，162，228
=20%
样本C
219，164，190，188，233
1976 年，Miettinen 详细讨论了偏倚的定义，
并给出分类框架,分三类选择偏倚信息偏倚混杂偏倚
偏倚定义
属于系统误差，在研究或推论过程中所获得的结果系统地偏离其真实值特点具有单方向性可高于真值，也可低于真值分类选择偏倚、信息偏倚、混杂偏倚
一选择偏倚（ selection bias ）研究者在挑选研究人群时由于选择条件受限制或设计失误所致的系统误差常见种类控制方法
E C D
(1)继发关联
E ？ F D
(2)直接因果关联的歪曲
E ？ F ？ D
(3)直接因果关联的歪曲
图 8-4 混杂偏倚引起假关联
调控方法

分层分析多变量分析

配比
随机化分配
限制进入
真实性（validity）定义
研究收集的数据、分析结果和所得结论与客观实际的符合程度两个方面内部真实性外部真实性
?
图A
F
?
图B
D
D
混杂偏倚
例如静脉吸毒E与性乱F都是HIV感染D的危险因素，吸毒者易发生多性伴行为，即吸毒同HIV感染既存在直接关联（E→D）又存在间接关联（E→F→D），吸毒与多性伴没有确定的时间先后而呈双向相关，多性伴F将对吸毒E与HIV感染D的直接因果关联起混杂或歪曲作用。
混杂偏倚
0
5
10
15
五年内发生心肌梗死风险（%）
研究 B（研究对象 2000 人，随机分配到两组）膳食改良组降胆固醇药物组
0
5
10
15
五年内发生心肌梗死风险（%）
图2
膳食与药物预防心机梗死的样本变异性示例

图2，研究A和研究B中膳食改良组五年内发生心梗死的风险为9%，降胆固醇药物组为6% A样本较小（200人），两组效应指标（心肌梗死风险）的95%可信限较大，从而发生重叠，统计检验无显著性差异研究B样本较大（2000人），两组效应指标的 95%可信限较小，从而未发生重叠，统计检验有显著性差异一般而言，研究样本越大，效应估计值的抽样误差越小（95%可信限越小），统计检验能发现的两组间效应差值越小
二外部真实性（external validity）研究结果与推论对象真实情况的符合程度，又称普遍性，回答一个研究能否推广应用到研究对象以外的人群
内部真实性与外部真实性的联系

推论代表性不好，内部真实性可能好，而外部真实性差增加研究对象的同质性（如限制类型如年龄、职业、体质特征或疾病分型等），可改善内部真实性增加研究对象的异质性，可改善外部真实性
OR= (60╳60)/(40╳40)=2.3
研究真实数据研究真实数据
OR= (48╳68)/(52╳32)=2.0 差异性错误分类差异性错误分类
错误分类数据错误分类数据
心肌梗死对照
高脂肪膳食 60 40
低脂肪膳食 40 60
心肌梗死对照
高脂肪膳食 60 32
低脂肪膳食 40 68
定义是一种纯粹由混杂偏倚产生的关联即怀疑的病因（暴露）E与疾病D并不存在因果关系，而是由于两者（E,D）有共同的原因 C，E,D同C存在关联，从而继发产生E与D的关联。 E
C
?
D
例如高血清胆固醇是冠心病的危险因素，高血清胆固醇可产生沉积于眼睑的黄色瘤，从而导致
黄色瘤与冠心病的继发关联。另外，E与C也可以
研究结果的真实性与偏倚
主要内容
研究结果的变异性研究的偏倚研究的真实性
引言

研究结果的解说涉及到研究的真实性与因果推断的问题。研究结果的真实性直接关系到是否获得正确的结论，而真实性需要通过变异性估计来确定对于因果关系的研究，从研究结果如何做出正确的因果推断，也是非常重要的
研究结果的变异性
描述性研究的选择偏倚
主要体现在样本对总体的代表性上如不是采用随机抽样而是使用方便样本，或某些特定群体（志愿者、因特网利用者等）造成的外部效度（外推）受限问题。控制方法
尽量采用随机抽样，避免样本选取的偏向
对特定群体的结果在外推上要谨慎等
分析性研究的选择偏倚
主要体现研究对象进入、排除、不参与或失访等与研究
误差
定义
指对事物某一特征的度量值偏离真实值的部分，即测定值与真实值之差分类随机误差系统误差（偏倚）

举例：用动脉血压计测量某人血压（实际值为 80mmHg），各次读数的均值为100mmHg，系统误差和随机误差可用以下图示
发生频次
系统误差
随机误差
80
100
舒张压（mmHg）
来自于被调查者
来自于调查者
来自于测量仪器
控制方法

明确资料收集方法和严格质量控制尽可能采用盲法采用客观指标的信息采用调查技巧避免回忆偏倚资料校正
三混杂偏倚
暴露因素与疾病发生的相关(关联)程度受
到其他因素的歪曲或干扰
判定方法

专业知识
分层分析进行定量判别
继发关联（secondary association）
高胆固醇率 = 25% （>240mg/dL）
=0%
图1 源群体与样本高胆固醇率的样本变异性示例
源群体高胆固醇率为25%，样本A为40%，样本B为 20%，样本C为0%。如果增大样本含量，样本的变异性会减少，样本的高胆固醇率对群体的代表性会增大
研究 A（研究对象 200 人，随机分配到两组）膳食改良组降胆固醇药物组
变异性
描述性和分析性数据（指标）的变动或波动
表1 变异性的水平
变异性水平个体变异的来源个体生物学变异、测量误差
群体样本（研究）
个体间遗传学变异、环境变异、测量误差抽样方式、样本大小、测量误差
一个体水平的变异性

定义
某个体特征测得值的变化，可以是个体真值随时间的改变，也可以是由于测量误差引起的变化
象的代表性，增加应答和减少失访等
选择偏倚的控制
随机选择研究对象；选择多种对照；明确规定纳入和排除标准；选择依从性高的对象，掌握调查技巧；延长收集病例的时间；尽量采用敏感的疾病早期检查技术，或者开展观察期较长的纵向调查；
二信息偏倚（information bias）
在收集和整理有关暴露或疾病资料时所出现的系统误差，主要发生在观察、收集资料及测量等实施阶段。
暴露或处理因素存在关联，由此增大或减少暴露与疾病、处理与效应的关联，导致效应估计的偏倚。控制方法分析研究对象的选取是否同暴露或处理因素有关
常见选择偏倚入院偏倚
失访偏倚
志愿者偏倚
确定有无选择偏倚的关键
把握选取环节或已入选对象，是否存在人为
增大或减少研究因素与结局的关联程度
控制方法
严密掌握对象选取的各个环节，注意选取对
由于相关（因果方向不明）而产生继发关联。例如吸烟是胰腺癌的危险因素，吸烟又与喝咖啡存在相关（没有确定的时间先后），从而造成喝咖啡与胰腺癌的继发关联。
直接因果关联的歪曲如果怀疑病因E与疾病D既存在直接关联，又存在间接关联(图A)或与其他危险（保护）因素F存在相关(图B)，暴露E与疾病D的直接因果关联程度或方向将可能受到混杂干扰，即得到歪曲的关联估计值。 E E F
图3 血压计法测量舒张压值的分布

e商务文档

真实性与偏倚

相关文档推荐：