当前位置:
文档之家› 流行病学研究中的偏倚及其控制
流行病学研究中的偏倚及其控制
(四)样本水平的变异性
样本(研究)水平的变异性是指通过不同样本的 研究所得结果的差异性。为什么高水平的血清总 胆固醇是不利的或不健康的?这可以在关于血清 总胆固醇与心血管死亡风险呈正相关的研究中找 到答案,如Framingham心脏研究。 但是,研究通常不能针对整个总体人群来进行, 而是通过样本人群来进行,这就引入了抽样变异 (误差)。通过不同样本的研究所得的关于总体 结果的估计值会有不同,如果排除测量误差,这 些样本的估计值与总体真实值(用各样本估计值 的均值代表)的差异,就是抽样误差。当样本含 量增大时,抽样误差就会减少。
流行病学研究中的偏 倚及其控制
一、 研究结果的变异性
(一)变异性概述
研究结果包括描述性和分析性数据(指标)的变动或 波动,称为研究结果的变异性(variability)。它可存在 于不同的水平,包括个体水平、群体水平和样本(研 究)水平。
表 8-1 变异性的水平和来源 变异性水平 变异的来源 个体 个体生物学变异,测量误差 群体 个体间遗传学变异,环境变异,测量误差 样本(研究) 抽样方式,样本大小,测量误差
(二)内部真实性
内部真实性(internal validity)是指研究结果 与实际研究对象真实情况的符合程度。它回答 一个研究本身是否真实或有效。如果一个研究 针对实际研究对象提供了真实的描述频率或效 应估计值,即随机误差和系统误差较小,则该 研究是真实或有效的。如果一个研究本身是不 真实或无效的,则很难再应用到其他人群。 改善内部真实性的措施有:限制研究对象的类 型和研究的环境条件。因为这样可以降低群体 水平的变异性,或者使因果机制趋于一致等。 这些措施可能限制研究结果应用到其他人群, 也就是使下述的外部真实性受限。
三、外部真实性
外部真实性(external validity)是指研究结果 与推论对象真实情况的符合程度,外部真实性 又称为普遍性(generalizability)。它回答一 个研究能否推广应用到研究对象以外的人群。 如果研究对象对于推论对象的代表性不好,尽 管它的内部真实性可能好,但它的外部真实性 则肯定差。 增加研究对象的同质性,如限制类型如年龄、 职业、体质特征或疾病分型等,可以改善内部 真实性;而增加研究对象的异质性,使得研究 对象的代表性范围扩大,则可以改善外部真实 性。在实际研究确定对象时,需要综合平衡考 虑研究对象的同质性和异质性问题。
二、 研究的真实性
(一)真实性概述
研究的真实性或效度(validity)是指研究收集的 数据、分析结果和所得结论与客观实际的符合程 度。如果研究结果与客观实际存在不符合的地方, 这就是研究误差,它是研究真实性的反面。 研究误差可以分为系统误差和随机误差两部分: 系统误差是指有固定方向和固定大小的误差,来 自于对象选取、测量和统计分析等的方法学缺陷; 而随机误差没有固定方向和固定大小,一般呈正 态分布,来自于随机抽样变异和测量随机变异等。 研究真实性的反面应当包括系统误差和随机误差 两部分。
在图8-2的示例中,研究A和研究B中膳食改良 组五年内发生心机梗死的风险为9%,而降胆 固醇药物组为6%。研究A样本较小(200人), 两组效应指标(心肌梗死风险)的95%可信 限较大,从而发生重叠,统计检验无显著性差 异 。研究B样本较大(2000人),两组效应指 标(心肌梗死风险)的95%可信限较小,从 而未发生重叠,统计检验有显著性差异。一般 而言,研究样本越大,效应估计值的抽样误差 越小(95%可信限越小),统计检验能发现 的两组间效应差值越小。如果研究样本非常大, 两组间差异很小的效应值也会有统计学显著差 异,但这很少有生物学或临床意义。
(三)群体水平的变异性 1.群体水平的变异性可以看成是各个体的累计变 异,因为构成群体的各个个体具有不同的遗传 素质并受到不同的环境影响。 2.群体的变异程度常常大于个体的变异。一般可 根据群体的变异范围来确定“正常值”范围, 用于判定个体测得值是否“正常”。如某病人 的血清总胆固醇得到一个确定的测得值,可以 根据群体血清总胆固醇的变异范围,判定该病 人的总胆固醇是否处于“正常”水平。 3.群体水平的变异性也受到测量误差的影响。
1.描述性结果的样本变异性 可以示例如图8-1。
源群体 180,174,215,305 233,276 276,146,195 276 205,188,190,295 295 170,164,248 248,162 248 220,219,228,250 250
样本 A 305,276,195,215,170 样本 B 295,146,220,162,228 295 样本 C 219,164,190,188,233
100人 140人 40人
因A入院(50%)
400人
因B入院(20%) B病(X+) (200人) B病(1000人) B病(X-) (800人) 因X入院(40%)
40人 104人 64人
因B入院(20%)
160人
因不同住院率而住院的A、B病患者及其与因素X的关系 疾病 暴露于X 非暴露X 合计 X暴露率 A:对照 140 400 540 25.9% B:病例 104 160 264 39.4% 合计 244 560 804 30.4% OR=1.86 x2=15.215 P<0.001
(二)选择性偏倚的种类
1.入院率偏倚( bias) 1.入院率偏倚(admission rate bias) 入院率偏倚
亦称伯克森偏倚(Berkson s bias), ),是 亦称伯克森偏倚(Berkson’s bias),是 指利用医院就诊或住院病人作为研究对象时, 指利用医院就诊或住院病人作为研究对象时, 由于入院率的不同而导致的偏差。 由于入院率的不同而导致的偏差。
高胆固醇率 = 40%
=20%
高胆固醇率 = 25% (>240mg/dL) 图 8-1 源群体与样本高胆固醇率的样本变异性示例
=0%
在图8-1的示例中,源群体高胆固醇率为 25%,样本A为40%,样本B为20%,样 本C为0%。如果增大样本含量,样本的 变异性会减少,样本的高胆固醇率对群 体的代表性会增大。
72 230 302
3.检出偏倚 3.检出偏倚 或称检出症候偏倚(detection signal bias),指某因素与某疾病在病因学上虽无 关联,但由于该因素的存在而引起该疾病症 状或体征的出现,从而使患者及早就医,接 受多种检查,导致该人群较高的检出率,以 致得出该因素与该疾病相关联的错误结论。 在对一些慢性疾病如肿瘤、动脉硬化、 结石等进行病因研究时,这种偏倚的意义特 别重要。
(二)个体水平的变异性
个体水平的变异性是指某个体特征测得值的 变化,它可以是个体真值随时间的改变,也 可以是由于测量误差引起的变化。个体水平 测得值的变异来源归纳于表8-2。
变异来源 个体状态 测量误差 表 8-2 个体水平测得值的变异来源 特 点 日间变异, 年龄、 膳食或运动改变, 环境因素 (季节、 温度等) 仪器标度差,仪器精密度差,仪器读数或记录错误
2.分析性结果的样本变异性
研究 A(研究对象 200 人,随机分配到两组)
可以示例如图8-2。
膳食改良组 降胆固醇药物组
0
5
10
15
五年内发生 心肌梗死风险(%)
研究 B(研究对象 2000 人,随机分配到两组) 膳食改良组 降胆固醇药物组
0
5
10
15
五年内发生 心肌梗死风险(%)
图 8-2 膳食与药物预防心机梗死的样本变异性示例
A、B病患者及其与因素X的关系 病患者及其与因素X 暴露于X 非暴露X 疾病 暴露于X 非暴露X A:对照 200 800 B:病例 200 800 合计 400 1600 OR=1.00 P>0.05 合计 1000 1000 2000 X暴露率 20% 20% 20%
因A入院(50%) A病(X+) (200人) 因X入院(40%) A病(1000人) A病(X-) (800人)
例如:研究绝经期妇女服用雌激素与子宫内膜 癌的关系,初步结果显示服用雌激素可使子宫内膜 癌发生增多,两者有相关关系,或认为服用雌激素 是子宫内膜癌的危险因素。但经仔细分析,特别对 子宫内膜癌的发现进行观察,揭示出服用雌激素会 导致绝经期妇女不规则的子宫出血,而子宫出血作 为一种诊断信息,使她们及时就诊寻求原因,从而 大大增加了子宫内膜癌的发现机会。末服用雌激素 的妇女中,一旦发生子宫内膜癌,常无明显症状, 而未能及时就诊,以致发现较晚。从而高估了雌激 素与子宫内膜癌的关系。
研究误差中的系统误差部分,称为偏倚 (bias)。研究的可靠性或信度(reliability) 亦称精密度(precision),就是反映研究结果 中随机误差大小的程度,随机误差小则研究信 度高。 随机抽样误差可以用统计学方法来估计,并且 可以通过增大样本含量来减少。测量数据的真 实性可用真实性指数(index of validity, IV), 或某方面的真实性指标如灵敏度或特异度等来 表示。 变异可以是真实的(如生物学个体变异),而 反映研究误差的变异肯定是不真实的。
变异的来源可以分为两个层次: 1.生物学(真实)变异和测量变异:生物学变异 反映真实的客观变异,测量的变异反映测量过 程的误差。例如,在个体水平上,某病人的血 压真值在一段时间内本身存在波动(生物学变 化);同时在血压的测量过程中,又存在一定 的测量误差(测量变异)。该病人的血压值的 总变异就包含生物学变异和测量变异。 2.随机变异和系统变异:随机变异(误差)的绝 对值和方向(符号)交错变化,并呈有界范围 的正态分布。系统变异(误差)的绝对值和方 向保持恒定。上述的测量误差,就可以再分出 随机误差和系统误差。
真实性、 第一节 真实性、偏倚和机遇
三、 研究的偏倚
研究误差中的系统误差部分,称为偏倚 (bias)。最著名的早期偏倚研究是Berkson 做的,他在1946年证实了采用医院病人对象 的病例对照研究容易遭受潜在的选择偏倚,这 种偏倚来自于病人入院风险同病人的多种状况 有关,又称为Berkson偏倚。 1976年Miettinen详细讨论了偏倚的定义,并 给出了分类框架,这就是被广泛接受的选择偏 倚、信息偏倚和混杂偏倚三分类。