病例对照研究一、概述(一)基本原理收集已经确诊的患有某特定疾病的一组病人作为病例组,以不患有该病但具有可比性的一组个体作为对照组,通过询问、实验室检查或复查病史,搜集研究对象既往各种可能的危险因素的暴露史,测量并比较病例组与对照组中各因素的暴露比例,经统计学检验,发现因素与疾病之间存在着统计学上的关联。
这是一种回顾性的、由结果探索病因的研究方法,是在疾病发生之后去追溯假定的病因因素的方法,是在某种程度上检验病因假说的一种研究方法。
(二)研究类型1.病例与对照不匹配在设计所规定的病例和对照人群中,分别抽取一定数量的研究对象,一般对照数目应等于或多于病例人数。
2.病例与对照匹配或称配比,即要求对照在某些因素或特征上与病例保持一致,目的是对两组进行比较时排除匹配因素的干扰。
(1)频数匹配要求对照组匹配的因素或特征所占的比例与病例组接近或一致。
(2)个体匹配以病例和对照个体为单位进行匹配。
1:1匹配,为每一个病例配一名对照,还可以进行1:2、1:3、…、1:R匹配。
采用匹配的目的,首先在于提高研究效率,其次在于控制混杂因素的作用。
同时也增加了选择对照的难度,且容易匹配过头。
用途1.检验病因假设2.疾病预后因素研究3.治疗效果研究二、研究设计(一)确定研究人群1.病例的选择新发病例由于刚刚发病,提供的信息较为准确可靠。
而现患病例易于掺入疾病迁延及存活的因素在内。
死亡病例则主要由家属或他人提供信息,准确性较差。
因此,病例对照研究中优选新发病例。
病例应该是患同一种疾病的病人,且患病部位、病理学类型和诊断标准要有明确的限制,所有病人都应符合严格的诊断标准。
并且有暴露于某一危险因素的可能。
一般以社区来源的病例为优,代表性较好,但实施难度较大。
使用医院来源的病例,可节省费用,容易获得,合作好,信息较完整、准确,但容易发生选择偏倚。
2.对照的选择对照应是产生病例的源人群的一个无偏样本。
实际来源于①同一个或多个医疗机构中诊断的其他病人;②病例的邻居或同一居委会、住宅区内未患研究疾病的个体;③社会团体人群中未患研究疾病的个体;④社区人口中未患研究疾病的个体;⑤病例的同胞、亲戚、同学或同事等。
在医疗机构中选择对照时应遵循以下原则:①因已知与所研究的暴露因素有关的病种入院的病人不能作为对照。
②对照应由尽可能多的病种的病人组成,以避免因过多地代表某一类病人,而该病种恰与所研究疾病具有共同的危险因素,从而影响研究结果的真实性。
(二)确定样本量影响样本量的因素:(1)研究因素在对照组中的暴露率P0(2)预期的该因素对疾病的效应强度,即相对危险度RR或暴露的比值比OR的大小(3)显著性水平α(4)把握度1-β三、资料的整理与分析(一)基本整理模式病例对照研究资料整理表暴露或特征疾病合计病例对照有无acbda+b=n1c+d=n0合计a+c=m1b+d=m0a+b+c+d=t病例对照研究中表示疾病与暴露之间关联强度的指标为比值比OR,也作比数比、优势比、交叉乘积比)。
OR是指某事物发生的可能性与不发生的可能性之比。
病例组的暴露比值为:对照组的暴露比值为:0R的含义与相对危险度类似,指暴露者的疾病危险性为非暴露者的多少倍。
OR>1说明疾病的危险度因暴露而增加,暴露与疾病之间为“正”关联;OR<1说明疾病的危险度因暴露而减少,暴露与疾病之间为“负”关联。
(二)不同类型资料的分析1.不匹配(成组)不分层资料(1)整理四格表形式口服避孕药(OC)与心肌梗死(MI)关系病例对照合计服OC 未服0C 391142415463268合计153 178 331(2)卡方检验:检验病例组与对照组两组的暴露率有无统计学显著性的差异。
已知χ20.01(1)=6.63,本例χ2=7.70>6.63,则P<0.01。
结论为拒绝无效假设,即两组暴露率的差异有统计学意义。
(3)计算关联强度0R(4)计算0R的可信区间可信区间中不包括1.0,即可认为该0R值在0.05(95%CI)或0.01(99%CI)水平上有统计学意义。
2.不匹配(成组)分层资料(1)整理四格表形式按年龄分层的结果<40岁≥40岁服OC 未服0C 合计服OC 未服0C 合计病例21(a1)对照17(c1)26(b1)59(d1)47(m11)76(m01)18(a2)7(c2)88(b2)95(d2)106(m12)102(m02)合计38(n11)85(01)123(t1)25(n12)183(n02)208(t2)(2)计算各层的OROR1=(21×59)/(17×26)=2.80OR2=(18×95)/(7×88)=2.78(3)各层0R的同质性检验:当各层OR值接近时,说明资料是同质的(采用Woolf齐性检验)。
(4)用Mantel-Haenszel法计算调整OR MH,χ2MH和0R MH的95%CI。
OR MH=2.79,总的卡方值χ2MH=11.79,0R MH的95%CI的下限为1.55,上限为5.01。
由以上分析可以看出:经分层调整后的0R MH为2.79,如不进行分层分析,则OR值为2.20,说明由于年龄的作用,口服避孕药与心肌梗死的关联被歪曲,关联强度趋向于1。
在这个例子中,年龄是口服避孕药与心肌梗死关联研究中的混杂因素。
3.1:1配对资料(1)整理四格表形式外源性雌激素与子宫内膜癌关系对照病例对子数有暴露史无暴露史有暴露史无暴露史27(a)29(c)3(b)4(d)30(a+b)33(c+d)对子数56(a+c)7(b+d)63(t)(2)卡方检验:用McNemar公式计算,(3)计算0R本例计算得OR=29/3=9.67(4)计算0R的95%可信区间下限为3.54,上限为26.45,提示外源性雌激素是子宫内膜癌危险因素。
(三)归因分值归因分值(AF)即归因危险度百分比(AR%)指暴露人群内某种疾病的发生中,由该暴露引起的发病占全部发病的比例。
I e为暴露组发病率,I o为非暴露组发病率。
在病例对照研究中一般不能获得发病率,只能获得0R。
人群归因分值记为AF p,也称人群归因危险度百分比(PAR%)I p为总人群发病率,I o为非暴露组发病率,P e为人群的暴露率(或以对照组的暴露代替)。
AF p反映暴露对人群发病的影响,表示总人群中某种疾病的发病,由该暴露引起的发病占全部发病的比例。
(四)功效可以解释为拒绝无效假设的能力,即当无效假设不成立时,该假设被拒绝的概率。
一般认为,一项研究的功效应在80%以上。
四、常见偏倚及其控制(一)选择偏倚1.入院率偏倚,也称Berkson偏倚。
利用医院病人作为病例和对照时,由于对照是医院的某一部分病人,又由于病例只是该医院或某些医院的特定病例,因为病人对医院及医院对病人双方都有选择性,所以两组均不是随机样本。
控制:尽量随机选择研究对象或在多个医院选择。
2.现患病例-新发病例偏倚又称奈曼偏倚。
如果调查对象选自现患病例,很多信息可能只与存活有关,而未必与该病的发病有关,从而高估了某些暴露因素的病因作用。
现患病例改变了生活习惯,从而降低了某个危险因素的水平,或被调查时夸大或缩小了病前生活习惯上的某些特征,导致某一因素与疾病的关联误差。
控制:选择新发病例,可减少偏倚程度。
3.检出症候偏倚也称暴露偏倚。
病人常因某些与致病无关的症状就医,从而提高了早期病例的检出率,致使过高地估计了暴露程度而产生的系统误差。
控制:收集的病例中同时包括早、中、晚期病人,则检出病例中此类暴露的比例会趋于正常。
4.时间效应偏倚病例对照研究时,那些暴露后即将发生病变的人、已发生早期病变而不能检出的人、或在调查中已有病变但因缺乏早期检测手段而被错误地认为是非病例的人,都可能被选入对照组,由此而产生了结论的误差。
控制:在调查中尽量采用敏感的疾病早期检查技术,或开展观察期充分长的纵向调查。
(二)信息偏倚1.回忆偏倚病例对照研究主要是调查研究对象既往的暴露情况,由于被调查者记忆失真或不完整造成结论的系统误差。
充分利用客观的记录资料,以及选择不易为人们所忘记的重要指标做调查,并重视问卷的提问方式和调查技巧,有助于减少回忆偏倚。
2.调查偏倚调查偏倚可能来自于调查对象及调查者双方。
病例与对照的调查环境与条件不同,或者调查技术、调查质量不高或差错,以及仪器设备的问题等均可产生调查偏倚。
控制:尽量采用客观指征,选择合适的人选参加调查,认真做好调查技术培训,采取复查等方法做好质量控制。
(三)混杂偏倚当我们研究某个因素与某种疾病的关联时,由于某个既与疾病有关系,又与所研究的暴露因素有联系的外来因素的影响,掩盖或夸大了所研究的暴露因素与疾病的联系。
这种现象叫混杂,造成的偏倚叫混杂偏倚。
在设计时利用限制的方法和配比的方法,资料分析阶段采用分层分析或多因素分析模型处理,可适当控制混杂偏倚。
五、优点与局限性下表展示了传统的病例对照研究与队列研究的优点和局限性比较。
病例对照研究与队列研究的优点和局限性比较病例对照研究队列研究优点1.特别适用于罕见病的研究,有时往往是罕见病病因研究的唯一选择2.相对更省力、省钱、省时间,并且较易于组织实施3.不仅应用于病因的探讨,而且广泛应用于其他目的,如疫苗免疫学效果的考核及暴发调查等4.可以同时研究多个因素与某种疾病的联系,特别适合于探索性病因研究1.由于研究对象暴露资料的收集在结局发生之前,并且都是由研究者亲自观察得到的,所以资料可靠,一般不存在回忆偏倚2.可以直接获得暴露组和对照组人群的发病率或死亡率,可直接计算出 RR 和 AR 等反映疾病危险关联的指标,可以充分而直接地分析暴露的病因作用3.由于病因发生在前,疾病发生在后,因果现象发生的时间顺序上合理,加之偏倚较少,又可直接计算各项测量疾病危险关联的指标,故其检验病因假说的能力较强,一般可证实病因联系4.有助于了解人群疾病的自然史。
有时还可能获得多种预期以外的疾病的结局资料,分析一因与多种疾病的关系病例对照研究队列研究局限性1.不适于研究人群中暴露比例很低的因素,因为需要很大的样本量2.选择研究对象时,难以避免选择偏倚3.信息的真实性难以保证,暴露与疾病的时间先后常难以判断。
因此论证因果关系的能力没有队列研究强4.获取既往信息时,难以避免回忆偏倚5.不能测定暴露组和非暴露组疾病的率。
无法直接计算RR 和 AR 等指标1.不适于发病率很低的疾病的病因研究,因为在这种情况下需要的研究对象数量太大,一般难以达到2.由于随访时间较长,对象不易保持依从性,容易产生各种各样的失访偏倚。
同时由于时间跨度太长,研究对象容易在研究过程中改变他们的态度3.研究耗费的人力、物力、财力和时间较多,其组织与后勤工作亦相当艰巨4.由于消耗太大,故对研究设计的要求更严密。