多因素案例分析
表18-13不同体质指数高血压患病率
体质指数 (X)
调查人数 患病
未患病
患病率
( Y=1 病 例 )( Y=0 对 照 )(%)
超重或肥胖 (X=1暴露) 正常 (X=0非暴露) 合计
4148
1656(a)
2492(b)
39.92
6792
1331(c)
5461(d)
19.6
10940 2987
7953
甲医师以生存结局为观察指标,整理得A、B两 组死亡情况(表19-2)。考虑到例数较少, 采用Fisher确切概率法,得P=0.097,说明 两种治疗方法疗效差别无统计学意义。
乙医师以生存时间为观察指标,考虑到肾功能是否异 常为可能混杂因素,采用多重线性回归进行校正混杂 因素后的组间生存时间比较,结果见表19-3。说明校 正肾功能是否异常后,两种治疗方法疗效差别无统计 学意义,与甲医师的结论一致。
延续到两周内=2,慢性病持续到两周 内=3
1.该赋值方式是否恰当?
发病时间的设置不恰当,虽然‘发病时间’为有序 多分类资料,但是不能确定数据中的数值可以真实 反映其测度,故以最高值为参照水平,产生两个哑 变量。
X 7
“发病时X 间71 ”哑变量X:72
1
1
0
2
0
1
3
0
0
2.并说明各种变量赋值方法主要的利弊。
(2)针对原始数据和分析目的,指出正确的分析 方法并说明理由。
➢ 由原始数据可知,共有group、kidney、time、 status四个变量,其中time、status 为因变量;
➢ 本题的目的在于评价A、B两种治疗方案对某病 的治疗效果,所以因变量应包含生存结局变量 (是否死亡)和生存时间变量;
1、等级变量:(有序多分类变量)可以按等级的 秩次赋值
2、二分类变量:用0、1赋值 3、多分类无序变量:多分类无序变量需要转换成
哑变量,k个类别需要k-1个哑变量 (当样本含量足够大,且对变量的作用方式
不准时,哑变量是最好的选择。逐步回归要求 哑变量座位一个整体进行筛选。然而当哑变量 数目太多,要求过大的样本含量。)
➢ 综上分析,应采用Cox回归; ➢ Cox回归以生存结局和生存时间为因变量,同时
分析众多因素对生存期的影响,控制非研究因 素的影响,分析带有删失生存时间的资料,且 不要求资料类型。
案例19-1
某医师收集30例肺癌术后患者的生存情况,有1 例由于电话和地址错误无法随访到患者,他设 计了以下几种处理方法:① 把该病例去掉;② 把这例患者写入SPSS数据,但末次随访时间空 白,让SPSS自动去分析;③ 因为某一天(比如 2006年9月1日)想随访这例患者但是没有随访 到,所以将末次随访时间写为随访当天的日期。 另欲分析肺癌术后患者的中位生存期,计算结 果为10个月,但是检查原始数据发现,生存时 间为10个月的这个患者一直存活到随访结束, 似乎与中位生存期的定义相矛盾。
多因素案例分析
1
2
3
4
5
案例18-1
某研究者为探讨帕金森病(PD)与吸烟的 关系,采用以人群为基础的病例-对照研究,调 查某市PD病例共114例,以及对照205例 (性别、民族及居住于与病例相匹配)。采用 非条件logistic回归分析,结果见表18-1。 请根据所提供信息,分析该研究中存在的主 要统计学缺陷。
3.由表可以看出在年龄这一行中P值 =0.032<0.05接受原假设,OR值的 95%CI中包含1拒绝原假设,所以说两处矛 盾。
4.变量设计不合理,没有充分的为我们研究提 供帮助。
案例18-2
为探讨超重和肥胖对高血压病的影响, 2004年,某研究者采用整群抽样的方法, 对某地6个镇35周岁以上的常住人口进 行高血压普查,同时收集了身高、体重等 相关信息。体质指数BMI≥25判为“超 重或肥胖”,BMI<5为“正常”;收缩 压≥140mmHg和(或)舒张压 ≥90mmHg判为“高血压”。整理后资 料见表18-13。
表18-3 居民两周患病未治疗的影响因素及其赋值
变量 性别
年龄 年人均收入(元) 医疗保障 距就近医疗点时间 自感疾病严重程度 发病时间
赋值
男=0,女=1
实测值
实测值
有=0,无=1
<10分钟=1,10分钟~=2,30分钟~=3 不严重=1,一般=2,严重=3 急性病两周内发生=1,急性病两周前发生
请问:
(1)甲医师和乙医师所采用的统计分析方法是 否恰当?为什么? ➢ 都不恰当; ➢ 该题目的目的是评价A、B两种治疗方案对某病 的治疗效果,所以因变量应包含生存结局变量 (是否死亡)和生存时间变量,所以,甲、乙 医师采用的统计分析方法不恰当,考虑片面; ➢ 乙医师采用多重线性回归未考虑到其使用条件: 生存时间变量一般不满足正态性,从此方面看 采用多重线性回归也不恰当。
该患者属于第三种情况,故作为删失数 据处理。
(3)该医师的发现是否与中位生存期的定 义相矛盾?为什么?
该医师的发现与中位生存期的定义并不矛盾, 中位生存期不能与个体生存时间相混淆。
➢ 中位生存期:
又称半数生存期,表示恰有50%的个体尚 存活的时间;
案19-2
评价A、B两种治疗方案对某病的治疗效果, A组(group=0)12人,B组(group =1)13人。患者分组后检查其肾功能 (kidney),功能正常者记为0,异常者 记为1。治疗后生存时间为time(天), 生存结局status=0表示删失,status= 1表示死亡。原始数据见教材表19-11。
单因素logistic所得OR值为2.727, 根据公式计算2*2表所计算的OR
OR a /b c/d
=2.727
与单因素logistic所得到结果一致
案例18-3
为研究居民两周患病未治疗的影响因素, 采用单纯随机抽样,对某地11790名农村 居民进行了调查。调查内容包括性别、年龄、 年人均收入、医疗保障、距就近医疗点时间、 自感疾病严重程度、发病时间。变量赋值见 表18-3。请评述该赋值方式是否恰当?并 说明各种变量赋值方法主要的利弊。
请问: (1)该医师对这例失访患者的处理是否恰当?
为什么?正确的处理方法是什么?
该医师对这例失访患者的三种处理都不恰当。 应作为截尾病例,删失生存时间的计算为从 手术切除到最后一次随访的时间。
(2)另有1例患者死于脑梗死,生存分析时应 如何处理?
删失数据产生的原因:
1、研究结束时终点事件尚未发生; 2、失访; 3、病人死于其他原因而终止观察等;
27.3
自变量X为体质指数,X=1表示“超重或肥 胖”,X=0表示“正常”;因变量Y为是否患 病,
Y=1表示“患病”,Y=0表示“未患病”。X 对Y影响的单因素logistic回归结果见表1814。(课本404)请问该二分类单因素 logistic回归所得OR值与采用2*2表所计算 的OR有何关系?
表18-1
PD与吸烟关系的非条件logisti回归分析
该研究中存在的主要统计学缺陷。
1.我们研究的是PD和吸烟的关系,而设计变 量中含有喝茶和饮酒这两个变量,这些因素可 能成为混杂因素或者交互因素。
2.设计性别这一个变量与案例的前提有冲突, 案例中给定了205例(性别、民族及居住于与 病例相匹配)。所以不应设为变量来分析。