条件logistic 回归模型的SAS 计算程序
第四军医大学卫生统计学教研室 宇传华 徐勇勇
病例-对照研究资料的条件logistic 回归模
型计算比较复杂,常需借助统计软件进行计算,国际通用软件S AS (6.04版本)有LOGISTIC 和PHREG 两个过程步能较好拟合各种条件lo gistic 回归模型。
文献〔1〕利用SAS 软件的这两个过程步分别拟合了1 1和m n 配对的条件lo gistic 回归模型。
本文拟定在此基础上进一步探讨这两个过程之间的联系,对配对四格表资料和1 m 配对资料给出条件logistic 回归模型的SAS 计算程序。
一、LO GIS TIC 和PHREG 两个过程步之间的联系
病例-对照研究资料为1 1配对时,这两个过程步均可选用。
文献〔1〕的第208页用LO-GIS TIC 过程步对10例胃癌的1 1配对资料作了拟合,给出了拟合程序和结果〔1〕。
如果对此资料用PHREG 过程步作拟合,则程序为:D A TA a ;
IN PUT pdh y x 1-x 3@@
yy =1-y ;CA RDS ;
数据集;
PROC P HR EG ;MOD EL yy #y (0)=x 1-x 3/SELECTION =S TEPW I SE SLE =0.5SL S =0.3;S TR A TA pdh ; RUN ;
此程序产生1个哑变量yy ,取0(病例)和1(对
照)两个值,用y 指示病例(用1表示)和对照(用0表示),x 1、x 2和x 3表示3个危险因素,pdh 表示配对序号。
程序须用配对序号进行分层,语句为“S TRA TA pdh ;”。
运行该程序获得的结果与文献〔1〕利用LOGISTIC 过程步获得的结果不同之处在于:该程序按RR=ex p(β)多计算了危险比(Risk Ratio ),而LOGISTIC 过程步多计算了标准化参数估计值(Standardized Esti -mate ),其他结果完全一致。
这里要说明的是MODEL 语句后的“SE -LECT ION =ST EPW ISE SLE =0.5SLS =0.3”是选择项,如果需要所有自变量均包括在模型内可不写入此选项。
如果选了此选项,则应根据专业知识和实际需要改变SLE (选变量进入方程的显著水准)和SLS (从方程中剔除变量的显著水准)等号后的值。
PHREG 过程步编写的程序与LO GIS TIC 过程步编写的程序比较有以下特点: 1.不仅可用于1 1配对资料,对程序稍加修改还可用于1 m 配对和m n 配对资料的分析。
2.不需要按病例和对照分别产生两组变量,以这两组相应变量之差作为自变量放入模型;而只需设立一个指示变量(y )指示是病例还是对照,直接将自变量放入模型。
当自变量比较多时这一特点更为重要。
3.条件lo gistic 回归通常需要计算相对危险比及其(1-T )%可信区间,在PHREG 过程步M ODEL 语句的选择项写入“ALPHA =αRISKLIM ITS ”可实现这一计算,如需计算99%危险比的可信区间,可在选择项写入“AL-PHA=0.01RISKLIM IT S ”。
ALPHA=0.05为
·
50· 中国卫生统计1997
年第14卷第5期
隐含值,如需计算95%危险比的可信区间,可不写“ALPHA=0.05”,只在选择项写“RISKLIM ITS”。
二、配对四格表资料的分析
文献〔2〕介绍了计算并检验配对四格表资料的logistic回归系数的方法〔2〕,如果运用SAS 软件实现这一计算与检验可用下列程序:
D A TA b;y=0;
IN PU T x freq@@;
CA RDS;
03114-15062
;
P ROC LOGI S TIC;
MODEL y=x/NO IN T;
W E IG H T f req;RUN;
因为是11配对,所以反应变量y=0。
x表示病例与对照的危险因素暴露情况,如果病例与对照均暴露或均不暴露,则x=0;如果病例暴露而对照不暴露,则x=1;如果病例不暴露而对照暴露则x=-1。
freq表示每个x情况下发生的频数。
因为是频数资料,所以应使用“W EIGHT freq;”语句对x作加权。
程序中的数据来自文献〔2〕中第386页儿童白血病与孕期X线照射关系的配对调查资料。
程序运行结果与文献结果一致。
实际上x=0时的频数并不参加logistic回归系数的计算,如果只需计算并检验回归系数,可将数据集中前面的0与3、后面的0与62删除,此时的计算结果除标准化参数估计值、x的均数与标准差外,其他均相同。
三、1m配对病例-对照研究资料的分析
11配对资料是1m配对资料的一种特例。
当病例较少时,为了增加信息,提高统计效率,可采用1m配对病例-对照研究。
m可以是固定的,也可以是不固定的。
为了说明1m配对病例-对照研究资料的SAS计算程序,这里利用文献〔3〕第234页资料拟合12条件logistic回归模型〔3〕。
可对程序1稍作修改来分析此资料。
因为该资料只有x1(肥胖)和x2(雌激素)两个危险因素,所以应将程序1中的“x1-x3”改为“x1x2”。
将MODEL语句后面的选择项不要或将STEPW ISE改为NONE,即可建立包含x1和x2的条件logistic回归模型。
如果要作单因素分析,则只需将x1或x2放入模型中。
例如对x1作单因素分析,则MO DEL语句可写为:
M ODEL yy*y(0)=x1;
这样修改的程序运行后得到的结果与文献〔3〕给出的结果一致。
参 考 文 献
1.胡良平,主编.现代统计学与S AS应用.北京:军事医学科学
出版社,1996;207~214
2.金丕焕,主编.医用统计方法.上海:上海医科大学出版社,
1993:384~386
3.余松林,编著.医学现场研究中的统计分析方法(修订本).
武汉:同济医科大学,1985:229~231
·
51
·。