生存分析之COX回归分析
1、生存分析,就是将终点事件出现与否与对应时间结合起来分析得一种统计方法;
2、生存时间,就是从规定得观察起点到某一特定终点事件出现得时间,如膀胱癌术后5年存活率研究,及膀胱癌手术为观测起点,死亡为事件终点,两点为生存时间;
3、完全数据,观测起点到终点事件所经历得时间,上述例子即膀胱癌手术到因膀胱癌死亡得时间;
4、删失数据,因失访、研究结束终点事件未发生或患者死于规定得终点事件以外得原因而终止观察,不能确定具体生存时间得一类数据;
5、生存概率,表示某时段开始存活得个体到该时段结束仍存活得概率,p=活满某时段得人数/该时段期初有效人口数;
6、生存率,为观察起点起到研究时间点内各个时段得生存概率得累积概率,S(tk)=p1、p2、pk=S(tk-1)、pk;
7、生存曲线,以生存时间为横轴,将各个时间点得生存率连在一起得曲线图;
8、中位生存期,又称半数生存期,表示50%得个体存活得时间;
9、PH假定(等比例风险假定),某研究因素对生存得影响不随时间得改变而改变,就是COX回归模型建立得前提条件。
Cox回归分析及其SPSS操作方法概述
前面我们已经讲过生存分析及KM法得内容,详细可以回复数字26-28查瞧。
但有对统计不太熟悉得“微粉”还不太明白生存分析与一般统计得区别,不知道如何区别Cox回归与Logistic回归。
在我们做研究时,有时我们不仅关心某种结局就是否出现,还会关心结局出现得时间,例如肺部手术后观察五年生存率,一个有在1年之后死亡,另外一个人在在4、5后死亡,如果只瞧第5年时得结局,两者就是一样得(均死亡),但就是实际我们认为后者得治疗效果可能优于前者,即生存分析同时考虑结局与结局出现得时间,而一般分析只考虑结局。
另外在队列随访时,可能有人在没有到5年时就失访了,如迁徙或者电话更改,我们不了解其结局如何,在一般得分析中这种病例无法使用,而中间失访得病例结局可能更差,如果直接扔掉,可能会产生偏倚;而用生存分析,这种病例可以给我们提供部分资料,即我们记录最后一次随访时病例得状态,失访前得资料可以用于分析。
我们先回顾一下生存分析得KM法与寿命表法(回复数字26与27可以查瞧KM法得详细内容),其共同点就是只能分析一种因素与生存率得关系,Log-Rank法也就是比较一个因素两种水平间得生存差别,如果生存
率得影响因素有很多,我们怎么避免其它混杂因素得影响呢?我们可以使用回归分析方法,但如果使用logistic回归,也就是只能观察影响因素与结局得关联,没有考虑结局发生得时间因素。
Cox回归可以解决这个问题。
Cox回归一般模型假设为
其中h(t,X)就是在时刻t得风险函数又可称瞬时死亡率,h(0,t)就是基线风险率,其它与logistic回归模型相同。
βj大于0则x j越大,病人死亡风险越大,βj小于0则x j越大,病人死亡风险越小,βj等于0则x j 越与死亡率没有影响。
Exp(β)为危险比(HR)或相对危险度(RR)。
下面以一个例子说明在SPSS中作Cox回归如何操作。
我们想观察乳腺癌得生存率及其影响因素,收集了1207例病例并进行了随访。
观察得因素包括年龄(age)、病理肿瘤大小(pathsize)、腋窝淋巴结个数(lnpos)、组织学分级(histgrad)、雌激素状态(er)、孕激素状态(pr)与淋巴结转移(ln_yesno)等。
time为随访时间,status为生存状态。
在SPSS菜单里点击“分析”-“生存函数”-“Cox回归”,在弹出得对话框里,将”time”与”status”分别选入时间与状态对话框,点击“定义事件”,填写“1”,将不同得影响因素选入协变量框中,方法可以选“向后:LR”(各种方法差别不大,可以自由选择)。
如果有多分类变量需要设置哑变量,可以点击右上角“分类”,将要设置哑变量得变量选入右边框中。
并可以选择以第一个或者最后一个作为参照。
在右上角点击“选项”,可以选择“CI用于exp(B)”,用于计算HR得95%置信区间。
最后点击确定可瞧到Cox回归分析结果。
结果中第一个表给出病例纳入情况,如下图,数据共1207个病例,但最后一共纳入590例,其中40例出现事件(即死亡),另外617例因为有缺失值被排除。
从中可以瞧出,数据质量不太好,有缺失值得病例占一半以上且有观察终点得病例只有40例。
下面得表中就是哑变量编码情况,histgrad中“1”被编码为“0”“0”,即histgrad中“2”“3”均以“1”为参照。
下面再瞧主要得结果,即“方程中得变量”表。
本表列出了多个步骤,在步骤1中,全部我们纳入得变量都进入分析,从前往后分别就是模型系数(B)、系数标准误(SE)、Wald检验值,自由度(df)、p值,HR值(Exp(B))及其置信区间。
接下来瞧步骤2,其相对于步骤1少了一个变量er。
即步骤2中删除了步骤1中得P值最大得变量。
同理依次删除p值最最大得变量。
下面我们瞧最后一步,即步骤5、经过筛选,只剩下三个变量,即认为这三个变量对生存率得影响,其中病理肿瘤大小对应得HR为1、566,大于1,即认为病理肿瘤越大,生存时间越短;同理腋窝淋巴结个数越多,生存时间越短;孕激素状态对应得HR为0、511,小于1,即有孕激素时生存时间越长。
需要说明得就是Cox回归分析就是比例风险模型,即模型假设在任一时间点两组得危险比就是相同得。
如下图所示:
而下图所示则不符合比例风险模型,不能作简单Cox回归。
如果想作回归分析,可以咨询相关统计专家或查瞧专业书籍。