当前位置:文档之家› 第十四章生存分析的SAS实现

第十四章生存分析的SAS实现

第十四章生存分析的SAS实现例14-2 McKelvey et al(1976)收集了3期的某型淋巴瘤患者的生存时间(天)。

分别是6,19,32,42,42,43+,94,126+,169+,207,211+,227+,253,255+,270+,310+,316+,335+,346+。

SAS分析程序SAS软件输出结果SAS软件输出结果解释该结果包含四个部分:第一部分用乘积极限法估计了生存率(Survival),死亡率(Failure),生存率的标准误(Survival Standard Error),死亡例数(Number Failed)和该时间点前的生存例数(Number Left)。

其中带有*号的表示截尾;第二部分给出了关于生存时间的描述性统计量,包括75%,50%和25%分位数以及相应的95%的可信区间(95% Confidence Interval),还有均数(Mean)和标准误(Standard Error)从结果可以看出平均生存时间为181.701天;第三部分列出了完全数据(Failed),截尾数据(Censored)的例数,以及截尾数据占全部数据的百分比(Percent Censored)。

最后是生存曲线图。

教材中的说明现用Kaplan-Meier法计算生存率,步骤如下:(1)将所有生存时间按从小到大顺序排列(见表14-2第(2)列)并标上序号(第(1)列)。

(2)列出各t时点前的存活病例数n(第(3)列)、各个时间点的死亡人数d (第(4)列)和截尾人数c(第(5)列)。

(3)计算各t 时刻的死亡概率/q d n =(第(6)列)。

例如生存时间为32天时,死亡概率为1/170.058824q ==。

(4)计算各t 时刻的生存概率1p q =-(第(7)列)。

例如生存时间为32天时,生存概率为1-0.0588240.941176p ==。

(5)计算各t 时刻的生存率12()i i S t p p p = (第(8)列)。

例如生存时间为32天时,生存率为18171616(32)0.94117619181719S =⨯⨯==,由此验证了在没有截尾数据的情况下,式(14-4)与式(14-5)是相同的。

(6)以时间t 为横指标,生存率为纵指标,作生存曲线图(图14-1)。

表14-2 Kaplan-Meier 法计算生存率的计算用表(1) (2)(3)(4)(5)(6) (7) (8) 序号 生存 天数 t 时刻前的例数n t 时刻死亡数d t 时刻后截尾人数c死亡 概率q 生存 概率p 生存率 S (t ) 1 6 19 1 0 0.052632 0.947368 0.947368 2 19 18 1 0 0.055556 0.944444 0.894737 3 32 17 1 0 0.058824 0.941176 0.842105 4 42 16 2 0 0.125000 0.875000 0.736842 6 43 14 0 1 0.000000 1.000000 0.736842 7 94 13 1 0 0.076923 0.923077 0.680162 8 126 12 0 1 0.000000 1.000000 0.680162 9 169 11 0 1 0.000000 1.000000 0.680162 10 207 10 1 0 0.100000 0.900000 0.612146 11 211 9 0 1 0.000000 1.000000 0.612146 12 227 8 0 1 0.000000 1.000000 0.612146 13 253 7 1 0 0.142857 0.857143 0.524696 14 255 6 0 1 0.000000 1.000000 0.524696 15 270 5 0 1 0.000000 1.000000 0.524696 16 310 4 0 1 0.000000 1.000000 0.524696 17 316 3 0 1 0.000000 1.000000 0.524696 18 335 2 0 1 0.000000 1.000000 0.524696 19 3461 0 10.0000001.0000000.524696图14-1 例14-2的生存曲线图例14-3下面是来自于Berkson & Gage(1950)的一个研究队列。

为了叙述方便,把原来的出院后的生存时间改称为某恶性肿瘤术后生存时间。

共有374名患者进入研究队列。

表14-3 寿命表法计算生存率的计算用表(1) (2) (3) (4) (5) (6) (7) (8) (9)序号术后生存年数期初观察例数期内死亡期内截尾人数校正期初人数死亡概率生存概率生存率t n d c n c=n-c/2 q=d/n c p=1-q S(t)1 0~374 90 0 374 0.2406 0.7594 0.75942 1~284 76 0 284 0.2676 0.7324 0.55613 2~208 51 0 208 0.2452 0.7548 0.41984 3~157 25 12 151 0.1656 0.8344 0.35035 4~120 20 5 117.5 0.1702 0.8298 0.29076 5~957 9 90.5 0.0773 0.9227 0.26827 6~79 4 9 74.5 0.0537 0.9463 0.25388 7~66 1 3 64.5 0.0155 0.9845 0.24989 8~62 3 5 59.5 0.0504 0.9496 0.237210 9~54 2 5 51.5 0.0388 0.9612 0.228011 10+47 21 26 34 0.6176 0.3824 0.0872 SAS分析程序SAS软件输出结果本例结果主要包含三个部分:第一部分给出了时间区间的下限和上限,死亡例数(Number Failed),截尾例数(Number Censored),期初观察人数(Effective Sample Size),生存率(Survival),死亡率(Failure),生存率的标准误(Survival Standard Error)等;第二部分列出了完整数据(Failed),截尾数据(Censored)的例数,以及截尾数据占全部数据的百分比(Percent Censored)。

最后是生存曲线图。

教材中的说明根据表14-3的生存率估计,则以生存时间为横坐标,生存率为纵坐标,各个点的生存率用折线连接,构成寿命表法的生存率曲线(图14-2)。

图14-2 例14-3的生存曲线图生存率估计同样存在抽样误差,往往需要估计标准误和95%可信区间。

对于上述两种生存率计算方法均可以用Greenwood (1926)提出方法计算标准误tj [S ]SE S =例如3~4年这一段的生存率的标准误为:t4[S ]SE 0.0248==Kalbfleisch & Prentice,1980提出对生存率进行ln(ln(()))S t -转换后估计生存率的95%可信区间可以保证可信区间的范围在(0,1)内,所以被广泛使用,具体计算公式如下:exp( 1.96)()s S t ±,其中()/(ln )t t t s SE S S S = (14-7) 例如对于3~4年这一组段的95%可信区间计算为0.0248/(0.3503ln(0.3503))0.0675S =⨯-=-,则95%可信区间为exp( 1.960.0675)(32)S ⨯ (0.302,0.399)=。

两种方法的比较:①.寿命表法适用于大样本或无法准确得知研究结果出现时间的资料,Kaplan-Meier 法可以用于小样本,也可以用于大样本,但要求每个观察对象都有确切的死亡时间和截尾时间。

②.寿命表法是按照指定的时段来分段,估计的是时间区间右端点上的生存率;Kaplan-Meier法是根据死亡时点分段,逐个估计死亡时点的生存率。

③.寿命表法没有确切的死亡时间和失访时间,假定在每个时间段中的“死亡发生时间”和“失访发生的时间”分别呈均匀分布,因此在每个时间段中的生存率呈线性变化,故各个组段间的生存率用直线相连接,Kaplan-Meier法的生存曲线是右连续的阶梯型曲线。

当样本量较大及死亡时点较多时,阶梯形就不明显了。

例14-4 在例14-3中介绍了McKelvey et al收集了19名3期淋巴瘤病人的生存资料,该研究者还同时收集了4期淋巴瘤病人的生存数据共61例:4,6,10,11,11,11,13,17,20,20,21,22,24,24,29,30,30,31,33,34,35,39,40,41+,43+,45,46,50,56,61+,61+,63,68,82,85,88,89,90,93,104,110,134,137,160+,169,171,173,175,184,201,222,235+,247+,260+,284+,290+,291+,302+,304+,341+,345+。

要比较3期淋巴瘤患者和4期淋巴瘤患者的生存率是否有差异。

SAS分析程序SAS软件输出结果解释SAS软件输出结果解释这里只给出了两个(c=1,2)总体生存率之间是否有差异的检验结果,其他的输出结果与前面类似,不再列出了。

由结果可以发现两组的Log-Rank秩统计量分别为-8.6870和8.6870,检验的2χ统计量为6.7097,p值= 0.0096,所以在α=0.05水准上,拒绝H0,接受H1。

,可认为两个(c=1,2)总体生存率之间存在差异。

图形为两个样本的生存曲线图。

教材中的说明由于检验统计量220.05,13.84χχ>=, P< 0.05, 所以在α=0.05水准上,拒绝H,接受H1。

基于两个样本的生存曲线图,可认为3期淋巴瘤病人人群的生存率高于4期淋巴瘤病人人群的生存率。

图14-5 3期和4期淋巴瘤的病人生存曲线Logrank检验是一种非参数的检验方法,对资料的分布基本没有要求,但要求每组均含有失效事件发生的观察对象资料,可以证明:Logrank检验的检验效能仅与发生失效事件的人数有关。

另外在Logrank检验的时候,一般要求各组生存曲线不能交叉,否则需采用分段分析或者采用多因素方法来分析。

例14-5某医生研究手术是否可以延长晚期胰腺癌患者的生存期。

收集到符合入组条件的80名保守治疗和124名手术治疗的晚期胰腺癌患者,这些患者的生存资料如表14-6所示,请分析两种治疗方案的生存情况。

相关主题