当前位置:
文档之家› 随访资料生存分析的统计学基础
随访资料生存分析的统计学基础
2
25 19 19 23 20 29 19 154
3
23 18 16 21 16 26
4
19 18 14 18 16
5
18 18 14 16
6
17 16 13
7
17 16
8
17
120
85
66
46
33
17
1974年~1981年共手术243例,1974年手术29例,术后1年内死亡1例,活满 1年的28例,到1982年末,活满8年的17例。以次类推。
1 S (t ) SE[ S (t )] S (t ) nt dt
总体生存率的可信区间
假定生存率近似服从正态分布,某时点总体生存率的(1-a)%可 信区间,公式为:
S (t ) u / 2 SE[S (t )]
本例28月总体生存率的95%可信区间:
0.7144 1.96 0.1207
40 20
42 23
44+ 25
45 27
53 + 54 30 34
59 + 37 43 50
表3 肿瘤<3.0cm组生存率及标准误的计算
生存时间 t
14 19 26 28 29 32 36 40 42 44 45 53 54 59
死亡数 dt
1 1 1 1 1 1 1 1 1 0 1 0 1 0
期初病例数 nt
3. 半参数法:介于参数法和非参数法之间,一般属多因素分析方法,
用于探讨生存过程的主要影响因素,其经典方法是Cox比例风险回 归模型。
随访研究的几个问题:
一、随访内容
1.开始随访的时间:入(出)院时间、确诊时间、 开始治疗时间等可作为随访开始的时间。如乳腺 癌的乳腺切除术后第一天或出院日、白血病化疗 后缓解出院日等,也可规定开始治疗日为随访开 始时间。
14 13 12 11 10 9 8 7 6 5 4 3 2 1
截尾数 ct
0 0 0 0 0 0 0 0 0 1 0 1 0 1
死亡概率 qt
1/14=0.0714 1/13=0.0769 1/12=0.0833 1/11=0.0909 1/10=0.1000 1/9=0.1111 1/8=0.1250 1/7=0.1429 1/6=0.1667 0/5=0.0000 1/4=0.2500 0/3=0.0000 1/2=0.5000 0/1=0.0000
0 S (t ) 1 。若无截尾数据,则
tk时刻仍存活的例数 S (tk ) P(T tk ) 观察总例数
若有截尾数据,须分时段计算生存概率。假 定观察对象在各个时段的生存事件独立,应用概 率乘法定理:
S (tk ) P(T tk ) p1. p2 ... pk
pi某时段的生存概率,故生存率又称累积生存概率 (cumulative probabilityof survival)。
随访资料生存分析的统计学基础
丁香园循证版周支瑞整理
传统的生存率计算方法
表1 某地1974—1981年胃癌根治术后随访记录
年份 1974 1975 1976 1977 1978 1979 1980 1981 合计 例数 29 26 24 32 25 36 25 46 243 生存年数
1
28 24 21 27 23 31 23 36 213
死于车祸 复发死亡
生存时间分为两种类型:
1.完全数据(complete data):指从观察起点到
发生“死亡”事件所经历的时间。提供了观察
对象确切的生存时间。 2.截尾数据(censored data):亦称截尾值 (censored value)或终检值。指从观察起点到发 生非“死亡”事件所经历的时间。
生存率标准误 SE[S(t)]
0.0688 0.0935 0.1097 0.1207 0.1281 0.1323 0.1336 0.1323 0.1281 0.1281 0.1233 0.1233 0.1130 0.1130
生存率的计算
1.生存时间t:由小到大排列,遇非截尾和截尾值相 同,截尾值排后。 2.死亡数dt:与生存时间t对应。注意:截尾值对应的 个体未发生“死亡”事件,故死亡数为0。 3.期初病例数nt,表示恰好在该时刻以前的病例数。如
生存分析的几个概念:
一、终点事件
终点事件 (terminal event)又称失效事件(failure event) 或“死亡”事件(death event) ,泛指标志某种措施
失败或失效的事件,反映治疗效果特征的事件,是
根据研究目的确定的。如乳腺癌术后死亡、白血病 化疗后复发、肾移植术后的肾衰等,均可作为“死 亡”事件。
120
150
180
图3 随访资料常见形式示意图
2.观察对象在不同时间接受处理措施,完成 一定数量随访病例或按事先规定的时间停止随访。
图4 随访资料常见形式示意图
生存率的估计与生存曲线:
一、乘积极限法
乘积极限法(product-limit estimate)又称KaplanMeier法,适用于未分组生存资料的分析。
影响因素、预测
生存分析基本方法:
1. 非参数法: 特点是不论资料是什么样的分布类型,只根据样本提
供的顺序统计量对生存率进行估计,常用乘积极限法和寿命表法。
2. 参数法: 特点是假定生存时间服从于特定的参数分布,根据已知 分布的特点对影响生存的时间进行分析,常用指数分布法、 Weibull分布法、对数正态回归分析法和对数logistic回归分析法。
二、寿命表法
适用于分组的生存资料。
① 实际工作中,随访结果常常没有每个观
察对象确切的生存时间,只能获得按随访 时间分组的资料。 ② 当样本较大(如n ≥ 50)时,采用乘积极 限法估计生存率及其标准误较为繁琐。
截尾原因大致有三种情况:
1. 失访:未继续就诊、拒绝访问或搬迁而失去联系。 2. 死于与研究疾病无关的原因:由于其他原因死亡。 3. 研究终止:研究结束时终点事件尚未发生。
截尾数据不能提供完全的信息,真实的生存时间未知,只知道比观察
到的截尾时间长,常用符号“+”表示。
生存资料的特点:
1. 有生存结局、生存时间
n29为10,表示恰好在29月时点前有10人存活。
4.死亡概率qt,表示t月前的观察对象恰好在t月时点 死亡的概率。
5.生存概率pt,表示t月前的观察对象恰好在t月时 点存活的概率。 6.生存率S(t)。表示该人群恰好活过t 时刻的概率。 它为小于和等于 t 时刻的各时点生存概率的乘积。 7.生存率的标准误SES(t) 。
2. 有不确定数据(截尾数据) 3. 分布呈指数分布、Weibull分布、对数正
态分布、对数logistic分布等
三、死亡概率
死亡概率(probability of death)表示单位时间段 开始存活的个体,在该段时间内死亡的可能性。 符号q表示。
某年内死亡人数 q 某年年初人口数
四、生存概率
生存概率(probability of survival)表示单位时间 段开始存活的个体,到该段时间结束时仍存活 的可能性。符号p表示。
某年活满一年人数 p 某年年初人口数
p 1 q
五、生存率
生存率(survival rate, survival function)表示观察 对象经历tk个单位时间段后仍存活的可能性。
3.影响生存的有关因素:如患者年龄、病情、 病程、术前健康等情况,以便分析这些因素对 生存率的影响。
二、随访方式
1.全部观察对象同时接受处理措施,观察到最后 一例出现结果或事先规定的随访截止时间。
7.0 6.0 5.0 4.0 3.0 2.0 1.0 0.0
+ + 36 99 160
0
30
60
90
二、生存时间
生存时间(survival time)也是一个广义概念,泛 指所关心的某现象的持续时间,即随访观察持 续的时间,常用符号t表示。
表2. 6例乳腺癌患者术后随访记录
观察记录 患者 编号 1 2 3 4 5 6 开始日期 02-09-03 02-09-10 02-09-14 02-08-25 02-10-01 02-10-04 终止日期 02-12-29 02-12-08 02-12-31 02-11-29 02-11-28 02-12-28 结局 (死=1,生=0) 0 1 0 0 0 1 原因 死于肺癌 转移死亡 研究终止 失 访 生存天数 t 118+ 90 108+ 96+ 59+ 86
存在的问题
• 1.n年生存率有时出现后一年大于前一年的 现象。 • 2.某时点生存率不能反映整个生存过程,比 较时可能出现不正确的结论。
生存分析的概念:
分析生存资料的统计方法称为生存分析,
(survival analysis),它是将事件的结局和发
生这种结局所经历的时间两个因素综合起 来分析的一种统计方法。它能够处理截尾 数据,并对整个生存过程进行分析或比较
第1年生存概率
0 1
第2年生存概率
2
第3年生存概率
3
1年生存率 2年生存率
3年生存率
图1 生存概率与生存率示意图
六、生存曲线
生存曲线(survival curve):生存时间为横轴, 将各时点所对应的生存率连接在一起的曲线图。
图2 生存曲线
生存分析主要内容:
统计描述:计算生存率、绘制生存率曲线、 计算中位生存时间等。 统计推断:估计总体生存率的可信区间、 生存率曲线的比较。
若生存率0.5处所对应的曲线与X轴平行,则中位生存 一个。
时间不止
若各时间点生存率均大于50%,则无法估计中位生存时间。
死亡时点生存率, Kaplan-Meier法 生存曲线为阶梯形 曲线。 曲线 高度 &下 降坡 度