当前位置:文档之家› 随访生存分析的统计学基础

随访生存分析的统计学基础


二、寿命表法
适用于分组的生存资料。 ① 实际工作中,随访结果常常没有每个观 察对象确切的生存时间,只能获得按随访 时间分组的资料。 ② 当样本较大(如n ≥ 50)时,采用乘积极 限法估计生存率及其标准误较为繁琐。
例16-2 收集374名某恶性肿瘤患者随访资料,取时间区
间均为1年,结果间下表,试估计生存率及其标准误,中
2.截尾数据(censored data):亦称截尾值 (censored value)或终检值。指从观察起点到发 生非“死亡”事件所经历的时间。
截尾原因大致有三种情况:
1. 失访:未继续就诊、拒绝访问或搬迁而失去联系。 2. 死于与研究疾病无关的原因:由于其他原因死亡。 3. 研究终止:研究结束时终点事件尚未发生。
若生存率0.5处所对应的曲线与X轴平行,则中位生存 时间不止
一个。 若各时间点生存率均大于50%,则无法估计中位生存时间。
死亡时点生存率, Kaplan-Meier法 生存曲线为阶梯形 曲线。
曲线 高度 &下 降坡 度
拐点的纵坐标值 在下一个台阶
图5 肿瘤<3.0cm组生存曲线
图6 肿瘤<3.0cm组和肿瘤≥3.0cm生存曲线
1 1 1 1 1 1 1 1 1 0 1 0 1 0
表3 肿瘤<3.0cm组生存率及标准误的计算
期初病例数 nt
14
截尾数 ct
0
死亡概率 qt
1/14=0.0714
生存概率 pt
0.9286
生存率 S(t)
0.9268
13
0
1/13=0.0769
0.9231
0.8572
12
0
1/12=0.0833
随访资料生存分析的统计学基础
丁香园循证版周支瑞整理
传统的生存率计算方法
Hale Waihona Puke 表1 某地1974—1981年胃癌根治术后随访记录
生存年数 年份 例数
12345678 1974 29 28 25 23 19 18 17 17 17 1975 26 24 19 18 18 18 16 16 1976 24 21 19 16 14 14 13 1977 32 27 23 21 18 16 1978 25 23 20 16 16 1979 36 31 29 26 1980 25 23 19 1981 46 36 合计 243 213 154 120 85 66 46 33 17
0.9167
0.7858
11
0
1/11=0.0909
0.9091
0.7144
10
0
1/10=0.1000
0.9000
0.6429
9
0
1/9=0.1111
0.8889
0.5715
8
0
1/8=0.1250
0.8750
0.5001
7
0
1/7=0.1429
0.8571
0.4286
6
0
1/6=0.1667
0.8333
生存率的计算
1.生存时间t:由小到大排列,遇非截尾和截尾值相 同,截尾值排后。
2.死亡数dt:与生存时间t对应。注意:截尾值对应的 个体未发生“死亡”事件,故死亡数为0。
3.期初病例数nt,表示恰好在该时刻以前的病例数。如 n29为10,表示恰好在29月时点前有10人存活。
4.死亡概率qt,表示t月前的观察对象恰好在t月时点 死亡的概率。
观察记录
终止日期
结局 (死=1,生=0)
原因
02-12-29
0
死于肺癌
生存天数 t
118+
02-12-08
1
转移死亡 90
02-12-31
0
研究终止 108+
02-11-29
0
失访
96+
02-11-28
0
死于车祸 59+
02-12-28
1
复发死亡 86
生存时间分为两种类型:
1.完全数据(complete data):指从观察起点到 发生“死亡”事件所经历的时间。提供了观察 对象确切的生存时间。
肿瘤 <3.0cm
14 19 26
28
29
32
36
40
42 44+ 45 53 + 54 59 +
肿瘤 ≥3.0cm
6
7
9
10 11 12 13 20 23 25 27 30 34 37 43 50
生存时间 t
14 19 26 28 29 32 36 40 42 44 45 53 54 59
死亡数 dt
1974年~1981年共手术243例,1974年手术29例,术后1年内死亡1例,活满 1年的28例,到1982年末,活满8年的17例。以次类推。
观察满1年的243例,活满1年的213例:
1年生存率= 213 100% 87.65% 243
观察满2年的病例243 - 46 = 197例, 活满2年的共154例:
截尾数据不能提供完全的信息,真实的生存时间未知,只知道比观察 到的截尾时间长,常用符号“+”表示。
生存资料的特点:
1. 有生存结局、生存时间 2. 有不确定数据(截尾数据) 3. 分布呈指数分布、Weibull分布、对数正 态分布、对数logistic分布等
三、死亡概率
死亡概率(probability of death)表示单位时间段 开始存活的个体,在该段时间内死亡的可能性。 符号q表示。
(2) 失访:拒绝随访、失去联系或中途退出等。终 止随访时间为最后一次访问时间。
(3) 死于与研究疾病无关的原因:终止随访时 间为死亡时间。 (4) 研究终止。研究终止时观察对象仍然存活。 终止随访时间为研究终止时间。
3.影响生存的有关因素:如患者年龄、病情、 病程、术前健康等情况,以便分析这些因素对 生存率的影响。
某年内死亡人数 q 某年年初人口数
四、生存概率
生存概率(probability of survival)表示单位时间 段开始存活的个体,到该段时间结束时仍存活 的可能性。符号p表示。
某年活满一年人数 p 某年年初人口数
p 1q
五、生存率
生存率(survival rate, survival function)表示观察 对象经历tk个单位时间段后仍存活的可能性。
0.3571
5
1
0/5=0.0000
1.0000
0.3571
4
0
1/4=0.2500
0.7500
0.2678
3
1
0/3=0.0000
1.0000
0.2678
2
0
1/2=0.5000
0.5000
0.1339
1
1
0/1=0.0000
1.0000
0.1339
生存率标准误 SE[S(t)]
0.0688 0.0935 0.1097 0.1207 0.1281 0.1323 0.1336 0.1323 0.1281 0.1281 0.1233 0.1233 0.1130 0.1130
随访研究的几个问题:
一、随访内容
1.开始随访的时间:入(出)院时间、确诊时间、 开始治疗时间等可作为随访开始的时间。如乳腺 癌的乳腺切除术后第一天或出院日、白血病化疗 后缓解出院日等,也可规定开始治疗日为随访开 始时间。
2.随访的结局和终止随访的时间
随访的结局可能有以下几种:
(1) “死亡”:泛指处理措施失败的事件。如肿瘤化 疗后的复发、肾移植因肾衰或与之有关的原因而 死亡等。终止随访时间为“死亡”时间。
统计推断:估计总体生存率的可信区间、 生存率曲线的比较。
影响因素、预测
生存分析基本方法:
1. 非参数法: 特点是不论资料是什么样的分布类型,只根据样本提 供的顺序统计量对生存率进行估计,常用乘积极限法和寿命表法。 2. 参数法: 特点是假定生存时间服从于特定的参数分布,根据已知 分布的特点对影响生存的时间进行分析,常用指数分布法、 Weibull分布法、对数正态回归分析法和对数logistic回归分析法。 3. 半参数法:介于参数法和非参数法之间,一般属多因素分析方法, 用于探讨生存过程的主要影响因素,其经典方法是Cox比例风险回 归模型。
生存分析的几个概念:
一、终点事件
终点事件 (terminal event)又称失效事件(failure event) 或“死亡”事件(death event) ,泛指标志某种措施 失败或失效的事件,反映治疗效果特征的事件,是 根据研究目的确定的。如乳腺癌术后死亡、白血病 化疗后复发、肾移植术后的肾衰等,均可作为“死 亡”事件。
位生存时间,并绘制生存曲线。
表4 某恶性肿瘤患者随访资料
序号 确诊后年数 期内死亡数 期内截尾数 期初病例数
二、生存时间
生存时间(survival time)也是一个广义概念,泛 指所关心的某现象的持续时间,即随访观察持 续的时间,常用符号t表示。
表2. 6例乳腺癌患者术后随访记录
患者 编号
1 2 3 4 5 6
开始日期 02-09-03 02-09-10 02-09-14 02-08-25 02-10-01 02-10-04
S(t) u /2SE[S(t)]
本例28月总体生存率的95%可信区间:
0.7144 1.960.1207
即膀胱肿瘤<3.0cm患者28月生存率的95%可信区间为47.78% ~95.10%。 生存曲线尾部的生存率不适合于用该法计算总体生存率的可信区间。
中位生存时间
由表3可见,中位生存时间估计在36月。 采用内插法计算:找到与生存率50%相邻的上下两个生存率及 其生 存时间利用线性比例关系求解中位生存时间。
相关主题