当前位置:文档之家› 生存分析基本记忆(一)

生存分析基本记忆(一)

生存分析重点记忆
生存分析(survival analysis )是将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析的一种统计分析方法。

生存分析的内容:对于具有某些性质的一类人群,则可以通过对数据的分析来得到活过一定时间的概率。

如果关心不同治疗手段的效果,则可以通过数据分析来比较这些方法,看它们是否有效,还能建立可以预测的量化的模型。

生存分析主要任务?
描述生存过程:估计不同时间的总体生存率,计算中位生存期,绘制生存函数曲线。

统计方法包括Kaplan-Meier(K-M)法、寿命表法。

比较生存过程:比较不同处理组的生存率,如比较不同疗法治疗脑瘤的生存率,以了解哪种治疗方案较优。

统计方法有log-rank 检验等。

分析危险因素:研究某个或某些因素对生存率或生存时间的影响作用。

如为改善脑瘤病人的预后,应了解影响病人预后的主要因素,包括病人的年龄、性别、病程、肿瘤分期、治疗方案等。

统计方法cox 比例风险回归模型等。

(预后:指预测疾病的可能病程和结局。

它既包括判断疾病的特定后果,如康复,某种症状、体征和并发症等其它异常的出现或消失及死亡。


预测:建立cox 回归预测模型。

生存时间
终点事件与起始事件之间的时间间隔。

终点事件指研究者所关心的特定结局。

起始事件是反映研究对象生存过程的起始特征的事件。

生存时间的类型
1. 完全数据(complete data ):从起点至死亡(死于所研究疾病)所经历的时间。

2. 截尾数据(删失数据,censored data ):从起点至截尾点所经历的时间。

截尾的原因主要有3种:

1失访:失去联系 ②退出:死于非研究因素或其他非处理因 素、改变治疗方案等导致退出研究。

③终止:指观察研究期限结束时仍未出现结局。

死亡概率、死亡率:
死亡概率(mortality probability):是指某单位时段期初的观察对象在该单位时段内死亡的可能性大小。

该时段期初观察人数某单位时段内死亡数=q 若该时段内有删失,则分母用校正人口数:
删失数期初观察人数校正人口数21-= 死亡率(mortality rate):指单位时间内研究对象的死亡频率或强度,即平均每千人(或万
人、百人等)中的死亡人数。

1000⨯=该时段平均人口数
某单位时段内死亡数m ‰ 平均人口数=
2
1(该时段期初人口数+期末人口数)
生存概率:
生存概率(survival probability):表示某单位时段开始时存活的个体到该时段结束时仍存活的可能性大小,用p 表示,
公式如下:
q p -1==该时段期初观察人数
活满某时段的人数 若该时段内有删失,则分母用校正人口数。

生存率、生存函数、生存率曲线:
生存率(survival rate):指研究对象经历t 个时段后仍存活的概率,即生存时间大于等于t 的概率,用()t T P ≥表示。

生存率随时间t 变化而变化,即生存率是相对于时间t 的函数,称为生存函数(survival function),记为()t S 。

生存函数在某时点的函数值就是生存率。

生存函数或生存率计算如下:
①若前t 个时段没有删失: 研究期初观察总人数数时段结束时仍存活的人t t T P t S =≥=)()( 如:
%100⨯=研究期初观察人数年的人数活满年生存率n n 。

②若观察期内有删失:假定观察对象在各个单位时段内是否生存的事件是相互独立的,其生存概率分别为t p p p p ,,,,32
1 , 则根
据概率乘法原理得 ∏≤=⋅⋅=t t j
t j p p p p p t ......)S(321 故生存函数又称累积生存概率(cumulative Probability of survival ),即将时刻t 尚存活
看成是前t 个时段一直存活的累计结果。

如:
11211101-⋅⋅=n p ......p p p n 年生存率。

生存曲线(survival curve ):以观察(随访)时间为横轴,以生存率为纵轴,将各个时间点所对应的生存率连接在一起的曲线图。

生存曲线特点:生存曲线是一条下降的曲线,分析时应注意曲线的高度和下降的坡度。

平缓的生存曲线表示高生存率或较长生存期,陡峭的生存曲线表示低生存率或较短生存期。

危险率函数(概念):指t 时刻尚存活的研究对象死于t 时刻后一瞬间的概率,为条件概率。

即活到了t 时刻的条件下在t ~t t ∆+这一微时段内死亡的概率,用()t h 表示。

t
t T t t T t P t h t ∆≥∆+<<=→∆)
(lim )(0
t t n t t n t n t ∆⋅∆+-=→∆)()()(lim 0 T 为观察对象的生存时间,()t n 为t 时刻的生存人数,()t t n ∆+为t +∆t 时刻的生存人数。

危险率函数也称为死亡力(force of mortality)、瞬时死亡率(instantaneous failure rate)等。

危险率函数是生存分析的基本函数,它反映研究对象在某时点的死亡风险大小。

生存函数与危险率函数的关系可表示为: ⎥⎦
⎤⎢⎣⎡-=⎰t dt t h t S 0)(exp )(
生存率的比较(论述题):
生存率比较的假设检验方法有参数法、半参数法和非参数法,因医学研究中的生存时间资料大多为不规则分布或者分布未知,常采用非参数法进行假设检验。

非参数法是将生存率曲线作为整体进行曲线与曲线之间的比较,其零假设为各总体生存率曲线相同。

常用的非参数检验方法有log-rank 检验(时序检验)、Gehan 比分检验和Breslow 检验等。

时序检验基本思想:
在无效假设成立的前提下,根据两种处理不同生存时间的期初观察人数和理论死亡概率计算出的理论死亡数(期望死亡数)应该与实际死亡数相差不大;如果相差较大,则无效假设不成立,可以认为两条生存曲线间的差异有统计学意义。

可用于两组或多组生存率曲线的比较。

三个检验:
log-rank 检验(对数秩检验、时序检验)
该检验属非参数检验,用于比较两组或多组生存曲线或生存时间是否相同。

检验统计量为卡方。

自由度=组数-1。

P≤0.05,两组或多组生存曲线不同。

P >0.05,两组或多组生存曲线差别无统计学意义。

Log-rank 检验分析步骤:
(1)将两组患者按生存时间(或观察月数)统一从小到大排序,并标明组别、死亡数;
(2)列出各时点的期初病例数(分组和合计);
(3)分别计算甲、乙两组各时点的理论死亡数;
(4)计算甲、乙两组理论死亡数的合计值;
(5)计算卡方值:
(6)根据卡方检验结果,作出推断
Gehan 比分检验分析步骤:
(1)将两组患者按生存时间(或观察月数)统一从小到大排序,并标明组别、死亡数;
(2)计算R 1,R 2,R 1-R 2;
(3)计算Gehan 比分总计V ; (4)计算u 值:
(5)根据u 统计量结果,作出推断
Cox 的F 检验:
基本步骤:
1. 将两个样本中的数据合在一起从小到大排列
2. 若没有删失数据,则对上述排列中的第r 个数赋予分值
u ()22,1A T v T χ-=∑=-组数12111,1,,()11
111111111
rn n n nn t r n n n n n r t t t n n n n n =+++=--+==+=+++-- 为数据总个数,特别
3. 用 分别表示两个样本中的平均分值。

可以证明在零假设下比值服从F 分布(第一自由度是2n1,第二自由度是2n2),这里n1和n2分别是两个样本的样本量。

4. 当两个样本来自的总体有相等的均值时,统计量近似服从自由度是2r1,2r2的F 分布,利用这一点就可找出检验的否定域。

注意事项之一——方法选择(相同、不同)
Gehan 比分检验仅适用于未分组资料两个样本生存曲线比较
Logrank 检验既可用于两个样本,也可用于多个样本生存曲线的比较;既可用于分组资料生存曲线的比较,也可用于未分组资料生存曲线的比较
注意事项之二——应用条件
各样本生存曲线不能交叉
如果出现交叉,则提示可能存在混杂因素,应分层分析。

如,对分层对数秩检验,或其他多因素分析方法,如Cox 比例风险模型
Coc 比例风险回归模型:
1972年英国生物统计学家D.R. Cox 提出在基准危险率函数未知的情况下估计模型参数的方法称为Cox 比例风险回归模型(Cox’s proportional hazard regression model )。

Cox 比例风险回归模型的基本形式 12,t t。

相关主题