Cox回归分析
βi的实际意义
◦ 当其它协变量相同,变量Xi改变一个单位时,引起的死亡 风险改变倍数的自然对数值
从本质上讲,Cox模型无法准确估计出具体风险状 况和计算生存率
研究癌细胞是否有转移(x1:x1=0 无转移,x1=1 有转移)和是否 手术(x2:x2=0 无手术,x2=1 有手术)这两个协变量对癌症患者 生存时间的影响,建立了如下Cox回归模型:
(proportional hazard model) S (t) = S0 (t)exp( Xβ ')
Xβ'=β1x1+β2x2+…+βmxm
h0(t)称为基础风险函数(Baseline Hazard Function)
◦ 表示个体在时点t的基线死亡风险,也就是说 所有协变量为0,即风险因素为基线值时的死 亡风险率
4
3-
30
30
0.30
0.65
5
4-
10
10
0.10
0.75
6
5-
5
5
0.05
0.80
7
6-
4
4
0.04
0.84
8
7-
3
3
0.03
0.87
9
8-
2
2
0.02
0.89
10
9-
2
2
0.02
0.91
11
10-
1
1
0.01
0.91
12 11-21
8
0.8
0.008
1.00
半参数法
◦ 规定了影响因素和生存结局间的关系,对时间 (和风险函数)的分布没有加以限定
RR=exp(β)
表示协变量每增加一个单位,危险度改变多少倍。
treat的β= -1.617,RRtreat=0.199,表示治疗方 案2与1比较,其危险度是治疗方案1的0.199倍,提 示治疗方案2优于治疗方案1。
age的β=0.119,RRage=1.127,表明年龄每增加 一岁,死亡的可能性增加到1.127倍
◦ 假定这个个体存活时间大于等于t。 ◦ 这个函数为发病或死亡密度(ID或MD)
= λ(t) lim 1 P[T ∈(t,t + ∆t) / T ≥ t] ∆t→0 ∆t
λ(t) = f (t) S (t )
累积风险函数(cumulative hazard function)
◦ 风险函数的右侧积分面积
Number of obs =
LR chi2(2)
=
Prob > chi2 =
Pseudo R2
=
34 18.16 0.0001 0.1320
------------------------------------------------------------------------------
time |
4
2017/4/13
在Stata命令中加入hr,可以直接给出RR值。 cox time treat age , dead(dead) hr
time | dead | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------treat | .1985735 .0982651 -3.27 0.001 .0752835 .5237726 age | 1.126916 .0458782 2.93 0.003 1.040491 1.220521
┆
┆
23
1
2
52
32
0
2
57
Stata命令 gen ta=treat*age 生成age和treat的交互项ta cox time treat age ta, dead(dead) 拟合含有
交互项的Cox模型 cox命令的语句格式为:cox 生存时间变量 协变量,
dead(结局变量)
2017/4/13
2017/4/13
5例癌患者随访记录
序号
1 2 3 4 5
姓名
马** 李** 张** 吴** 王**
性别 (男=1)
1 0 1 0 1
处理组
0 1 1 0 1
开始日期 终止日期
98-07-12 98-07-01 98-07-14 98-08-22 98-10-20
98-11-29 98-12-08 98-12-31 98-11-29 98-11-25
age | .119485 .0407113 2.93 0.003 .0396924 .1992776
------------------------------------------------------------------------------
Cox回归方程 h(t, X ) = h0 (t) ⋅ e(−1.617⋅treat+0.119⋅age)
treat | -3.005587 5.033301 -0.60 0.550 -12.87068 6.859502
age | .0891689 .116237 0.77 0.443 -.1386514 .3169892
ta | .0220285 .0792198 0.28 0.781 -.1332394 .1772965
0.84
3
3
0.03
0.87
9
8-
2
10
9-
2
11
10-
1
12 11-21
8
2
0.02
0.89
2
0.02
0.91
1
0.01
0.92
8
0.08
1.00
11
估计该病患者生存时间不超过2年的概率: F(2)=0.15
该病患者在时点2(年)死亡的危险性:
f(2)=0.20
估计该病患者生存时间超过2 (年)的概率: S(2)=1-F(2)=1-0.15=0.85
i 确诊后(年) 死于本病例数 频数/年 频率/年 累计频率/年
ti
fi
fi/年
f(ti)
F(ti+1)
1
0-
2
1-
3
2-
4
3-
5
4-
6
5-
7
6-
8
7-
5
5
0.05
0.05
10
10
0.10
0.15
20
20
0.20
0.35
30
30
0.30
0.65
10
10
0.10
0.75
5
5
0.05
0.80
4
4
0.04
dead |
Coef. Std. Err.
z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
treat | -1.616596 .4948552 -3.27 0.001 -2.586495 -.6466978
◦ 一般来说指的是Cox比例风险模型,属多因素 分析方法,主要用于分析影响生存率的因素
◦ 是目前医学中应用最广的生存分析方法之一
生存函数S(t) (survival function)
◦ 个体存活时间超过t的概率,随时间t的增大而减小 S(t) = P[T > t]
概率密度函数f(t) (probability density function)
------------------------------------------------------------------------------
time |
dead |
Coef. Std. Err.
z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
◦ 个体在单位时间内死亡的概率极限,一般为一右侧长尾曲线, 其右侧积分面积即为S(t)
= f (t) lim 1 P[t ∈(t,t + ∆t)] ∆t→0 ∆t
1
2017/4/13
累积死亡函数F(t ) (cumulative distribution function) F(t) = 1− S(t) = P[T ≤ t]
结局 (死=1)
0 1 0 1 1
生存天数
140 160 170 99 36
生存时间
◦ 完全数据(complete data) ◦ 截尾数据(censored data),亦称为删失数据
非参数法
◦ 随访资料的常用分析方法
参数法
◦ 要求观察的生存时间t服从某一特定的分布,根据 特定的分布估计参数,从而得到生存率的估计值。
RH (t) = h(t, X )
+Λ
+ βmXm
h0 (t)
RH(t)表示在时间t,协变量X下,个体风险率相对于
基础风险率的比
= RH (t) ex= p(X β ′) exp(β1x1 + ...+ β p xp )
可见, RH(t)不随时间变化 因此,COX回归模型又称为比例风险模型