当前位置:文档之家› 生存分析 统计学

生存分析 统计学

a23


a1p
a2p
3
… n
Y3
… Yn
a31
… an1
a32
… an2
a33
… an3

… …
a3p
… anp
5
其中:Y取值是二值或多项分类
表2. 肺癌与危险因素的调查分析
例号 1 2 3 … 30 是否患病 0 0 1 … 1 性别 1 0 0 … 0 吸烟 0 1 0 … 0 年龄 30 46 35 … 26 地区 0 1 1 … 1
0
始点
a
随访方式
0
始点 终点 t

时间
• 全体观察对象在不同时间接 受治疗处理,完成一定数量 随访病例后决定随访截止时 间,或按事先规定的时间停 止随访
• 这是临床试验最常见的形式
图中‚×‛表示‚死亡‛,‚o‛ 表示失访、退出研究或死于与本 研究无关的其它原因
b
影响生存时间的有关因素(协变量)
• 如患者的年龄、病程、术前健康 状况、经济、文化、职业等 • 以便分析这些因素对生存时间的 影响
随访方式

时间 终点 t
• 全体观察对象同时接受 处理措施,观察到最后 一例出现结果,或者事 先规定的随访截止时间
图中‚×‛表示‚死亡‛, ‚o‛表示失访、退出研究 或死于与本研究无关的其 它原因
因素(或保护因子)的数量关系
1. Logistic回归模型的数据结构
• 设资料中有一个因变量Y、p个自变量X1,
X2,…,Xp,对每个实验对象共有n次观测结
果,可将原始资料列成表1形式。
表1. Logistic回归模型的数据结构
实验对象
Y
X1
X2
X3
….
XP
1
2
Y1
Y2
a11
a21
a12
a22
a13
事件所经历的时间跨度。
狭义的生存时间常指患某种疾病的病人从发病 到死亡所经历的时间跨度;
一、基本概念
生存时间(survival time):
• 疾病治疗的预后情况,一方面看结局好坏, 另一方面还要看出现这种结局所经历的时 间长短,所经历的时间称为生存时间
21
一、基本概念
• 起始事件 是反映生存时间起始特征的事件, 如疾病确诊、某种疾病治疗开始、接触毒物等,
研究设计时需要明确规定。
• 终点事件 指反映结局特征的事件,又称为死
亡事件、失效事件。
如肾移植病人因肾功能丧失引起的死亡,急性 白血病患者的复发,癌症患者的死亡等。研究 设计时也需事先明确规定。
生存时间举例
起始事件 治疗开始(服药) 疾病确诊 手术切除 接触毒物 化疗 缓解 终点事件 痊愈 死亡 死亡 出现反应 缓解 复发
为Logistic变换,即:
Logit( P) 0 1 X1 p X p
3.筛选变量的常用方法
• 向前法(forward selection)
• 后退法(backward selection) • 逐步回归法(stepwise selection)
4.Logistic回归的结果解释
• 3. 筛选变量的常用方法 • 4. Logistic回归分析的结果解释
目的:作出以多个自变量(影响因素)估计
应变量(结果变量)的logistic回归方程
资料:1.
应变量为反映某现象发生与不发
生的二值变量;2. 自变量(影响因素)可能
是二值数据或等级资料或计量资料。分类变
量要数量化
用途:研究某种疾病或现象发生和多个危险
生存分析(survival analysis):
• 不完全数据提供了部分信息。必须用专 门的方法进行统计处理,这类统计方法 起源于对寿命资料的统计分析,故称为
生存分析。
25
生存分析(survival analysis):
• 研究生存时间的分布规律以及生存时间和 相关因素之间关系的一种统计分析方法。
的时间。
• 例:
假定用甲、乙两种药物治疗某病,其治
愈率均为80%,能否说两种疗效一致? • 还应考虑时间效应问题,如果甲药平均3天治
愈80%,而乙药平均7天治愈80%,则可以认
为甲药比乙药的疗效好。
• 评价两种治疗方法的好坏,不能简单地比 较治愈率和有效率,还要看出现结局的时 间长短,因此,不能用t检验和卡方检验等 不包含时间因素的方法,需要学习新的方 法。 • 可以对疾病进行长期随访,统计一定年限
P exp( 0 1 X 1 p X p ) 1 exp( 0 1 X 1 p X p )
ln[P /(1 P)] 0 1 X1 p X p
2.Logistic回归的模型
定义:
Logit( P) ln[P /(1 P)]
一、基本概念
• 生存分析(survival analysis)是将事件 的结局(终点事件)和出现这一结局所经历 的时间结合起来分析的一种统计分析方法。 能分析完全数据的资料,同时也可以分析包 含不完全数据的资料 • 生存分析与其它多因素分析的主要区别就是 生存分析考虑了每个观测出现某一结局的时 间长短。
a. Variable(s) entered on step 1: X3. b. Variable(s) entered on step 2: X2.
4.Logistic回归的结果解释
• 设第i个因素的回归系数为bi,表示当有多个自变 量存在时,其它自变量固定不变的情况下,自变量 Xi每增加一个单位时,所得到的优势比的自然对数
去掉截尾数据 n=60 生存数 生存率 1年 30 30/60=50% 3年 10 10/60=13% 不去掉截尾数据 n=100 生存数 生存率 70 70/100=70% 10 ?
随访记录表
随访资料记录 的项目通常包括: 处理组别、开始观察日期、终止观
察日期、结局、生存时间等。
37
表4. 9例病人的随访记录
① 死亡,即处理失效,终止时间即为‚死亡‛时间
② 生存但中途失访,包括拒绝访问、失去联系或中途 退出试验,其终止时间以最后一次访问时间为准
③ 死于其他与研究疾病无关的原因,如肺癌患者死于 心肌梗死、自杀或车祸等,其终止随访的时间为死 亡时间 ④ 随访截止,随访研究结束时观察对象仍存活,终止 随访时间为研究结束时间
( 入 0.10,出 0.15)
表 9. 喉癌的危险因素与赋值说明
因素 咽炎 吸烟量(支/日) 声嘶史 摄食新鲜蔬菜 摄食水果 癌症家族史 是否患喉癌 变量名 X1 X2 X3 X4 X5 X6 Y 赋值说明 无=1, 偶尔=2, 经常=3 0=1, 14=2, 59=3, 1020=4, 20=5 无=1, 偶尔=2, 经常=3 少=1, 经常=2, 每天=3 很少=1, 少量=2, 经常=3 无=0, 有=1 病例=1, 对照=0
间,它提供了不完全的信息,称为不完全数据
(截尾数据、删失数据 censored data)。
27
生存时间的类型
• 完全数据(complete data):从起点至死 亡(死于所研究疾病)所经历的时间。 • 截尾数据(删失数据,censored data): 从起点至截尾点所经历的时间。 • 截尾原因:失访、死于其它疾病、观察结 束时病人尚存活等。
复 习
• Logistic回归模型是一种概率模型,适合 于病例—对照研究、随访研究和横断面研 究,且结果发生的变量取值必须是二分的 或多项分类的。 • 可用影响结果变量发生的因素为自变量与 因变量建立回归方程。
复 习
• 1. Logistic回归分析的数据结构
• 2. Logistic回归分析的模型
。也就是其它自变量固定不变的情况下,自变量Xi
每增加一个单位时,影响因变量Y=0发生的倍数 设第i个因素的回归系数为bi
• 当bi>0时,对应的优势比ORi=exp(bi)>1,说明该因
素是危险因素;
• 当bi<0时,对应的优势比ORi=exp(bi)<1,说明该因
素是保护因素
例 4、 某北方城市研究喉癌发病的危险因素, 用 1:2 配对的病例对照研究方法进行了调查。现选取了 6 个可能的危险因素并节录 25 对数据,各因素的赋值说明见 表 9,资料表(略) ,试作条件 logistic 逐步回归分析。
注:X1蛋白质摄入量,取值:0,1,2,3 X2不良饮食习惯,取值:0,1,2,3 X3 精 神 状 况,取值:0,1,2
2、 Logistic回归模型
令: Y=1 Y=0 发病(阳性、死亡、治愈等) 未发病(阴性、生存、未治愈等)
将发病(1)的概率记为P,它与自变量x1,
x2,…,xp之间的Logistic回归模型为:
ta+ tb+ tc+ td
截尾数据的处理
• 因为不太好处理截尾数据,很多临床研 究工作者常常将失访或中止等原因造成 的截尾数据在分析时抛弃。 • 截尾数据提供的信息虽然是不完全的, 但也很有价值,不应随便删掉它。
35
例:某研究者追踪100名病人经治疗后的生存情 况,第1年有30人死亡,第3年时,有20人死亡, 有40人失访(退出观察), 10人存活。试估计其 生存率。 表4 是否去掉截尾数据不同情况
Variables in the Equation B Step a 1 Step b 2 X3 Constant X2 X3 Constant .143 -6.043 3.021 .149 -7.403 S.E. .047 1.966 1.375 .054 2.522 Wald 9.388 9.448 4.830 7.720 8.615 df 1 1 1 1 1 Sig. .002 .002 .028 .005 .003 Exp(B) 1.154 .002 20.505 1.161 .001 95.0% C.I.for EXP(B) Lower Upper 1.053 1.265 1.386 1.045 303.296 1.289
相关主题