临床治疗数据的统计分析
临床治疗数据的统计分析
统计学家在面对一个实际的数据分析问题时,
•如何将实际问题转化为统计问题? •如何设计一套系统的统计分析路线来得到 答案? •在进行统计分析时,如何根据问题背景和 数据特性选择恰当的模型与分析方法? •如何对用不同模型或分析方法得到的结果 进行评估、比较? •如何对统计分析的结果结合实际问题的背 景加以合理的解释?
pi
ni
ni
ki
,i
0,1,
,d.
在上述假定下,由乘积限估计得到的经验 生存函数 Sn (x) 定义为:
当 t0 x t1,
Sn ( x)
n0 k0 n0
1;
当 ti x ti1, 由 P(x X ) P(t1 X )P(t2 X | t1 X )
P(x X | ti X )
21人
11,11,12,12,15,17,22,23
表1数据后面有+者表示,当项目结束 时缓解仍在持续。例如,处理组中的20+表 示:该病人在项目结束前20小时进入临床 治疗,使用6-MP后,缓解持续到项目结束。 因此,该病人的实际缓解持续时间至少为 20周,很可能大于20周。这种数据在统计 学中称为删失数据。
Sn (x) p1
pi
i j 1
nj kj. nj
可以证明,如果数据是完全的(无删失), 则乘积限估计与通常的经验分布一致。
经验累积危险率
Hn (x) ln Sn (x).
处理组数据的Sn (x)和Hn (x)见下表。处理组数 据 Hn (x) 的图像也非常接近于直线,可以认 为处理组的缓解时间也遵从指数分布。
ni ,i 0,1, , d,(n0 0).
乘积限估计基于条件概率的思想来建立经 验分布,但需要一个关于死亡时间和删失 时间之间关系的假定:
•在区间 [ti,ti1) 上的删失时间其实际死亡 时间不早于 ti1.
当 ti x ti1, 条件概率 P(x X | ti X ) 的经验 估计为:
表 处理组(6-MP)数据的 Sn (x) 和Hn (x) 值
ti
ki
6
3
7
1
10
1
13
1
16
1
22
1
23
1
ni
Sn (ti )
Hn (ti )
21
0.857
0.154
17
0.807
0.214
15
0.753
0.284
12
0.690
0.371
11
0.627
0.469
7
0.538
0.620
6
0.448
则似然函数为:
D
C
L() f (yi,)S(z j ,).
i1
j 1
对于指数分布,可以算出对数似然函数为:
D
C
LnL() D ln ( yi z j ),
i 1
j 1
的极大似然估计为: D
D
C
.
yi z j
i 1
j 1
对于处理组数据,在指数分布下的最大似然 估计 9 / 359 0.025. 该值明显小于控制组的 估计值0.115。但还不能简单地据此断言6MP可以显著地延长缓解时间,需要通过一 个正式的假设检验程序。
在刻画时间分布模型的特征方面,“生存 函数”和“危险率”是两个重要的函数。
生存函数也称为“可靠度”,是个体 寿命超过某个时刻的概率。用X记个体寿 命,生存函数S(x)定义为:
S(x)=P(X>x).
危险率又称为“失效率”或“瞬时失 效率”,它刻画的是,在个体活过某个时 刻的条件下,在下一瞬间死亡的危险性。
因此,用e(0.115)来拟合控制组数据。
Weibull分布比指数分布更具有一般性, 其危险率函数为
h(x) (x)1, 0, 0.
若用Weibull分布拟合控制组数据, 接近 于1,由简单性原则,没有必要用。
表 控制组(安慰剂)数据的 Sn (x) 和 Hn (x)
数据值 1
重复数 2
2ln(L0 / L1) 2ln(L1) ln(L0)
•当样本容量足够大时, 在原假设下的分 布可以用 2 (1) 近似。
似然比的值在0到1之间,越小对原假设越 不利。 取正值,越大对原假设越不利。
在选择参数分布模型时有几个原则需要遵循:
•合理性:每个实际问题都有一定的“背景 机理”,一般来说,统计模型的选择应该 考虑背景机理。 •合适性:模型应该能够较好地拟合数据。 •简单性:当简单的模型可以相当满意地拟 合数据时,不要采用复杂的模型。简单模 型可以避免由随机因素造成的模型变形, 并且容易从背景机理上解释。
乘积限估计:假定n个数据中有d个不同的 “死亡”时间,按从小到大的顺序排列, 记为 0 t1 t2 td , 并记 t0 0. 在死亡时间 ti 上的重复数据个数记为 ki,i 0,1, , d,(k0 0),
对死亡时间 ti , 满足大于等于ti 的数据(包 括死亡、删失、重复)个数记为
1、白血病临床治疗的数据与问题
在持续1年的急性白血病治疗的临床试验 中,研究者将42位急性白血病患者(进入 项目的时间有先后)随机地分成两组(各 21人)。对一组病人用药物6-MP治疗以缓 解病痛,而另一组病人用安慰剂。安慰剂 的外形和颜色与药物完全相同,但不含任 何药物,病人自己并不知道实际服用的是 药物还是安慰剂。研究者记录下每个病人 病痛缓解的持续时间(以周为单位),持 续时间越长则疗效越好。数据见表1。
原假设:H0 : 1 2, 备择假设:H1 : 1 2.
“似然比检验”是一种具有普遍性、高功效 的参数假设检验程序,所基于的检验统计量 称为“负二倍对数似然比”,其一般构造方 法如下:
•计算在原假设约束下似然函数的最大值, 记为 L0 •计算不受原假设约束时似然函数的全局 最大值,记为 L1 •似然比 L0 / L1 •负二倍对数似然比
x
D是两个函数 Fn (x) 和 F0(x) 之间的最大距离。 由于 Fn (x) 为阶梯函数,且两个函数均单增, D的计算并不困难。
设数据点为 x1, , xn, 注意到 Fn (xi ) i / n, 计算
d1i
i
n
1
F0
(
xi
)
,
d2i
i n
F0
(
xi
)
,
则
D max 1in
d1i , d2i
医学研究关注的问题是:6-MP能否显 著延长缓解的持续时间?如果不能得到肯 定的回答,则对该药物没有必要进一步研 究;反之,如果结论是肯定的,则研究者 希望进一步对以后的病人在使用6-MP后的 效果进行量化的评估。
2、统计分析的思路
用统计学的术语,白血病的缓解效果的分析 是一个“两样本比较”问题,一般用的是两 正态样本均值比较的t检验。但现在的问题复 杂得多:首先,样本分布未知,而且在时间 数据的分析中,由于数据分布有很大的偏度, 正态分布是一个“坏”的模型。其次,数据 是不完全的(有删失数据),常规的、用于 完全数据的分析方法不能简单套用。
.
对于控制组数据,假设的分布为e(0.115), 计算D=0.170,相应的p值约为0.50.由于p 值相当大,可以认为此分布对数据拟合得 相当满意。
5、数据有删失时拟合分布的方法
对于处理组(6-MP),由于数据有删失, 其经验分布不能如完全数据时有简单的定 义。我们采用如下的思路来拟合分布:
•建立有删失数据的经验分布——乘积限估计 (Kaplan-Meier估计); •用直方图直观选取一个看起来比较满意的 分布族(最好也是指数分布); •对选取的分布族估计参数,选定一个分布。
Hn(x) 的获得基于“经验分布”。 生存函数S(x)的经验估计: Sn (x) =“大于x的数据个数”/n, 而 Hn (x) ln S(x).
图:控制组数据的 Hn(x) 图像
指数分布只有一个参数,其极大似然估计为 1/ x, 其中 x 为样本均值。对于控制组数据
x 182/ 21 8.667, 0.115.
危险率h(x)定义为:
h(x) lim P(x X x | x X )
0
lim S(x) S(x ) d ( ln S(x)).
0 S(x)
dx
根据危险率h(x)的发展趋势,“生存”模型 可分为三大类:
•h(x)单调下降(成长阶段); •h(x)保持不变(成熟阶段); •h(x)单调上升(衰老阶段)。
3)预测以后的病人在使用6-MP后的缓解 持续时间的有关参数,对6-MP的效果给出 有足够置信度的量化评估。
3、对完全数据拟合分布
在这批数据中,控制组(使用安慰剂) 的数据是完全的,没有删失数据。完全数 据的分析相对比较简单。我们的第一步目 标是要选择一个参数分布来拟合数据。常 用的拟合时间数据的参数模型(分布)有 指数分布、Weibull分布、Gamma分布及 对数正态分布等。
1
0.000
---
4、拟合优度检验
用“拟合优度检验”对拟合效果进行评估。
•构造一个度量所假设的分布拟合数据的好坏 (优度)的检验统计量 D (D 0) 。D的值小表 示拟合得好,反之表示拟合得差。
•根据数据计算得到D=d,计算在假设的分布 正确的前提下的概率p=P(D>d),则p的值大 表示拟合得好。这里p就是拟合优度,简称为 “p-值”。
直方图是统计分析中借助直观帮助选 择分布模型的重要方法。对于指数分布, 考察其“累积危险率”:
x
H (x) 0 h(u)du ln S(x) x.
这是一条关于时间变量x的直线。利用数据 可以得到H(x)的“经验估计” Hn(x) ,若 Hn(x) 大致呈直线走势,则可以直观地认为指数 分布对于数据的拟合是比较满意的。