当前位置：文档之家› 临床治疗数据的统计分析

临床治疗数据的统计分析

临床治疗数据的统计分析
统计学家在面对一个实际的数据分析问题时，
•如何将实际问题转化为统计问题？ •如何设计一套系统的统计分析路线来得到答案？ •在进行统计分析时，如何根据问题背景和数据特性选择恰当的模型与分析方法？ •如何对用不同模型或分析方法得到的结果进行评估、比较？ •如何对统计分析的结果结合实际问题的背景加以合理的解释？
pi
ni
ni
ki
,i
0,1,
,d.
在上述假定下，由乘积限估计得到的经验生存函数 Sn (x) 定义为：
当 t0 x t1,
Sn ( x)
n0 k0 n0
1;
当 ti x ti1, 由 P(x X ) P(t1 X )P(t2 X | t1 X )
P(x X | ti X )
21人
11，11，12，12，15，17，22，23
表1数据后面有+者表示，当项目结束时缓解仍在持续。例如，处理组中的20+表示：该病人在项目结束前20小时进入临床治疗，使用6-MP后，缓解持续到项目结束。因此，该病人的实际缓解持续时间至少为 20周，很可能大于20周。这种数据在统计学中称为删失数据。
Sn (x) p1
pi
i j 1
nj kj. nj
可以证明，如果数据是完全的（无删失），则乘积限估计与通常的经验分布一致。
经验累积危险率
Hn (x) ln Sn (x).
处理组数据的Sn (x)和Hn (x)见下表。处理组数据 Hn (x) 的图像也非常接近于直线，可以认为处理组的缓解时间也遵从指数分布。
ni ,i 0,1, , d,(n0 0).
乘积限估计基于条件概率的思想来建立经验分布，但需要一个关于死亡时间和删失时间之间关系的假定：
•在区间 [ti,ti1) 上的删失时间其实际死亡时间不早于 ti1.
当 ti x ti1, 条件概率 P(x X | ti X ) 的经验估计为：
表处理组（6-MP）数据的 Sn (x) 和Hn (x) 值
ti
ki
6
3
7
1
10
1
13
1
16
1
22
1
23
1
ni
Sn (ti )
Hn (ti )
21
0.857
0.154
17
0.807
0.214
15
0.753
0.284
12
0.690
0.371
11
0.627
0.469
7
0.538
0.620
6
0.448
则似然函数为：
D
C
L() f (yi,)S(z j ,).
i1
j 1
对于指数分布，可以算出对数似然函数为：
D
C
LnL() D ln ( yi z j ),
i 1
j 1
的极大似然估计为： D
D
C
.
yi z j
i 1
j 1
对于处理组数据，在指数分布下的最大似然估计 9 / 359 0.025. 该值明显小于控制组的估计值0.115。但还不能简单地据此断言6MP可以显著地延长缓解时间，需要通过一个正式的假设检验程序。
在刻画时间分布模型的特征方面，“生存函数”和“危险率”是两个重要的函数。
生存函数也称为“可靠度”，是个体寿命超过某个时刻的概率。用X记个体寿命，生存函数S(x)定义为：
S(x)=P(X>x).
危险率又称为“失效率”或“瞬时失效率”，它刻画的是，在个体活过某个时刻的条件下，在下一瞬间死亡的危险性。
因此，用e(0.115)来拟合控制组数据。
Weibull分布比指数分布更具有一般性，其危险率函数为
h(x) (x)1, 0, 0.
若用Weibull分布拟合控制组数据，接近于1，由简单性原则，没有必要用。
表控制组（安慰剂）数据的 Sn (x) 和 Hn (x)
数据值 1
重复数 2
2ln(L0 / L1) 2ln(L1) ln(L0)
•当样本容量足够大时，在原假设下的分布可以用 2 (1) 近似。
似然比的值在0到1之间，越小对原假设越不利。取正值，越大对原假设越不利。
在选择参数分布模型时有几个原则需要遵循：
•合理性：每个实际问题都有一定的“背景机理”，一般来说，统计模型的选择应该考虑背景机理。 •合适性：模型应该能够较好地拟合数据。 •简单性：当简单的模型可以相当满意地拟合数据时，不要采用复杂的模型。简单模型可以避免由随机因素造成的模型变形，并且容易从背景机理上解释。
乘积限估计：假定n个数据中有d个不同的 “死亡”时间，按从小到大的顺序排列，记为 0 t1 t2 td , 并记 t0 0. 在死亡时间 ti 上的重复数据个数记为 ki,i 0,1, , d,(k0 0),
对死亡时间 ti , 满足大于等于ti 的数据（包括死亡、删失、重复）个数记为
1、白血病临床治疗的数据与问题
在持续1年的急性白血病治疗的临床试验中，研究者将42位急性白血病患者（进入项目的时间有先后）随机地分成两组（各 21人）。对一组病人用药物6-MP治疗以缓解病痛，而另一组病人用安慰剂。安慰剂的外形和颜色与药物完全相同，但不含任何药物，病人自己并不知道实际服用的是药物还是安慰剂。研究者记录下每个病人病痛缓解的持续时间（以周为单位），持续时间越长则疗效越好。数据见表1。
原假设：H0 : 1 2, 备择假设：H1 : 1 2.
“似然比检验”是一种具有普遍性、高功效的参数假设检验程序，所基于的检验统计量称为“负二倍对数似然比”，其一般构造方法如下：
•计算在原假设约束下似然函数的最大值，记为 L0 •计算不受原假设约束时似然函数的全局最大值，记为 L1 •似然比 L0 / L1 •负二倍对数似然比
x
D是两个函数 Fn (x) 和 F0(x) 之间的最大距离。由于 Fn (x) 为阶梯函数，且两个函数均单增， D的计算并不困难。
设数据点为 x1, , xn, 注意到 Fn (xi ) i / n, 计算
d1i
i
n
1
F0
(
xi
)
,
d2i
i n
F0
(
xi
)
,
则
D max 1in
d1i , d2i
医学研究关注的问题是：6-MP能否显著延长缓解的持续时间？如果不能得到肯定的回答，则对该药物没有必要进一步研究；反之，如果结论是肯定的，则研究者希望进一步对以后的病人在使用6-MP后的效果进行量化的评估。
2、统计分析的思路
用统计学的术语，白血病的缓解效果的分析是一个“两样本比较”问题，一般用的是两正态样本均值比较的t检验。但现在的问题复杂得多：首先，样本分布未知，而且在时间数据的分析中，由于数据分布有很大的偏度，正态分布是一个“坏”的模型。其次，数据是不完全的（有删失数据），常规的、用于完全数据的分析方法不能简单套用。
.
对于控制组数据，假设的分布为e(0.115)，计算D=0.170，相应的p值约为0.50.由于p 值相当大，可以认为此分布对数据拟合得相当满意。
5、数据有删失时拟合分布的方法
对于处理组（6-MP），由于数据有删失，其经验分布不能如完全数据时有简单的定义。我们采用如下的思路来拟合分布：
•建立有删失数据的经验分布——乘积限估计（Kaplan-Meier估计）； •用直方图直观选取一个看起来比较满意的分布族（最好也是指数分布）； •对选取的分布族估计参数，选定一个分布。
Hn(x) 的获得基于“经验分布”。生存函数S(x)的经验估计： Sn (x) =“大于x的数据个数”/n，而 Hn (x) ln S(x).
图：控制组数据的 Hn(x) 图像
指数分布只有一个参数，其极大似然估计为 1/ x, 其中 x 为样本均值。对于控制组数据
x 182/ 21 8.667, 0.115.
危险率h(x)定义为：
h(x) lim P(x X x | x X )
0
lim S(x) S(x ) d ( ln S(x)).
0 S(x)
dx
根据危险率h(x)的发展趋势，“生存”模型可分为三大类：
•h(x)单调下降（成长阶段）； •h(x)保持不变（成熟阶段）； •h(x)单调上升（衰老阶段）。
3）预测以后的病人在使用6-MP后的缓解持续时间的有关参数，对6-MP的效果给出有足够置信度的量化评估。
3、对完全数据拟合分布
在这批数据中，控制组（使用安慰剂）的数据是完全的，没有删失数据。完全数据的分析相对比较简单。我们的第一步目标是要选择一个参数分布来拟合数据。常用的拟合时间数据的参数模型（分布）有指数分布、Weibull分布、Gamma分布及对数正态分布等。
1
0.000
---
4、拟合优度检验
用“拟合优度检验”对拟合效果进行评估。
•构造一个度量所假设的分布拟合数据的好坏（优度）的检验统计量 D (D 0) 。D的值小表示拟合得好，反之表示拟合得差。
•根据数据计算得到D=d，计算在假设的分布正确的前提下的概率p=P(D>d)，则p的值大表示拟合得好。这里p就是拟合优度，简称为 “p-值”。
直方图是统计分析中借助直观帮助选择分布模型的重要方法。对于指数分布，考察其“累积危险率”：
x
H (x) 0 h(u)du ln S(x) x.
这是一条关于时间变量x的直线。利用数据可以得到H(x)的“经验估计” Hn(x) ，若 Hn(x) 大致呈直线走势，则可以直观地认为指数分布对于数据的拟合是比较满意的。

e商务文档

临床治疗数据的统计分析

相关文档推荐：