当前位置：文档之家› COX回归模型的样本含量的计算方法及软件实现_徐英

COX回归模型的样本含量的计算方法及软件实现_徐英

收稿日期:2007-10-20 通讯作者:骆福添　＊中山大学公共卫生学院卫生统计与流行病学系
The Optimum Analysis with Queuing Theory Model in Hospital Management
Han Xinhuan ,e t al
(Department o f mathematics and computer ,Nanjing Med ical University ,Nanjing 210029)A bstract This ar ticle analy sed queuing theo ry model and defined suitable medical resoume fo r outpatient services in o rder to receive be st benefit .It o ffered reference that the hospital g overnors improve medical serv -ice with queuing theo ry .
Key words queuing theo ry ;random mo del ;hospital manag ement
文章编号:1004-4337(2008)01-0018-02 中图分类号:R195.1 文献标识码:A
·医学数学模型探讨·
COX 回归模型的样本含量的计算方法及软件实现
徐　英骆福添＊
(广东药学院卫生统计学教研室　广州510310)
摘　要:　目前生存分析中COX 回归模型到底需要多少样本量往往靠经验法来估计。

旨在介绍并推广生存分析中COX 回归模型所需样本量的计算公式及其目前可以实现该计算方法的软件,并通过实例说明了该公式的应用,以期提高今后研究工作的效率。

关键词:　生存分析;　COX 回归模型;　样本量;　统计软件
CO X 回归模型在生存分析中应用非常广泛,然而,关于应用该模型到底需要多少样本含量的问题一直未得到很好地解决。

主要原因就是生存分析中往往涉及到数据删失的问题,如果不考虑删失数据,则可以利用率的比较所需样本量的计算公式。

但是,简单的忽略这部分数据,往往会造成信息的损失。

如果考虑删失数据,则样本量的计算又变得非常复杂,因此,直到今天,这个问题依然是国内外统计学者研究的热点之一。

本研究仅介绍其中一种较为成熟的计算方法及其相应的实现软件,并通过实例说明该公式应该逐渐被研究者们广泛应用,从而达到提高研究效率的目的。

1　公式介绍
以往,对于CO X 回归模型所需的样本量往往凭经验去估计,即至少需要相当于协变量个数10～15倍的阳性结局事件。

1983年,Schoenfeld 在Bio me trics 杂志上撰文,提出了一个计算比例风险模型样本含量的公式[1,2]:
D =(Z 1-α+Z β)2[P (1-P )lo g Δ)2
]
-1
这里,D 是指发生阳性结局的总人数,P 是指分配到第一
治疗组人数所占的比例。

lo g Δ是指风险比的对数。

该公式主要是用来计算随机化分组研究的设计所需的样本量,适用于二分类自变量。

同时,当考虑其他协变量对生存时间的影响时,则要求主要感兴趣的研究变量与其他变量间相互独立。

然而,在实际的工作当中,变量之间有时并不能满足独立性。

因此,2000年,H sieh 和L avo ri 在Contro lled Clinical T ri -als 上将Schoenfeld 的计算公式进行了扩展[3],现介绍如下:
N =(Z 1-α/2+Z 1-β)2
P (1-R 2)σ2B
2
等号左边,N 表示所需要的样本含量。

等号右边Z 1-α/2,Z β表示给定检验水准和检验功效时的z 界值;P 表示整个研究期间阳性结局事件的发生率;B 表示对
数风险比,即lo g Δ;σ2
表示感兴趣的研究因素X 1的方差,这
里假定X 1服从正态分布,对于非正态分布的X 1,如二项分布,可通过p (1-p )进行估计,这里,p 表示X 1取“0”或“1”的比例。

与Scho enfeld 的计算公式不同的是,该公式引入了“方差膨胀因子”(V IF ),即1/(1-R 2)。

R 2表示X 1对其他协变量作回归分析时的确定系数,取值范围0～1,当取值为“0”时,
·
18·Journal o f M athematical M edicine
Vo l .21 No .1 2008
一般表示只考虑一个自变量X1的情形。

亦即当变量间不满足独立性时,需要通过VIF来增加参数估计值的方差。

上述各指标可通过查阅相关文献或进行预试验确定。

2　软件实现
目前,有许多统计软件可以用来计算生存分析所需的样本量,但是大部分软件都是针对log-rank检验的,或是要求生存时间服从指数分布,比如S-plus、PS、N Q ue ry A dv iso r、S T A-T A、PA SS等。

然而,逐渐地也有不少软件开始引入针对CO X回归分析所需样本量的计算程序,比如ST A T A和PA SS。

现介绍如下:
2.1　ST A T A软件的应用
程序如下:stpow er COX[coef][,o ptions]
[coef]:用来设定感兴趣的研究因素X1的对数风险比,即logΔ;
[,options]:选择项,常用的有:
＊alpha(numlist):检验水准,默认0.05;
＊po wer(numlist):检验效能,默认0.8;
＊onesided:单侧检验,默认双侧检验;
＊sd(#):感兴趣的研究因素X1的标准差,默认0.5;
＊r2(#):确定系数,默认0;
＊failpr ob(#):阳性结局事件发生率,默认100%。

2.2　P ASS软件的应用
PA SS是N CSS软件中执行检验功效分析和计算样本量大小的一个功能模块。

操作步骤如下:
①打开N CSS软件,进入类似SPSS的操作界面;
②点击PA SS下拉菜单,选择“survival and reliability”子菜单,选择“CO X reg re ssio n”,进入相关参数设置对话框;
③设置相关参数,点击工具栏“play”,完成操作。

3　实例应用
K rall,U thoff and Har ley(1975)研究了65例多发性骨髓瘤患者预后的影响因素,一共9个变量(具体数据参见sas phreg过程中的数据集M yelo ma)。

如研究者主要感兴趣的变量为X1(lo gBU N),预估计其对数风险比lo gΔ=1,研究结束时死亡率P=48/65=73.8%,按照单侧0.05的检验水准和预期80%的检验效能,估计所需的样本量的计算过程如下:
①估计X1的标准差,得σ=0.3126;
②对X1和其他协变量作多重线性回归分析,得R2=0.1839;
③利用ST A T A或PA SS软件,将上述参数带入计算,得样本含量N=107。

按照Hsieh和Lav ori所提供的公式,若要达到80%的检验效能,估计所需的样本量为107例。

故对于该项研究而言,若只研究65例患者,则需慎重对待所得结论。

4　讨论
本研究中提到的公式,有效地解决了在生存分析中广泛应用的COX回归模型的样本含量的计算问题,为医学科研工作者在今后的研究中提高研究效率、节省人力物力财力提供了一定的科学依据。

该公式适用于任何分布的生存时间,只要满足CO X比例风险假定即可。

另外,该公式不仅适用正态分布的自变量,也适用非正态分布的自变量,比如二分类的自变量,此时,可以计算出近似所需的样本量。

该公式不仅仅局限于对单个影响因素的研究,还可以综合考虑其他协变量的影响。

这一点在公式中主要体现在R2的取值上。

对于单个自变量的研究,R2取“0”即可;对于多个自变量的研究,则需要通过回归分析估计R2。

由于ST A T A软件被广大研究者所熟悉,而PA SS界面又非常友好,操作简单,只需要输入相应的参数既可以得到所需的结果。

此外,该公式相对较简单,亦可以直接计算。

因此,期待能在今后的生存分析中得到广泛的应用,以提高研究的工作效率。

另外,当已知样本含量时,也可以利用该公式和上述两个软件估计检验功效,以判断当阴性结果出现时,是否由于样本含量不足导致。

参　考　文　献
1　S choenfeld,David A.Sample-Size Formu la fo r the Proportional-Hazards Regres s ion M odel.Biometrics,1983,39:499～503.
2　赵耐青.生存分析的最小样本含量计算.上海医科大学学报,1994, 21(5):333～337.
3　H sieh,F.Y.and Lavori,P.W.Sample-Siz e Calcu lation s fo r th e COX Proportional Hazards Regression M odel w ith Nonbinary Co-variates.Controlled Clinical Trials,2000,21:552～560.
·
19
·
数理医药学杂志2008年第21卷第1期。

e商务文档

COX回归模型的样本含量的计算方法及软件实现_徐英

相关文档推荐：