EMEA 《优效性与非劣效性之间转换的考虑要点》审评四部审评八室黄钦审校伦敦,2000 年7 月27 日CPMP/EWP/482/99I. 前言许多近期的申报导致CPMP就优效性、非劣效性和等效性试验的解释进行讨论。
ICH E9(临床试验的统计学原则)中包含了这些问题。
ICH E10 (对照组的选择)的第2步草案以及CPMP有关生物利用度和生物等效性研究指南的注释中也有进一步的相关材料。
但指南未说明实践中生物利用度的某些具体困难。
从更广的角度来说,这些困难与分析时从一个设计目的向另一个目标转换相关。
所讨论的试验的类型是那些设计用于比较新产品与活性对照药的试验。
目的可以是证明:l 新产品的优效性l 新产品的非劣效性或l 两种产品等效当获得试验结果时,它们可以提出另外的解释。
因此优效性试验的结果可能仅足以支持非劣效性,而非劣效性试验的结果可能显示出支持优效性。
另外,等效性试验的结果可以显示出支持更小范围内的等效性。
这一专题满意的方法需要理解可信区间以及得到试验结果和从这些结果中得出结论的方式。
这一理解还有助于我们认识到为什么试验结束后对把握度的计算意义不大。
为简便起见,本文从单个主要变量疗效研究的角度来说明优效性、非劣效性和等效性问题。
在VI 节还对其他情况进行了评论。
整个本文件中假定临床目的的转换不会导致主要变量的选择或定义发生任何变化。
II. 试验目的II.1 优效性试验设计优效性试验是为了检出治疗间的差异。
分析的第一步通常是检验统计学意义,以评价试验结果是否与两种治疗的临床效果无差异的假设相符。
在质量好的试验中,统计学意义的程度(p 值)提示观察到的差异(或较大的值)是偶然产生的,假定事实上并无差异。
概率越小,则假定治疗间真正无差异的可能性越小。
一旦认为“无差异”的假设不可靠,那么一定要估计差异的大小,以评价作用是否有临床意义。
这包括两个方面。
首先,有治疗间差异大小的最佳估计值(点估计)。
对于正态分布的数据,这通常是被看作每个组平均值间观察到的差异。
其次, 根据临床试验的结果,真正差异有一个合理的值的范围(可信区间)。
很明显这一范围不能包含 0,因为差异为0的概率已经因不合理而被拒绝。
建立可信区间的方法一般要确保做到这一点, 前提是它对应于显著性检验的选择。
因此以下两种说法通常意义相同: I 均数间差异的双侧 95%可信区间不包括0。
I 两个均数在双侧5%水平有显著性差异(p<0.05 )。
以上的文字说明的情况是, 两个均数之间的差异是所关注的统计量, 而0差异代表无作 用。
在实际应用过程中, 许多其他概括性统计量用于评价治疗间的差异, 例如生物等效性研究中比例的比值比或几何均数的比值。
(后者来源于用于生物利用度数据的对数转换。
)在 这种情况下,适用同样的原则,但“差异”可用值 0以外的值来表示一一这里举的2个例子中均为1。
这些情况下,所关注的是,相对于这一 “无差异”值而言,检验统计量的可信区 间所处的位置。
当实践中进行显著性检验时,常常引用概率的精确值,例如p=0.032,因为这比p<0.05可提供更多的信息。
这样可以根据无效假设与观察到的数据之间不一致的程度来进行更精确 的判断,而不是使用临界值0.05、0.01和0.001得出近似值。
但可信区间必须与具体的概率值(概率范围)相关,这几乎总是使用 95%( 0.95 )。
当差异在较极端的水平例如 p=0.002具有统计学意义时,那么双侧95涮信区间应当不包括0,并有较宽的余地。
图1描述了这 些要点。
J显乐较强的优效性显亦优效性新药治疗间的差界图1显著性检验与可信区间之间的关系观察到的差异是否真正具有临床意义需要判断。
等效性或非劣效性试验的临床意义通过p=0.002p=0.05研究前选择的△来解释(见11.2和11.3节),而优效性试验的临床意义判断与之不同,需要另外考虑:差异有统计学意义不一定有临床意义。
在优效性试验中作为把握度计算依据的差异,不能假定是合适的值。
请注意图1以及本文的其他部分中,假定0右侧的值对应的是新疗法的效果好,因此左侧的值对应的是新疗法的效果差,即对照治疗较好。
11.2等效性试验设计等效性试验是为了证明治疗间的差异没有意义。
在这种情况下,使用可信区间的计算和考查进行分析可以得到更多的信息,尽管有使用显著性检验方法的密切相关的方法(见II.3节)。
通过定义临床上可以接受的最大差异来选择临床等效的边界(△),因此差异比这个边界大时才有意义。
与这一分析相关的众所周知的困难在这里不作更详细的介绍。
如果要声明两种治疗等效,那么双侧95%丁信区间(确定两种治疗间可信的差异范围)应当完全在-△至+△之间。
见图2。
有时选择的等效边界在0两侧可以不对称。
・城丞等效对照较好0 新药较好治疗差昴图2:等效性试验分析的可信区间方法在生物等效性研究中,当评价两种剂型的药代动力学参数平均值是否足够接近时,可信区间覆盖90%勺概率已经成为可以接受的标准。
当不可能开展常规生物等效性试验时(例如非专利的吸入药或外用药),可以进行临床等效性试验得出双侧95%可信区间。
II.3非劣效性试验在III期药物开发中,非劣效性试验比等效性试验更常用。
在这些试验中我们希望新治疗的效果不比现有治疗差一一效果可能更好或者相似。
同样,可信区间是分析时最直接的方法,但此时我们仅关注一个方向的可能差异。
因此双侧95%可信区间应当完全在-△值的右侧。
见图3。
非劣效性试验有时会被误认为和设计为等效性试验。
这一区别很重要,并有可能因此而产生混淆。
对照较好0 新药较好治疗基异图3:非劣效性试验分析的可信区间方法还应注意到通过使用11.2所指的密切相关的显著性检验方法,有可能计算出与优效性无效假设相关的p值。
这也有助于评价有利于非劣效性证据的强度。
11.4 一侧和双侧可信区间这份文件全文中假定所有临床试验使用双侧95%可信区间,而不论其目的是什么。
除其他益处以外,使用双侧95%可信区间可以保持显著性检验及随后估计的一致性。
并且它还与ICH E9指南注释提出的指南一致。
如果使用单侧可信区间,那么它们应当与97.5%的概率范围一起使用。
在生物等效性研究的特殊情况下,例如按照生物利用度和生物等效性研究指南的CPMPi释推荐的标准,建立双侧90%可信区间。
III. 事先定义的意义等效性或非劣效性的结论明显依赖于作为最大可接受差异所选择的△值。
如果在审查数据后选择△,那么总是可以选择出一个△值从而得出等效性或非劣效性的结论。
由于△的选择一般很困难,所以不论研究者计划得如何好,都有产生偏倚的很大空间。
对于回顾性选择△,常常要事先有令人信服的论据。
在设计等效性和非劣效性试验时,这一原因(还有其他原因)使得研究者在研究方案中有必要事先选择△,并说明作出这一选择的理由。
此时还应当选择相应的可信区间概率范围(通常95%)。
(当目的改变时这些要求如何应用见IV.2节)。
如何选择恰当的△将在随后CPMP考虑要点中说明。
鉴于以下多种原因,有必要事先把试验指定为优效性试验、等效性试验或非劣效性试验:l 确保对照治疗、剂量、患者人群和终点合理(见ICH E10)l 可以根据正确的把握度计算来估计样本量l 确保事先指定等效性和非劣效性标准l 可以在方案中描述恰当的分析计划l 确保试验有足够的灵敏度达到其目标(见ICH E10)如果试验的目的由优效性向非劣效性转换,或由非劣效性向优效性转换,那么这些方面产生的困难可能会大于显著性检验和可信区间的解释。
IV. 比较目的的转换唯一可能有实际意义的转换是优效性和非劣效性之间的转换。
等效性试验太特殊,因此必须专门进行。
IV.1 把非劣效性试验作为优效性试验来解释如果治疗作用的95%可信区间不仅都大于-△,而且也大于0,那么就统计学意义而言在5%水平(p<0.05 )有优效性的证据。
见图4。
在这种情况下,可以计算与优效性检验相关的p 值,并评价这一p 值是否足够小,从而令人信服地拒绝无差异的假设。
不存在影响这一解释的多重性论据, 因为就统计学而言, 它对应的是单个闭合的检验程序。
只要新药与对照药的安全性特点相似, 通常这一受益的证明本身就足够。
但当不良事件增加时, 一定要估计作用的大小,以评价临床上受益是否足以超越不良反应。
治疗茁异图4:非劣效性转换为优效性有许多其他因素受这一目的改变的影响。
IV.1.1对照药的恰当性如果对照药适合于证明非劣效性,那么应当有良好对照数据显示它是有效的治疗。
因此, 对于证明疗效,在统计学意义方面清楚地证明优于对照药是可以接受的。
IV.1.2把握度计算非劣效性试验一般规模较大,因为它们需要排除新药相对于活性对照而言较小程度的劣效性。
但如果新药实际上稍微优于对照药时,那么把握度显示其非劣效性增加。
证明较小程度地优于对照药在理论上需要计划规模更大的试验。
但当试验结束时,可信区间提供的结果可以对实际所获得的精确度进行具体的评估,从而替代试验前所进行的各种把握度计算。
IV.1.3其他临床受益的大小由于非劣效性试验中对照药一定是有效的药物,只要优于这种对照药物即说明优于不治疗(安慰剂)。
由于这一原因,除了不良反应增加而影响相对风险/受益以外,所证明的其他临床受益的大小可能与疗效的主张不相关。
但如果计划的注册申报包括优于对照药的主张时,应当在临床上讨论其他受益的大小。
IV.1.4分析集的选择在优效性试验中,根据ITT (意向治疗)原理的全分析集是首选的分析集,PP (符合方案)分析集可以提供相应的支持。
在非劣效性试验中,全分析集和PP分析集同等重要,对于稳健的解释,使用这些数据集时应当得出类似的结论。
目的的转换需要认识到这一侧重点的差异。
优效性试验和非劣效性试验中这两种分析集的相对重要性的详细情况见ICH E9 指南的注释。
IV.1.5 试验质量显示等效性或非劣效性的试验必须显示与方案中的计划高度一致才可靠。
偏离入选标准、计划的治疗方案、程序和采取措施的方式和准确性等等,都会降低试验的灵敏度,从而得出“无差异”结论的可能性较大,即使偏离在性质上是非系统性的或随机的。
与这些方案偏离和其他方案偏离相关的偏倚的大小一般是未知的,可能会使得这一试验无法解释。
当两种治疗都无效时(可能由于给药不当所致),也不能显示治疗组间的差异。
这一问题对优效性试验的影响程度不同,因为证明差异本身就是证明试验的灵敏度。
但作用大小的估计也同样受影响。
由于这些原因,从非劣效性向优效性转换在结论中的可信性更大。
IV.1.6 结论从非劣效性试验向优效性试验转换是可行的,前提是:l 试验要按照非劣效性试验的严格要求正确地设计和执行。
l 提出优效性的实际p 值以独立评价证据的力度。
l 最大限度地强调按照意向治疗原理的分析。