临床试验主要终点“阴性”,what next?
收藏
关键词:
终点临床
资讯来源:医药魔方 + 订阅账号
发布时间:
2021-09-24
有一种普遍的心理——“报喜不报忧”。“阳性”结果,宣传一番;“阴性”,低调处理。“阴性”就代表完全的失败吗?举个例子,帕博利珠单抗的Keynote-361研究(晚期尿路上皮癌)未达到主要终点:帕博利珠单抗联合化疗组和化疗组的PFS未见统计学差异;联合治疗组、帕博利珠单抗单药组、化疗组的OS也未达到统计学差异。但是,考虑到部分患者不适合接受铂类化疗,FDA将适应症进行修订后,将加速批准转变为完全批准。
“阴性”结果同样具有重要的意义,结果的解读,应从整体而不是单个指标。之前,我们推送过《新英格兰医学杂志》关于“阳性”结果的分析评论,在此分享它的姐妹篇节选。
一个设计良好的临床试验,其可信度来自于包含预先设定的先验假设,该假设有助于作者在对数据进行探索性分析时,避免做出潜在的假阳性结果。但是,一种不合理却普遍存在的情况是,根据主要终点的P值是否小于0.05,将所有随机试验标记为“阳性”或“阴性”,这种方法过于简单化了。
P值应该被看作为一个连续体,P值越小,真实疗效的证据强度越高。置信区间也可用于评估疗效的不确定范围。此外,任何临床试验的解读,都应基于证据的整体(即:主要、次要终点,安全性终点),而不是单个终点。
当P>0.05时,是否有治疗获益(或:趋势)的信号,需要谨慎评估。例如,在PERFORM研究中,对比terutroban和阿司匹林在缺血性脑卒中的疗效。结果显示,在复合型主要终点(缺血性卒中,心肌梗死,其他血管相关性死亡)上,两组未见统计学差异;terutroban在安全性方面也未见优势。因此,这项实验是“阴性”的。
相反,在TORCH研究中,比较沙美特罗-氟替卡松和安慰剂在慢性阻塞性肺疾病(COPD)中的情况,主要终点(任何原因导致的死亡)的P值为0.052;但是,“在其他终点显示出获益”(例如:COPD加重,健康状况)。因此,在“阴性”结果以外,还需更深入的评估。
如果试验的样本量太小,可能会增加II类错误(假阴性)的风险,即没有显示出明显的治疗获益。
使用复合型终点可以增加主要事件的数量,但不一定会增加统计学效力。试验的成功可能取决于终点的定义以及评估的方法。
当一种新的治疗方案失败时,需评估纳入的患者群体是否合理。
在一项新药的关键性临床试验中,药物剂量的制定具有挑战性。
如果研究方案的执行力差,真实的疗效可能会被减弱甚至消失。
当一种新的治疗方案与阳性对照相比未显示出优势,是否可以从非劣效性来评估?如果新的治疗方案有其他方面的优势(例如:损伤较小,不良反应较少),非劣效性评估是可以考虑的。但是,在大多数情况下,只有预先设定了非劣效性假设,才可进行此评估。
任何一项临床试验进行亚组分析都是合理的。但是,对于主要终点为中性或阴性的试验,亚组分析常会带来误导。这种定性交互作用的可信度较低(除非有强大的作用机制来支持),并且统计分析通常不会针对多重比较进行校正。即使交互作用的统计学结果为阳性,也只能对提出假设有用。事实上,在一项主要终点为阴性的试验中,亚组分析显示阳性,并且在后续的试验中得到确认,这样的例子是非常少的。
如果主要终点为阴性,次要结果阳性通常也可有助于提出假设。当然,监管部门不太会基于次要终点批准新药。但是,在某些情况下,次要终点的结果也可以影响指南和临床实践。
1、将与主要终点密切相关的基线变量作为协变量进行校正分析可提高统计效力。2、受试者的依从性差或交叉治疗可能会影响真正的治疗效果,导致意向性治疗(ITT)分析不能发现组间的统计学差异。有研究者认为,这种情况下使用接受治疗或符合方案集(PP)分析更合理。3、在慢性疾病的研究中,复合型终点分析常只关注事件第一次发生的时间,而忽略了后续发生的任何重复性事件,这种方法会导致统计效力的损失以及疗效的低估。
如果一项统计效力足够的临床试验,主要终点却为阴性时,需要对既往“阳性”相关研究的效力强度和质量进行评估。如果既往试验是非随机对照、或以替代终点为主要结局,那结果的可靠性就会降低。在纳入患者的特征、治疗方案、终点设定等方面相似的临床试验或Meta分析更具有参考价值。
几乎所有III期临床试验中新的治疗方案,都有大量的动物研究和早期临床试验的支持性数据。尽管如此,历史上仍旧有许多大型关键性临床试验未显示出治疗获益(或显示出未预料到的安全性问题)。
N Engl J Med. 2016; 375:861-70.
点亮“在看”,好文相伴