二期临床试验读书笔记：医生和统计师的对话

 收藏

关键词：期临床临床

资讯来源：同写意

发布时间： 2021-11-27

最近，一位医生朋友跟我聊天，聊起她刚做完一个非肿瘤一期项目，找到了药物的最大耐受剂量（MTD）。她问我（统计师），找到最大耐受剂量后能否跳过二期试验直接进入三期试验？上半年我刚读完了Ting Naitee博士的书《Phase II Clinical Development of New Drugs》，虽然尚未做过二期试验，但是有些初步了解。针对这个问题，我们展开了讨论。

" 医生： 一期找到MTD后能直接跳过二期试验直接进入三期试验吗？

统计师： 一般情况下是需要做二期试验的。一期试验主要是探索安全性和受试者对药物的毒性耐受程度，找到最大耐受剂量。在这个阶段尚没有探索和初步验证疗效。一期试验非肿瘤试验一般纳入健康受试者，即使肿瘤试验也未必纳入了所要研究的疾病人群的受试者，所以并不了解药物针对特定疾病人群的疗效。

如果跳过二期概念验证试验（proof of concept - POC）和剂量反应试验（dose responsetrial），直接进入三期大规模确证性试验，风险很高。假如药物疗效不佳，那本来有机会通过小规模的二期试验及时停掉药物开发 (及时止损) ；如果直接进入大规模三期最后才发现效果不佳, 会带来很大损失。

假如药物疗效很好，那本来有机会通过小规模的二期剂量反应试验找到合适的剂量；如果直接进入大规模三期很可能因为剂量偏高导致安全性问题，或者是剂量偏低导致没有观测到有临床意义的疗效差异导致三期失败。

" 医生：明白了。看来在整个药物研发过程中二期试验非常关键。那什么是概念验证试验？

统计师： 根据国家药监局最近颁布的《以临床价值为导向的抗肿瘤药物临床研发指导原则》里的定义，“概念验证（POC）是指验证候选药物的药理效应可以转化为临床获益，一般在早期临床研究阶段完成对药物的概念验证。概念验证阶段将确定药物的目标治疗人群和推荐剂量。鼓励用尽可能少的受试者达到概念验证研究的目的”。

概念性验证试验一般设计两组：试验组和对照组。试验组选择接近MTD的剂量，然后通过小规模试验去验证药物的疗效。这就像一个“sledgehammer”大锤，一锤定音，通过概念验证试验作出决策：继续开发还是停止开发。

" 医生： 为什么选择较高剂量跟对照组对比？背后是不是有一个相对应的假设？

统计师： 是的。POC试验一般有两个潜在假设：（1）假设一期试验找到的MTD是准确的；（2）假设疗效的剂量反应关系是单调的。在这两个假设成立的条件下，用较高剂量有更大的可能性展示出药物的疗效。如果用较高剂量都没展示出药物疗效，那可以判定不用继续开发这个药物了

" 医生： 那假如这两个假设不满足呢？比如说药物疗效的剂量反应关系不是单调递增的。

统计师： 有些疾病领域的药物可能不是单调递增的，譬如，中枢神经系统疾病或者抑郁症；针对这些疾病领域的药物研发，要特别注意，需要探讨选择合适的剂量来做概念验证试验。

" 医生： 那假如一期的最大耐受剂量没有估计准确呢？假如估计偏高或者偏低了？会有哪些后续影响？

统计师： 好问题。如果在一期试验里MTD估计的不准确，假如估计的MTD比真正的MTD偏高，那后续可能会导致在二期试验中发生很多不良反应和安全性事件，导致药物开发因此停止。

假如估计的MTD比真正的MTD偏低，那后续可能带来更多问题。在MTD偏低的情况下，在二期试验里做概念验证的剂量很可能最后发现比对照组稍微好一点，这时候项目组对于是否进入下一步研究面临艰难决策。

因为剂量没有带来安全性问题，这暗示了用再高一点的剂量可能安全并且能验证药物疗效。这时候团队面临一个艰难的选择，是否采用更高的剂量继续做二期概念验证试验，直到采用的剂量接近了真正的MTD剂量，验证了药物的疗效（当然，这里基于接近MTD剂量的药物是真正有效这个假设）为止呢。

这里会带来一个很严重的问题，由于MTD估计偏低，很可能导致二期概念验证试验要做好几个，这就是典型的低效率重复性工作；甚至有可能在第一个概念验证试验里没有看到疗效信号，导致错误的停止了药物开发。

" 医生： 看来研发团队能否找到正确的MTD很重要啊，如果找到的MTD是偏低的，可能导致后续做好几个二期试验呢？

统计师： 是这样的。

" 医生： 这种情况下，即使最后药物成功获批，也不能说这个团队是优秀的。

统计师： 太有道理了。一个很常见的误区是“以药物成败论团队成败”。不能说一个药物成功获批，就说明这个团队很成功；一个药物失败了，就说这个团队很失败。如果一个团队通过科学合理的设计，把一个疗效不佳的药物及时停掉，那这个团队也是很成功的；如果一个团队设计的试验不合理，做了很多重复性的工作，即使药物成功获批，也不能说这个团队成功。判断一个团队优秀的标准是看设计的试验是否科学合理，有没有做重复性工作。

引用Ting Naitee博士的话来说明团队成功和项目成功之间的关系：

One common confusion stems from the assessment of successor failure of a clinical project team is linked with the success or failure ofthe study product. It is critically important to recognize that whether the test product is successful or not, it should not be used as a yard stick to measure the performance of the study team.

" 医生： 看来我跟Ting博士的见解是一致的。那怎么把MTD估计准确呢？

统计师： 所以一期试验很重要，我在这方面没什么经验，所以不知道怎么把MTD估计准确。但是，对于二期试验，我们只能假设一期的MTD估计的是准确的，因为我们做概念验证时需要以此为基础找一个接近MTD的剂量去进行下一步。如果我们不认为一期试验MTD的估计是对的，我们需要跟一期团队讨论看是否有必要再做一个一期试验。

" 医生： 有没有什么好办法去验证MTD估计的准确性？

统计师： 好问题。我不知道。等我请教下一期试验的专业人员咱们再讨论。

" 医生： 在二期试验中，我们需要严格把一类错误控制到0.05以下吗？

统计师： 关于一类错误，在二期试验和三期试验里是有很大区别。二期试验里的一类错误实际上是药厂在承担的把一个跟安慰剂差不多的药物推到三期的错误概率风险。而三期试验里的一类错误实际上是监管机构承担的把一个跟安慰剂差不多的药物批准上市的错误概率风险。

在三期试验中，双侧检验的一类错误通常不能超过0.05，这个阶段，监管机构要承担风险，所以这个一类错误没什么谈的余地。在二期试验中，药厂承担一类错误的风险，监管机构没有严格要求，所以具体采用多少，药厂根据样本量的预算来定。双侧的一类错误定到0.1，0.15甚至0.2也不是没有。当然，如果有充足的样本量预算，还是建议把一类错误控制的低一些，以避免把一个跟安慰剂差不多的药物推到三期

" 医生： 明白了。那计算样本量还有哪些考虑因素呢？

统计师： 除了刚才说的一类错误，还有二类错误也是重点考虑因素，一般定0.2或者0.1或者更低。还有两个最重要的因素是：预期的两组差值（假设主要终点是连续性变量，比如血压）和变异程度（用方差来衡量）。

" 医生： 那怎么知道预期的疗效差值呢？

统计师： 这个一般要参考历史数据和临床有意义的值（minimally clinically important difference -MCID）。一般而言，你这个药物预期起码要比MCID好或者差不多才有必要继续开发。如果没有MCID好，那也就没什么开发价值了。预期的疗效差值（delta）直接影响到样本量的大小，但是这个delta值很难定下来，因为可能没有相关的历史数据，也可能该疾病领域没有统一的MCID，所以需要大量讨论，最后定下来delta。

" 医生： 明白了，谢谢。假如有该疾病领域一致认可的MCID，那是否可以把MCID当成delta来算样本量？

统计师： 这个需要团队讨论，讨论之后或许可以用。

" 医生： 那如果采用MCID作为预期的疗效差值，有没有可能在结果出来后发现达到了临床意义（也就是差值大于MCID），但是没有达到统计学意义（P大于0.05，置信区间下限小于0）呢？

统计师： 有这个可能，譬如说，在计算样本量时变异预期的偏低，也就是样本量预估的偏低，那么得到结果时实际的变异比预计的高，会出现你说的这种情况。

" 医生： 那有没有可能出现结果达到了统计学意义，但是没有达到临床意义呢？

统计师： 也是有可能的。

" 医生： 为什么呢？

统计师： 其实统计上有个概念叫Minimally statistically significant difference - MSSD （defined as the smallest observed treatmenteffect that warrants a statistically positive study（Deng (2019); Chuang (2010)））。MSSD也就是达到统计上的显著所需要的最小差值，也可以理解为critical value，对应的统计量值是za （如果是单侧检验是za/2） , 对应的差值的点估计值是MCID*za/ (za+zb) 。通过这个公式可以发现，实际上观测的结果只要达到MSSD，就统计显著了，而MSSD是小于MCID的。这也就解释了为什么有时候会出现统计结果显著，但是没有临床意义的现象。

" 医生： 明白了，那这个MSSD和MCID之间的关系公式是怎么推导出来的呢？

统计师： 其实很简单，只要根据样本量计算公式做一些小小的转换，就能得到这个关系。庄博士（Christy Chuang-Stein）最早推导了这个关系公式：

" 医生： 彻底明白了。看来达到临床意义和统计学意义，或者是两者都没达到，决策都好做。困难的是达到了其中之一，决策很难。

统计师： 确实如此。在2021年10月16日CSCO生物统计学专家委员会年会上，复星医药的一位统计师提出了三个讨论问题，其中一个是：分别从统计和临床的角度：如何解读疗效差异具有统计学意义和具有临床意义不一致的试验结果（也就是，差异具有统计学意义但达不到临床意义；没有统计学差异但认为具有临床意义）？

" 医生： 两者都不好解读。如果是三期试验很难解读，药物的获批上市都会遇到很大挑战和麻烦。但是对于二期试验，药厂的团队还能有决策权，决定药物是继续开发还是停止开发。

统计师： 是的。如果有统计学意义但是没有临床意义，停止开发会导致二类错误膨胀。如果有临床意义但是没有统计学意义，继续开发会导致一类错误膨胀。

" 医生： 为什么呢？请解释一下。

统计师： 请看Naitee博士书第七章的表（注：他的表里假设了方差是1），他这个表里可以对应到MCID （za+zb）和MSSD (za)（请读者思考下为什么能直接对应）。看这个表，我们能很清楚的知道一类错误和二类错误的膨胀情况。

" 医生： 听说辉瑞大概10多年前开始在二期POC试验里采用双侧不对称的置信区间来取代P值做Go/No-Go决策。请问这个方法跟传统的P值方法有什么区别？

统计师： 本质上没什么区别。先看以前的决策是怎么做的。以下图（摘自Kieser (2005)）为例，图中的a, b, c, d四种情况都达到了统计学意义。如果按照疗效差异要大于MCID才算是达到了临床意义，只有c和d达到了临床意义。

其中，d是置信区间的下限都超过了临床意义，这相当于从统计上证明了临床意义具有统计显著性，比c中的（统计学意义+点估计上的临床意义）更具有说服力。用假设检验的公式表示是：c证明了H1: mean difference > 0, d证明了H1：mean difference > MCID.

接着分析a和b, a中的置信区间上限小于MCID，也就是证明了有统计学意义但是统计上证明了没有临床意义；b的情况值得商榷，虽然从点估计上看是没达到临床意义，但是其上限超过了MCID，其实本质上b和c是一样的，都是统计上有意义，但是临床上的意义达到没有达到既没有被证明也没有被证伪。而a和d分别从统计上证明了没有临床意义和有临床意义。其实，P值小于0.05意味着置信区间下限大于0，本质上用置信区间和用P值做推断得到的结论一致。

现在用非对称置信区间的做法其实是事先定两个值，分别是the minimum acceptable value (MAV) and a target value (TV) ，这是医学定的值，不是统计师能决定的。构建100 (1-a1) %区间下限和100 (1-a2) %区间上限，得到下图（摘自Chuang (2017)）六种结果。

● 如果出现图中5，6情况，也就是区间下限大于MAV，上限大于TV，继续开发。

● 如果出现图中1，2，4情况，也就是区间上限小于TV，停止开发。

● 如果出现图中3情况，也就是区间下限小于MAV，上限大于TV，暂时考虑 (consider) 。

试着想一想，如果把MAV换做0，把TV换做MCID，把置信区间上限换做是点估计值，上面两个图能一一对应起来吗（请读者思考这个问题）？

" 医生： 谢谢你详细的解答，非常清楚。

统计师： 我们不要一味的以为创新方法就真的很创新，其实万变不离其宗。了解多个方法之间的区别和联系，尤其是新方法和老方法之间的关系，才能跟团队成员讲明白新方法里的基本原则和道理，以及为什么要用新方法和有没有必要用。

" 医生： 不能同意更多。那除了这两种方法，还有其他方法吗？

统计师： 有很多种，在庄博士（Quantitative Decisions in Drug Development）书的第七章（Designing Proof-of-Concept Trials

with DesiredCharacteristics）介绍了多种方法，有兴趣的话咱们下次可以讨论这几种方法的优缺和模拟比较。

" 医生： 好的，谢谢。你觉得二期POC试验最大的挑战是什么？

统计师： 我觉得是如何在不确定下做出决策是二期POC试验最大的挑战。统计和临床意义都达到或者都没达到的情况下，决策很好做。但是，如果统计和临床意义不一致的时候，到底是Go还是No-Go, 这个决策很难做。统计师要做的工作，就是告诉团队，在这种情况下，做出各种决策的统计风险是什么？团队成员还要根据其他方面的考虑做出最终的决策。任何决策都冒着风险，关键是我们要科学的衡量风险，这是一个很大的挑战。

引用Naitee博士精辟入理的总结：

During the time between the PoC data are ready, and the actual decision ismade, there is a period of time that the PoC study was considered as “inconclusive.” This time period is difficult because there isalways tight timelines for the entire project. Will there be a need for a long-termtoxicity study? when should it start? What amount of drug supply will be necessary?At what time frame (Phase II requirements and Phase III requirements)? Whatdosages to be formulated? Will there be additional PK studies such as drug-drug-interactionor food effect studies to be designed? At this time, a Go/NoGo decision is verycritical. Yet the data are not always clear. Regardless of all thesediscussions and various perspectives, in the end, there will have to be a decision—to go or not to go. Thisproblem becomes much more difficult when the PoC study needs to be repeated.

" 医生： 最后再问一个问题：二期试验中可以把POC和dose -response试验结合在一起做吗？

统计师： 可以的，设计上允许这么做，也有相关的方法，譬如MCP-MOD和linear contrast trend test (不适用于非单调剂量反应关系的药物) 。但是，我觉得在合并到一起的时候，需要考虑合在一起的风险（关于这块儿内容，请参考邓博士的文章 (Deng 2019)）。

注明：本文纯属虚构，这个对话并没有真实发生。本文大体上描述了二期概念验证试验的一些基本思考。考虑到可读性，难免在准确和细致程度上有一些不足。希望读者批评指正，提出宝贵意见。

参考文献：

1、Deng Q,Wang K, Bai X, Ting N. (2019). A Cautionary Note When a Dose-RangingStudy is Used for Proving the Concept. Statistics in Biosciences.11:127–140.

2、Chuang-Stein C, Kirby S, Hirsch I, AtkinsonG. (2011). The role of the minimum clinically important difference and itsimpact on designing a trial. Pharmaceutical statistics. 10:250–256.

3、Kieser M, Hauschke D. (2005). Assessment of clinical relevance by considering pointestimates and associated confidence intervals. Pharmaceutical statistics. 2005; 4: 101–107