源自风暴统计网:一键统计分析与绘图的AI网站
2025年10月19日,北京大学郭军教授团队发文医学顶刊《NEJM》,研究者做了一项三期多中心开放标签随机试验,双重主要终点为无进展生存期(通过盲法独立评价评估)和总体生存期,样本量该如何计算?研究又该如何设计?
今天我们统计师来详细解读一下!
研究设计
P(Population):年龄≥18岁,经组织学证实、不可切除的局部晚期或转移性尿路上皮癌,既往未接受过针对晚期疾病的全身化疗(新辅助/辅助化疗后≥12个月无复发者符合条件),且患者必须具有肿瘤中心实验室确认HER2表达,即免疫组化(IHC)评分为1+、2+或3+。
I(Intervention):Disitamab Vedotin(2.0 mg/kg,每2周一次)联合 Toripalimab(3 mg/kg,每2周一次)。
C(Comparison):标准化疗(吉西他滨联合顺铂或卡铂,每3周一次)。
患者按1:1比例随机分配至两组,随机化分层因素包括顺铂适用性(适用/不适用)、是否存在内脏转移(是/否)、HER2表达水平(IHC 1+ 或 IHC 2+/3+)。
O(Outcomes):无进展生存期(根据实体瘤疗效评价标准[RECIST]第 1.1 版,由盲法独立审查评估)和总生存期。
次要终点为:
无进展生存期(由研究者评估)
客观缓解(定义为经盲法独立审查和研究者评估均达到完全缓解或部分缓解的患者百分比)
疾病控制(定义为经盲法独立审查和研究者评估均达到完全缓解、部分缓解或疾病稳定的患者百分比)
缓解持续时间(由盲法独立审查和研究者评估)以及安全性
S(Study Design):多中心、随机、开放标签、Ⅲ期临床试验
主要研究结果
研究结果显示,与对照组相比,干预组的无进展生存期显著更长(中位时间,13.1 个月 vs. 6.5 个月;进展或死亡的 hazard 比率,0.36;95%CI,0.28 , 0.46;P<0.001)。
此外,干预组的总生存期也显著长于对照组(中位时间,31.5 个月 vs. 16.9 个月;死亡的 hazard 比率,0.54;95% CI,0.41 至 0.73;P<0.001)。
在次要结局方面,干预组的客观缓解率为76.1%(95% CI,70.3 至 81.3),而对照组为 50.2%(95% CI,43.7 至 56.7)。
在安全性结局方面,干预的安全性特征优于对照组。
接受Disitamab Vedotin联合Toripalimab 的患者中有 55.1% 发生 3 级或更高级别的治疗相关不良事件,而接受化疗的患者中有 86.9% 发生。
统计解读
今天给大家分享的这篇文章是设计非常严谨的优效性试验。研究团队设定了总生存期与无进展生存期两个共同主要终点,这在肿瘤药物III期试验中越来越常见,但相应的统计设计也更为复杂。
首先,研究团队基于过往数据,预设了化疗组的疗效“基线”:中位OS为13.4个月,中位PFS为6.3个月。他们期望新疗法(DV+T)能带来有临床意义的提升,将死亡风险和疾病进展风险的风险比分别设定为0.71和0.68,相当于风险降低约29%和32%。
这里就遇到了第一个关键问题:多重检验。同时检验两个终点,如果还用常规的α=0.05标准,总体犯假阳性错误的概率就会膨胀,超过5%。
为了控制住这个总体错误率,研究采用了经典的Bonferroni校正法进行预先分配:将总的α=0.05拆分,把α=0.02分配给PFS,α=0.03分配给OS。这意味着,PFS要想被视为阳性,其P值必须小于0.02;OS则需小于0.03。
但设计者并没有止步于此,他们引入了一个更巧妙的策略:α传递。简单来说,这就像给了两个终点之间一个“互助通道”。
如果PFS的结果非常漂亮,早早地就跨过了它自己那扇更窄的门(P<0.02),那么它“省下来”的、还没用到的α“额度”(差不多就是0.02这部分)可以借给OS。这样一来,OS那扇门的门槛就从0.03降到了0.05。这个设计非常精明,它在严格保证整体假阳性率不超标的前提下,极大地增加了试验在任一或两个终点上获得成功的机会,尤其适用于对新疗法疗效信心较足的情况。
接下来是很多人关心的样本量计算。这里常见的误解是:“两个终点?那就都算一遍,哪个需要的病人多就按哪个来。” 其实不然。正确的思路是:要保证对每一个终点的检验,都有足够的把握度(通常设为80%或90%)。
研究团队分别计算了:
要能靠谱地检测出OS的HR=0.71这个效果,需要积累到大约318个死亡事件。
要能靠谱地检测出PFS的HR=0.68这个效果,需要积累到大约278个疾病进展或死亡事件。
那么,452这个患者数是怎么来的呢?我们可以把它理解为一个“招生计划”。我们不是要事件吗?事件是从入组的患者身上,经过一段时间随访后观察到的。研究者根据疾病进展速度和历史数据预测,当总共有大约452名患者被随机分组并接受随访后,随着时间的推移,累积发生的事件数将刚好能达到我们上面计算的两个目标(318个OS事件和278个PFS事件)。这452人里已经包含了应对约10%患者可能中途失访(脱落)的余量。所以,452是为在合理时间内收集到足够多的事件而需要招募的患者总数。
最后,也是最具决定性的部分:优效性界值。这不仅仅是看P值是否小于0.05(或调整后的α)。在期中分析时——也就是数据还没完全成熟,只观察到了预设总事件数的一部分(比如OS事件才收集了62%)时——统计学家会使用更严格的消耗函数来设定一个临时的、更苛刻的显著性边界,以惩罚你因为“偷看”数据而增加的机会。在这项研究中,期中分析时OS的边界被定为α=0.009,比最终分析的0.03或0.05都要严格得多。
而最终的结果是震撼性的:PFS的HR=0.36,P<0.001;OS的HR=0.54,P<0.001。这两个P值不仅远小于最终分析的界值(0.02和0.03),甚至以巨大优势冲破了期中分析时设定的、近乎严苛的临时边界(0.05和0.009)。正是这种压倒性的疗效优势,使得独立数据监查委员会可以果断判定:优效性已经毫无悬念地确立,试验可以提前终止,期中分析即可作为最终结论。
总结一下:这项研究的统计设计,从α分配与传递的“精打细算”,到基于事件和把握度的样本量“招生规划”,再到用消耗函数设定并最终跨越的“严苛关卡”,环环相扣,严谨而高效。最终,压倒性的积极结果完美回应了这一复杂设计,为新疗法的卓越疗效提供了坚实的数据基石。
最后,在文末给郑老师我们团队打个广告吧,大家不要见怪哈!
欢迎参加公共数据库保发表训练营