频率学派
频率学派(Frequentist Inference),是统治了现代科学和医学界近一个世纪的经典统计学哲学基础。在临床试验领域,它是传统 随机对照试验 (RCT) 的绝对法则。频率学派的核心理念是:概率必须被定义为某一事件在“无限次重复试验”中发生的长期相对频率。在这个宇宙观里,真理(如药物的真实疗效)是固定不变但未知的,而我们只能通过当前这一次试验的数据来对真理进行猜测。它极度依赖 零假设 和 P值,并且坚决拒绝像 贝叶斯推断 那样将人类过去的经验(先验概率)纳入计算。这种“不带记忆、一切从零开始”的严苛设定,虽然在过去几十年里为 FDA 严格把控了新药的假阳性率,但在 Geroscience 和现代精准医学面前,它却暴露出极其僵化和低效的致命弱点。面对 衰老 这种包含多靶点网络、需漫长周期验证的复杂系统,频率学派强制要求的“固定样本量”和“期中不可修改”规则,导致了海量研发资源的浪费和不可接受的伦理代价,正迫使现代医学向更加灵活的 适应性设计 和贝叶斯框架寻求破局。
核心机理网络:“疑罪从有”的严苛法庭
频率学派评价一种抗衰老新药是否有效,并不直接计算“药有效的概率”,而是采取了一种极其绕弯的“证伪逻辑”:
- 零假设的暴政 (Null Hypothesis, H0): 试验开始前,法官(统计学家)首先强行假设:“这个药是完全无效的,治疗组和安慰剂组的差异纯粹是因为运气不好(随机误差)”。这个被强加的绝对无罪推定,就是所谓的“零假设”。
- P 值的真实含义 (The P-value Myth): 试验结束后,统计学会计算出一个 P 值。它的严谨定义是:如果零假设是真的(药完全无效),那么我们“碰巧”观察到当前这么好(甚至更好)的数据的概率有多大?如果 P=0.01,意味着如果药没用,出现这种好结果的概率只有 1%。
- 一刀切的红线 (Alpha Threshold): 科学界武断地画了一条红线(通常是 Alpha = 0.05)。既然“药没用却出现好结果”的概率(1%)低于 5%,频率学派的法官就会裁定:“发生这种巧合的概率太低了,所以我拒绝相信零假设,我只能承认是你的药有效”。这是一种通过证明“反面极其荒谬”来确立正面的逻辑。
病理学临床投射:刻舟求剑引发的研发灾难
| 统计学僵化表现 | 对临床试验的致命约束 | 现代医学与长寿科研的困境 |
|---|---|---|
| “无记忆”的系统 (Ignoring Priors) |
即使前 10 次动物实验和真实世界数据都证明这种 Senolytics 有效,当前的 III 期试验也必须假装什么都不知道,从零开始验证。 | 导致对于极其罕见的 基因突变 或小群体靶点,永远无法凑够统计学要求的庞大样本量,孤儿药被扼杀。 |
| 禁止中途偷看 (Alpha Inflation) |
如果在试验中途偷偷分析数据,由于多次抛硬币,第一类错误(假阳性)的概率会成倍膨胀。因此频率学派要求必须“闭眼走到黑”。 | 导致即使前 100 个患者已经证明该药引发致命毒性,也无法轻易修改规则,后续患者沦为僵化规则的炮灰。 |
| 固定样本量的赌博 (Fixed Sample Size) |
如果在设计时低估了药物方差,设定了 500 人。最终算出的 P 值为 0.06。药物其实有效,但由于 Power 不足被判死刑。 | 是导致阿尔茨海默病及诸多神经退行性疾病管线在过去二十年“全军覆没”的核心统计学原因之一。 |
临床干预与长寿策略:打破坚冰的妥协与进化
在严谨与效率之间寻找现代平衡
- 频率学派的“补丁” (Alpha 消耗函数): 为了解决“不能中途停药止损”的灾难,统计学家(如 O'Brien 和 Fleming)发明了边界函数。它允许在频率学派框架内进行有限的 期中分析,但极其严苛地扣除部分 Alpha 值(例如,中途分析时要求 P 值必须小于 0.001 才算有效,以此换取最终分析时仍有 0.049 的额度)。这为传统 RCT 赢得了一丝喘息的空间。
- FDA 监管的转向 (拥抱适应性): 面对 恶性肿瘤 和复杂衰老机制的高失败率,全球监管机构已经意识到纯粹的频率学派难以维系研发创新。现在,FDA 强烈鼓励在新药探索的早期(II 期试验)甚至 平台试验 中,大量使用 贝叶斯推断 来动态筛选靶点,仅在最终的确证性试验(Pivotal Trial)中保留频率学派作为最后一道“防线假阳性”的铁门。
- 长寿终点的重新定义: 由于频率学派要求数据必须绝对客观且不可动摇,长寿试验如果依赖“寿命延长”作为终点,将陷入百年的等待死局。目前的破局策略是说服监管机构接受经严格验证的 表观遗传时钟 或代谢组学指标作为“替代终点”,在坚守频率学派严格 P 值标准的前提下,大幅压缩临床试验的物理时间。
核心相关概念
- P值 (P-value): 频率学派最重要的“神明”。但它极其容易被误解。P=0.05 绝对不等于“这个药有 95% 的概率有效”,它只代表在药无效的前提下,撞大运撞出这个结果的概率是 5%。
- 第一类错误 (Type I Error): 也叫 Alpha ($\alpha$)。即“假阳性”。频率学派的终极目标就是把假阳性死死压在 5% 以下,哪怕代价是犯下大量的第二类错误(假阴性,即错杀了好药)。
- 统计学功效 (Statistical Power): 即在药物真正有效时,试验能够成功算出一个 P < 0.05 并证明其有效的概率。频率学派的痛点在于,一旦确定了样本量,Power 就被彻底锁死。
学术参考文献 [Academic Review]
[1] Fisher RA. (1925). Statistical Methods for Research Workers. Oliver and Boyd, Edinburgh.
[统计学圣经基石]:人类现代科学的基石著作。现代统计学之父 Ronald Fisher 在此书中正式确立了 P=0.05 作为显著性水平的任意标准,这个近一个世纪前的数学约定,至今仍决定着全球每年数万亿美元新药的生死命脉。
[2] Wasserstein RL, Lazar NA. (2016). The ASA statement on p-values: context, process, and purpose. The American Statistician. 70(2):129-133.
[破除迷信的权威声明]:由于医学界对 P 值的盲目崇拜引发了“可重复性危机”,美国统计协会(ASA)历史上首次发表官方声明。极其严厉地澄清了 P 值的本质,指出“P < 0.05 绝不意味着科学发现的真实性,更不能作为决策的唯一依据”,为贝叶斯等更全面的统计学方法的回归铺平了道路。
[3] Pocock SJ, Hughes MD. (1989). Practical problems in interim analyses, with particular regard to estimation. Controlled Clinical Trials. 10(4):209S-221S.
[古典统计学的妥协方案]:临床试验设计领域的经典文献。系统论述了在僵化的频率学派 RCT 框架中,如果研究者想要“中途偷看数据(期中分析)”以保护患者伦理,必须承受何等极其惨烈的统计学惩罚(Alpha 衰减),凸显了传统 RCT 转向适应性设计的历史必然性。