先验概率

来自医学百科

先验概率(Prior Probability),在贝叶斯统计机器学习中,是指在获取新的观测证据或数据之前,基于历史经验、常识或主观信念对某一事件发生或某一假设成立的初始概率评估。它是贝叶斯推断的绝对起点。与频率学派仅仅依赖当前样本数据不同,贝叶斯学派认为知识是一个不断更新的过程:旧的先验概率通过与新收集的数据(似然函数)相结合,最终转化为更精确的后验概率。在现代医学与生物信息学中,先验概率无处不在且至关重要。例如,在NIPT液体活检等高灵敏度筛查中,该疾病在特定人群中的患病率(Prevalence)就是最典型的先验概率;而在 NGS 的变异检测(Variant Calling)算法中,某个基因位点在公共数据库(如 dbSNP)中的已知突变频率,构成了算法判断测序信号真伪的先验权重。忽视先验概率,将直接导致临床诊断中致命的基础概率谬误 (Base Rate Fallacy),产生海量的假阳性结果。

Prior Probability
贝叶斯推断的统计学基石 (点击展开)
先验、似然与后验的更新循环
数学符号符号 $P(H)$ 或 $\pi(\theta)$
所属理论框架 贝叶斯定理
知识更新对立面 后验概率 $P(H|E)$
临床医学等价物 患病率 (检前概率)
分类方式 信息先验, 无信息先验
核心认识论陷阱 基础概率谬误

数学引擎:贝叶斯公式与信念的更新

先验概率的意义必须置于贝叶斯定理(Bayes' Theorem)的数学框架下才能被完全理解。它描述了我们如何根据新收集到的数据证据(Evidence)来更新我们对某一假设(Hypothesis)的初始信念。其核心数学表达为:

       $$P(H|E) = \frac{P(E|H) \cdot P(H)}{P(E)}$$
  • $P(H)$ 先验概率 (Prior): 在没有看到任何检查结果或测序数据之前,假设 $H$(如“该患者患有肺癌”或“该位点存在真实突变”)成立的主观概率或历史基础概率。
  • $P(E|H)$ 似然度 (Likelihood): 证据的产生概率。即如果假设 $H$ 是真的,那么观察到当前检测结果 $E$(如“肿瘤标志物升高”或“NGS测序仪读出变异信号”)的可能性有多大。这通常代表了检测仪器的敏感性
  • $P(H|E)$ 后验概率 (Posterior): 结合了先验经验和当前新证据后,得出的最新结论。它代表了在拿到阳性报告后,患者真正患病的概率(即临床上的PPV)。

这就意味着:再强大的似然度(即再精准的检测仪器),如果遇到了极低的先验概率(即极度罕见的疾病),其后验概率依然可能是一个非常低的数值。

跨界显威:先验概率在医学与生信中的主导地位

应用场景 先验概率的具体体现与设定 其决定性的分析后果
重大疾病极早期筛查
(如 NIPT / 泛癌种早筛)

先验概率即该疾病在特定年龄段人群中的自然患病率 (Base Rate)。例如年轻孕妇怀有唐氏综合征胎儿的先验概率可能仅为 1/1000。
由于先验极低,即便检测准确率高达 99%,阳性报告中仍有近 50% 是假阳性。深刻解释了为何大规模人群早筛极易造成过度医疗焦虑。
生物信息学与组学
(NGS Variant Calling)
在 GATK 等变异检测算法中,人类基因组中任意位点发生随机单核苷酸突变的先验概率极低(约 $10^{-3}$ 到 $10^{-4}$)。若该位点在 dbSNP 中有记录,先验概率则被算法调高。 强大的低先验权重能强行压制并过滤掉大量由测序仪光学错误引起的背景噪音,确保找出的SNV是真实变异。
自适应临床试验设计
(Bayesian Clinical Trials)
新药进行 III 期试验时,不需要从零开始(像频率学派那样假设一无所知)。研究者会将 I/II 期试验的数据,甚至类似药物的历史文献数据,量化为新试验的先验概率分布。 这允许试验在进行中动态调整招募人数或及早终止无效队列。极大加快了抗肿瘤靶向药物的研发并节省了巨额成本。

认知与分析策略:如何选择正确的“初始信念”

破除统计谬误的高级方法论

  • 无信息先验 (Uninformative Prior) 的使用: 在机器学习和某些严谨的临床研究中,如果我们对一个变量真的完全一无所知,或者为了避免主观偏见(如审批新药时为了绝对客观),我们会赋予它一个完全平坦的概率分布(如抛硬币设定为 50/50)。此时,后验概率将完全由测序数据或临床数据(似然函数)主导。
  • 共轭先验 (Conjugate Prior) 与算力解放: 在构建复杂的计算生物学模型(如隐马尔可夫模型)时,如果在数学上巧妙地选择某种特定分布(如 Beta 分布之于二项分布)作为先验,计算出的后验概率会和先验概率保持相同的函数形式。这在深度学习时代之前,极大地降低了贝叶斯更新的计算负担。
  • 今天的后验,就是明天的先验: 贝叶斯思维的哲学精髓在于迭代。患者在初诊时的患病率是先验(如 1%);经过一次肿瘤标志物初筛(阳性)后,其后验概率更新为 15%;这 15% 随即成为他做高频超声检查时的“新先验概率”。这种链式概率更新是现代医疗 AI 诊断决策树的底层运行逻辑。

核心相关概念

  • 后验概率 (Posterior Probability): 先验概率的终点。是在结合了全部检测证据、数据之后,模型输出的最终发生概率。它是指导临床干预、手术决策和 AI 模型输出结果的直接依据。
  • 基础概率谬误 (Base Rate Fallacy): 一种极其常见且致命的认知偏差。指人们在面对一个具体的检测报告(阳性)时,过度关注检测仪器的准确率,而完全忽略了该疾病在人群中本身极低的先验患病率,从而严重高估了自己患病的真实概率。
  • 似然函数 (Likelihood Function): 它是连接先验与后验的桥梁。衡量的是在给定的假设条件下,当前这组观测数据发生的概率。在医学检测中,它直接关联于检测试剂盒的敏感性(真阳性率)和特异性(真阴性率)。
       学术参考文献 [Academic Review]
       

[1] Goodman, S. N. (1999). Toward evidence-based medical statistics. 2: The Bayes factor. Annals of Internal Medicine. 130(12):1005-1013.
[循证医学基石文献]:由斯坦福大学临床试验方法学专家撰写。文章极其透彻地向医学界解释了传统 P 值检验的缺陷,并强力论证了为何引入基于历史经验的“先验概率”并利用贝叶斯因子更新信念,才是临床诊断和循证医学评估的真正科学之道。

[2] Stephens, M., & Balding, D. J. (2009). Bayesian statistical methods for genetic association studies. Nature Reviews Genetics. 10(10):681-690.
[遗传学算法核心综述]:深刻揭示了随着全基因组关联分析(GWAS)和 NGS 时代的到来,庞大的数据集导致假阳性泛滥。作者详细解析了如何通过在计算模型中嵌入合理的先验概率(如遗传距离、基因多态性特征),来大幅提高基因变异信号识别的真实度。

[3] Berry, D. A. (2006). Bayesian clinical trials. Nature Reviews Drug Discovery. 5(1):27-36.
[制药工业革命指南]:这篇经典的综述全面阐述了贝叶斯框架如何彻底重塑现代抗癌药物的研发流程。通过在试验设计之初就融入 I 期临床或同类药物的“先验分布”,赋予了临床试验中途改变剂量、增删对照组的自适应弹性,是当今“主研究方案”的统计学圣经。

           先验概率 · 概率推断与医学应用图谱
核心统计学三角 先验概率 (经验) • 似然函数 (证据) • 后验概率 (结论)
临床筛查等价物 患病率 (Prevalence) • 基础概率谬误PPV
生信与转化应用 贝叶斯网络 • 变异检测 (Variant Calling) • 自适应临床试验