GnomAD
gnomAD(Genome Aggregation Database,基因组聚合数据库)是目前全球生物医学界公认的人类遗传变异基准数据库。
它由 Broad Institute 开发并维护,旨在通过汇集全球数十万无亲缘关系个体的全外显子组(WES)和全基因组(WGS)测序数据,构建一个代表“普通人群”的背景参照系。临床遗传学家和科研人员使用 gnomAD 的核心目的在于“做减法”:如果在 gnomAD 中发现某个变异在高频出现(>1%),那么该变异极大概率是良性的,从而可以从致病候选名单中剔除。它是解读罕见病和癌症基因组数据的“黄金标准”。
不容忍度:衡量基因“脆弱性”的尺子
gnomAD 最大的贡献之一不仅是告诉我们哪些变异是常见的,还告诉我们哪些基因是不能突变的。通过计算“预期突变数”与“实际观测数”的比值,gnomAD 提供了两个关键指标来评估基因对功能缺失(LoF)变异的耐受度。
| 指标 | 含义 | 临床解读 |
|---|---|---|
| pLI Score | Probability of LoF Intolerance。 范围 0 - 1。 |
pLI ≥ 0.9:该基因对变异极度不耐受(Haploinsufficient)。一旦发生截短突变,极大概率致病。 |
| LOEUF | LoF Observed/Expected Upper Fraction。 越低越好。 |
比 pLI 更精细。LOEUF < 0.35 提示基因受到强烈的自然选择净化,功能至关重要。 |
| Z-score | 错义突变(Missense)的约束分数。 正值越高越受约束。 |
Z > 3.09 提示该基因对错义突变敏感,其上的错义变异更可能是致病的。 |
数据的进化:从 ExAC 到 v4
gnomAD 的数据量呈指数级增长,不断提升罕见变异检测的统计效力。
- ExAC (2014): 约 6 万人全外显子数据。开创了聚合数据库的先河,首次让“因人群太少而误判致病”的现象大幅减少。
- gnomAD v2 (2017): 约 12.5 万外显子 + 1.5 万全基因组。不仅看编码区,也开始探索非编码区。
- gnomAD v3 (2019): 约 7 万全基因组 (WGS)。基于 GRCh38 参考基因组构建,大大提高了对结构变异(SV)的检测能力。
- gnomAD v4 (2023): 规模爆发至 80 万人(主要扩增了 UK Biobank 数据)。数据量的跃升让发现极罕见变异(Ultra-rare variants)成为可能。
关键相关概念 [Key Concepts]
1. Allele Frequency (AF, 等位基因频率): gnomAD 最基础的输出。例如,如果一个变异在 gnomAD 中的 AF 为 0.05 (5%),根据 ACMG 指南(BA1证据),它几乎可以被判定为良性,无需进一步分析。
2. Filtering (过滤策略): 临床分析的漏斗模型。第一步通常是“Filter by gnomAD”,即剔除人群频率 > 0.1% 或 1% 的变异,将成千上万个候选变异迅速缩减到几十个。
3. Exclusion Criteria (排除标准): 重要的是,gnomAD 剔除了患有严重儿童期疾病的个体。因此,它代表的是“相对健康”或“成年期发病”的人群,而非完美的健康对照。
学术参考文献 [Academic Review]
[1] Karczewski KJ, et al. (2020). The mutational constraint spectrum quantified from variation in 141,456 humans. Nature.
[点评]:gnomAD 的旗舰论文。系统描述了人类基因组的变异图谱,并提出了 pLI 和 LOEUF 等关键约束指标,重塑了变异解读流程。
[2] Lek M, et al. (2016). Analysis of protein-coding genetic variation in 60,706 humans. Nature.
[点评]:ExAC 的奠基之作。展示了大规模人群聚合数据对于修正致病位点误判(Reclassification)的巨大威力。
[3] Richards S, et al. (2015). Standards and guidelines for the interpretation of sequence variants (ACMG). Genet Med.
[点评]:ACMG 指南明确指出,利用人群数据库(如 gnomAD)的高频数据是判定良性变异的最强证据之一(BS1/BA1)。