Mutect2
Mutect2 是由 Broad Institute 开发的一款用于探测体细胞突变(Somatic Mutations)的生物信息学工具,属于 GATK(Genome Analysis Toolkit)软件包的核心组件。
它在第一代 MuTect(仅支持 SNV)的基础上进行了重大升级,能够同时检测单核苷酸变异(SNV)和插入缺失(Indel)。
Mutect2 采用贝叶斯分类器和单倍体组装(Haplotype Assembly)技术,通过对比“肿瘤-正常组织”配对样本(Tumor-Normal Pair),有效剔除生殖系变异和测序噪音,是目前癌症基因组分析(如 WES、WGS)中检测体细胞突变的“金标准”工具之一。
从 MuTect 到 Mutect2 的进化
Mutect2 并非简单的升级,而是算法逻辑的重构。它继承了 HaplotypeCaller 的“活性区域组装”(Active Region Assembly)引擎,但针对体细胞突变的特点进行了调整。
| 特性 | MuTect (v1) | Mutect2 (GATK4) |
|---|---|---|
| 变异类型 | 仅 SNV | SNV + Indel |
| 倍体假设 | 二倍体 (Diploid) | 可变倍体 (适应肿瘤非整倍性) |
| 分析模式 | 必须成对 (Tumor-Normal) | 支持成对,也支持 Tumor-only 模式 |
| 线粒体 | 不支持 | 支持 (Mitochondria mode) |
标准分析流程 (Best Practices)
GATK 团队推荐的体细胞突变分析流程包含极其严格的过滤步骤,以去除假阳性。
- Step 1: Create PON (构建正常样本库): 使用一组(推荐 > 40个)健康人的样本生成 PON (Panel of Normals)。这是 Mutect2 的核心优势,用于捕捉测序仪特有的系统性错误和罕见生殖系变异。
- Step 2: Mutect2 Calling: 输入肿瘤 BAM、配对正常 BAM(可选)、PON 和生殖系资源库(如 gnomAD)。Mutect2 会输出一个原始的 VCF 文件。
- Step 3: Estimate Contamination: 使用
GetPileupSummaries和CalculateContamination计算样本间的交叉污染率。 - Step 4: FilterMutectCalls: 综合考虑污染率、方向偏差(Orientation Bias, 如 FFPE 样本的 OxoG 损伤)和 PON 数据,给每个突变打上
PASS或过滤标签。
关键相关概念 [Key Concepts]
1. PON (Panel of Normals): Mutect2 的“黑名单”。如果一个突变在多个正常样本中都出现了,说明它很可能是测序错误(Technical Artifact)而非真正的体细胞突变,Mutect2 会据此将其过滤。
2. AF (Allele Fraction): 突变等位基因频率。与生殖系突变通常为 0.5 (杂合) 或 1.0 (纯合) 不同,体细胞突变的 AF 波动巨大(可能低至 1%),这取决于肿瘤纯度(Purity)和异质性(Heterogeneity)。Mutect2 专为检测低 AF 变异而优化。
3. Germline Resource: 如 gnomAD 或 1000 Genomes。Mutect2 利用这些公共数据库来估算一个变异是生殖系的可能性。如果患者没有配对的正常样本(Tumor-only),这一步至关重要。
学术参考文献 [Academic Review]
[1] Cibulskis K, Lawrence MS, Carter SL, et al. (2013). Sensitive detection of somatic point mutations in impure and heterogeneous cancer samples. Nature Biotechnology.
[点评]:初代 MuTect 的奠基论文。详细阐述了基于贝叶斯统计的体细胞突变检测原理,成为该领域的引用经典。
[2] Benjamin D, Sato T, Cibulskis K, et al. (2019). Calling Somatic SNVs and Indels with Mutect2. bioRxiv.
[点评]:GATK 团队发布的关于 Mutect2 具体算法的技术预印本。解释了从 MuTect 到 Mutect2 的算法演进,特别是对 Indel 的支持和 PON 的改进。