GATK
GATK(Genome Analysis Toolkit,基因组分析工具包)是由 Broad Institute 开发的一套用于分析高通量测序数据(NGS)的行业标准软件套件。
它最初设计用于人类基因组计划及后续的国际单倍体图谱计划(HapMap),现已成为全球检测生殖系变异(Germline SNPs/Indels)的“金标准”。随着版本迭代(目前为主流的 GATK4),它也整合了Mutect2 等工具,具备了强大的体细胞突变(癌症)检测及拷贝数变异(CNV)分析能力。
GATK 不仅是一个软件,更代表了一套严谨的数据处理流程规范,被称为 GATK Best Practices。
GATK 最佳实践流程 (Best Practices)
GATK 的核心价值在于它定义了一套从原始数据到高质量变异列表的完整工作流。主要分为三个阶段:
| 阶段 | 核心步骤 (Tools) | 目的 |
|---|---|---|
| 数据预处理 (Pre-processing) |
1. Map to Reference (BWA) 2. MarkDuplicates (Picard) 3. BaseRecalibrator (BQSR) |
纠正测序仪的系统性偏差,去除 PCR重复,校准碱基质量分数。 |
| 变异检测 (Variant Discovery) |
HaplotypeCaller (Germline) Mutect2 (Somatic) |
基于局部单倍体组装技术,生成原始的 VCF 或 gVCF 文件。 |
| 变异过滤 (Refinement) |
VQSR (大数据集) CNNScoreVariants (深度学习) |
利用统计模型区分真实的生物学变异和测序假阳性噪音。 |
核心算法:HaplotypeCaller
GATK 的灵魂在于其变异检测器 HaplotypeCaller。与早期的基于位点(Pileup-based)的工具不同,它是“基于组装”的。
- Active Region (活性区域): 软件首先快速扫描基因组,找到那些与参考基因组差异显著的“活性区域”。
- Local Assembly (局部组装): 在这些区域内,抛弃原有的比对结果,利用 De Bruijn 图算法对 Reads 进行重新组装,构建出可能的单倍体序列(Haplotypes)。这一步极大提高了 Indel 的检测准确性。
- PairHMM (配对隐马尔可夫模型): 将每一条 Read 与构建出的单倍体进行比对,计算似然值(Likelihood),最终确定基因型。
关键相关概念 [Key Concepts]
1. BQSR (Base Quality Score Recalibration): 碱基质量重校准。测序仪输出的质量值(Quality Score)往往不准确。GATK 利用已知的 SNP 数据库(如 dbSNP)作为训练集,通过机器学习重新计算每个碱基的真实错误率,消除系统误差。
2. gVCF (Genomic VCF): GATK 引入的一种特殊的 VCF 格式。它不仅记录了“变异位点”,还记录了“非变异位点”的信息(以此证明该区域被测序且确认无变异)。这对于后续的多样本联合分析(Joint Genotyping)至关重要。
3. PL (Phred-scaled Likelihoods): 在 GATK 输出的 VCF 中最常见的字段之一。它表示三种基因型(0/0, 0/1, 1/1)的相对可能性。PL=0 的那个基因型即为软件判定的最可能的基因型。
学术参考文献 [Academic Review]
[1] McKenna A, et al. (2010). The Genome Analysis Toolkit: a MapReduce framework for analyzing next-generation DNA sequencing data. Genome Res.
[点评]:GATK 的奠基之作。介绍了其早期的 MapReduce 架构设计,标志着大规模基因组分析时代的开始。
[2] DePristo MA, et al. (2011). A framework for variation discovery and genotyping using next-generation DNA sequencing data. Nat Genet.
[点评]:确立了 GATK 在处理 INDEL 和质量校正(recalibration)方面的核心算法优势。
[3] Van der Auwera GA, et al. (2013). From FastQ data to high confidence variant calls: the Genome Analysis Toolkit best practices pipeline. Curr Protoc Bioinformatics.
[点评]:最经典的实操指南。定义了至今仍被广泛遵循的“GATK Best Practices”标准流程。