GTF格式
GTF格式(Gene Transfer Format,基因转移格式),是 生物信息学 与 基因组学 领域中用于描述和注释基因组特征的绝对核心文件标准。如果说 FASTA格式 提供的是绵延 30 亿个 A/T/C/G 字母的“裸露地形图”,那么 GTF 格式就是覆盖在这张地图上的高精度“GPS 导航坐标字典”。 它本质上是一个以制表符(Tab)分隔的纯文本文件,精确记录了基因组上每一个 基因、转录本、外显子(Exon) 和 CDS区(编码序列) 的物理起始与终止位置、正负链方向以及基因名称等属性。在现代 精准医疗 的 NGS 数据分析中,GTF 格式是不可或缺的基石:在 转录组测序(RNA-Seq) 中,计数软件必须依赖 GTF 才能将测序片段(Reads)准确分配给特定基因以计算 表达量;在 WES 或肿瘤靶向测序中,变异注释软件也是依据 GTF 才能判定某个 SNP 是否落在关键的 蛋白 编码区,从而引发 错义突变 或 无义突变。目前,临床与科研中最权威的标准化 GTF 文件主要由 Ensembl 和 GENCODE 联盟负责维护与定期更新。
语法结构:解码基因组的 9 列“GPS 坐标”
GTF(通常演进为 GTF2.2 规范)对格式的要求极其严格。文件中的每一行都代表基因组上的一个独立特征(Feature),并被雷打不动地分为 9 个字段:
- 第 1-3 列 (定位与分类):
seqname(染色体编号,如 chr1)、source(注释来源,如 HAVANA 团队手工注释或 Ensembl 自动预测)、feature(特征类型,必须是 gene、transcript、exon、CDS、start_codon 或 stop_codon 之一)。 - 第 4-6 列 (精确坐标与评分):
start和end提供了该特征在染色体上的精确起止物理位置(1-based 闭区间)。score通常在现代文件中用.占位,表示没有相关的统计评分。 - 第 7-8 列 (方向与翻译框):
strand标明该基因是在正链(+)还是负链(-)上。frame专为 CDS区 设计(取值为 0, 1 或 2),指示 密码子 在 翻译 时的起始阅读框偏移量,这对于预测 移码突变 至关重要。 - 第 9 列 (多维属性字典):
attributes是 GTF 最具价值也是最复杂的一列。它包含一系列以分号分隔的键值对。其中gene_id和transcript_id是绝对强制存在的标签。此外还会包含gene_name(如 TP53)、gene_biotype(指明它是 蛋白编码基因 还是 lncRNA)等极其丰富的生物学元数据。
生信与临床映射:无注释,不精准
| 临床分析管线 | GTF 文件的核心赋能作用 | 指导的诊断与转化意义 |
|---|---|---|
| 转录组定量 (RNA-Seq Read Counting) |
计数软件(如 featureCounts 或 HTSeq)比对测序得到的 BAM文件 与 GTF 文件。如果一条测序短片段的坐标正好落入 GTF 标记的某个外显子区间内,则该 gene_id 的表达量计数 +1。 |
计算 基因表达矩阵 的绝对前提。用于发掘 肿瘤微环境 中的免疫抑制标记,或寻找罕见病的异常表达致病基因。 |
| 剪接点比对 (Splice-aware Alignment) |
由于成熟的 mRNA 已经被剪去了 内含子,比对软件(如 STAR 或 HISAT2)需要提前读取 GTF 文件,获知内含子的起止坐标,从而让一条测序 Read 能够“跨越”数万碱基准确比对到两个外显子上。 | 精准发现癌细胞中异常的 可变剪接事件 (Alternative Splicing),甚至发掘全新的 融合基因。 |
| 临床突变注释 (Variant Annotation) |
当在 WES 中发现了一个碱基突变(储存在 VCF文件 中),注释软件(如 ANNOVAR 或 SnpEff)会去查询 GTF:这个坐标落在哪个基因?属于 CDS 还是非翻译区(UTR区)? | 直接决定了一份突变报告的结论。判断突变是否导致了 氨基酸序列 的改变,从而评估其致病性(如是否为 Pathogenic Variant)。 |
工程学陷阱:版本隔离与数据库的暗战
基因组学中最易犯的“坐标崩塌”致命错误
- 基因组版本不匹配的灾难: GTF 的物理坐标是死死绑定在特定版本的 人类参考基因组 上的。如果你用 GRCh38 (hg38) 的参考序列去运行比对算法,却错误地输入了基于 GRCh37 (hg19) 的 GTF 文件,所有的突变注释和基因定量都将发生毁灭性的“空间错位”,直接导致数百上千个假阳性致病基因的产生。
- Ensembl vs RefSeq 的命名壁垒: 目前世界上有两套最主流的注释系统。NCBI 提供的 RefSeq 体系倾向于保守,通常只包含有明确生物学证据的转录本(前缀多为
NM_);而 GENCODE(基于 Ensembl)则极其详尽,包含了大量预测的非编码转录本(前缀为ENSG)。这导致两套 GTF 文件的基因命名体系完全不同,在进行多队列临床数据合并时,必须使用基因转换字典进行极其小心的 ID 映射。
核心相关概念
- GFF3格式 (General Feature Format Version 3): GTF 的“近亲”与竞争者。GFF3 同样拥有 9 列,但它在第 9 列属性字段的结构上更为灵活和宏大,允许通过
ID和Parent标签建立极其复杂的任意父子从属关系树(不仅限于 基因->转录本->外显子)。许多非哺乳动物(如植物或细菌)的测序项目更倾向于使用 GFF3。 - BED格式 (Browser Extensible Data): 与厚重繁杂的 GTF 不同,BED 格式是一种极其轻量级的坐标文件。它主要由三列组成(染色体、起始点、终止点),主要用于在 IGV 等基因组浏览器 中快速显示连续峰值区域(如 ChIP-Seq 发现的转录因子结合位点),而非用于精细的基因外显子组装描述。
- GENCODE项目: 原本是 ENCODE计划 的一个子项目,旨在极其详尽地绘制出人类和小鼠基因组中所有蛋白质编码基因、假基因(Pseudogenes) 和长链非编码 RNA 的地图。今天,GENCODE 发布的 GTF 文件已成为全球几乎所有单细胞测序和转录组分析的公认默认标准。
学术参考文献 [Academic Review]
[1] Harrow J, Frankish A, Gonzalez JM, et al. (2012). GENCODE: the reference human genome annotation for The ENCODE Project. Genome Research. 22(9):1760-1774.
[顶级基石文献]:该文献标志着世界上最权威的人类基因组标准注释集——GENCODE 的正式成型。详细描述了计算预测与大量手工比对(Manual Curation)相结合的过程,确立了当今全球生信领域广泛采用的 GTF 标准与质量控制金基准。
[2] Dobin A, Davis CA, Schlesinger F, et al. (2013). STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29(1):15-21.
[工程化应用核心]:介绍了当今最主流的转录组极速比对工具 STAR。该论文详细阐述了算法如何在建立基因组索引(Index)时,通过深度依赖并解析外接的 GTF 文件坐标,从而完美解决跨越长内含子的转录本剪接比对难题。
[3] Liao Y, Smyth GK, Shi W. (2014). featureCounts: an efficient general purpose program for assigning sequence reads to genomic features. Bioinformatics. 30(7):923-930.
[定量工具里程碑]:经典软件 featureCounts 的原始发布论文。作者精确定义了如何利用测序碎片(BAM)与 GTF 文件中第三列定义的“exon”特征和第九列定义的“gene_id”进行重叠计算,构成了目前单细胞及 Bulk RNA-seq 生成表达矩阵的核心方法论。