GTF格式

GTF格式（Gene Transfer Format，基因转移格式），是 生物信息学 与 基因组学 领域中用于描述和注释基因组特征的绝对核心文件标准。如果说 FASTA格式 提供的是绵延 30 亿个 A/T/C/G 字母的“裸露地形图”，那么 GTF 格式就是覆盖在这张地图上的高精度“GPS 导航坐标字典”。它本质上是一个以制表符（Tab）分隔的纯文本文件，精确记录了基因组上每一个基因、转录本、外显子（Exon） 和 CDS区（编码序列） 的物理起始与终止位置、正负链方向以及基因名称等属性。在现代 精准医疗 的 NGS 数据分析中，GTF 格式是不可或缺的基石：在 转录组测序（RNA-Seq） 中，计数软件必须依赖 GTF 才能将测序片段（Reads）准确分配给特定基因以计算 表达量；在 WES 或肿瘤靶向测序中，变异注释软件也是依据 GTF 才能判定某个 SNP 是否落在关键的蛋白编码区，从而引发 错义突变 或 无义突变。目前，临床与科研中最权威的标准化 GTF 文件主要由 Ensembl 和 GENCODE 联盟负责维护与定期更新。

GTF Format

Genomic Annotation Standard (点击展开)

标准 9 列坐标与注释架构

数据类型	Tab 制表符分隔文本 (TSV)
核心结构	严格的 9 列格式
关键层级特征	gene > transcript > exon/CDS
强制性属性键	gene_id 与 transcript_id
坐标基准	以 1 为基准 (1-based)
权威来源库	GENCODE, Ensembl, RefSeq
生信核心用途	转录组定量 / 突变临床注释

语法结构：解码基因组的 9 列“GPS 坐标”

GTF（通常演进为 GTF2.2 规范）对格式的要求极其严格。文件中的每一行都代表基因组上的一个独立特征（Feature），并被雷打不动地分为 9 个字段：

第 1-3 列 (定位与分类)： seqname（染色体编号，如 chr1）、source（注释来源，如 HAVANA 团队手工注释或 Ensembl 自动预测）、feature（特征类型，必须是 gene、transcript、exon、CDS、start_codon 或 stop_codon 之一）。
第 4-6 列 (精确坐标与评分)： start 和 end 提供了该特征在染色体上的精确起止物理位置（1-based 闭区间）。score 通常在现代文件中用 . 占位，表示没有相关的统计评分。
第 7-8 列 (方向与翻译框)： strand 标明该基因是在正链（+）还是负链（-）上。frame 专为 CDS区 设计（取值为 0, 1 或 2），指示 密码子 在翻译时的起始阅读框偏移量，这对于预测 移码突变 至关重要。
第 9 列 (多维属性字典)： attributes 是 GTF 最具价值也是最复杂的一列。它包含一系列以分号分隔的键值对。其中 gene_id 和 transcript_id 是绝对强制存在的标签。此外还会包含 gene_name（如 TP53）、gene_biotype（指明它是 蛋白编码基因 还是 lncRNA）等极其丰富的生物学元数据。

生信与临床映射：无注释，不精准

临床分析管线	GTF 文件的核心赋能作用	指导的诊断与转化意义
转录组定量 (RNA-Seq Read Counting)	计数软件（如 featureCounts 或 HTSeq）比对测序得到的 BAM文件与 GTF 文件。如果一条测序短片段的坐标正好落入 GTF 标记的某个外显子区间内，则该 `gene_id` 的表达量计数 +1。	计算基因表达矩阵的绝对前提。用于发掘肿瘤微环境中的免疫抑制标记，或寻找罕见病的异常表达致病基因。
剪接点比对 (Splice-aware Alignment)	由于成熟的 mRNA 已经被剪去了内含子，比对软件（如 STAR 或 HISAT2）需要提前读取 GTF 文件，获知内含子的起止坐标，从而让一条测序 Read 能够“跨越”数万碱基准确比对到两个外显子上。	精准发现癌细胞中异常的可变剪接事件 (Alternative Splicing)，甚至发掘全新的融合基因。
临床突变注释 (Variant Annotation)	当在 WES 中发现了一个碱基突变（储存在 VCF文件中），注释软件（如 ANNOVAR 或 SnpEff）会去查询 GTF：这个坐标落在哪个基因？属于 CDS 还是非翻译区（UTR区）？	直接决定了一份突变报告的结论。判断突变是否导致了氨基酸序列的改变，从而评估其致病性（如是否为 Pathogenic Variant）。

工程学陷阱：版本隔离与数据库的暗战

基因组学中最易犯的“坐标崩塌”致命错误

基因组版本不匹配的灾难： GTF 的物理坐标是死死绑定在特定版本的 人类参考基因组 上的。如果你用 GRCh38 (hg38) 的参考序列去运行比对算法，却错误地输入了基于 GRCh37 (hg19) 的 GTF 文件，所有的突变注释和基因定量都将发生毁灭性的“空间错位”，直接导致数百上千个假阳性致病基因的产生。
Ensembl vs RefSeq 的命名壁垒： 目前世界上有两套最主流的注释系统。NCBI 提供的 RefSeq 体系倾向于保守，通常只包含有明确生物学证据的转录本（前缀多为 NM_）；而 GENCODE（基于 Ensembl）则极其详尽，包含了大量预测的非编码转录本（前缀为 ENSG）。这导致两套 GTF 文件的基因命名体系完全不同，在进行多队列临床数据合并时，必须使用基因转换字典进行极其小心的 ID 映射。

核心相关概念

GFF3格式 (General Feature Format Version 3)： GTF 的“近亲”与竞争者。GFF3 同样拥有 9 列，但它在第 9 列属性字段的结构上更为灵活和宏大，允许通过 ID 和 Parent 标签建立极其复杂的任意父子从属关系树（不仅限于基因->转录本->外显子）。许多非哺乳动物（如植物或细菌）的测序项目更倾向于使用 GFF3。
BED格式 (Browser Extensible Data)： 与厚重繁杂的 GTF 不同，BED 格式是一种极其轻量级的坐标文件。它主要由三列组成（染色体、起始点、终止点），主要用于在 IGV 等基因组浏览器 中快速显示连续峰值区域（如 ChIP-Seq 发现的转录因子结合位点），而非用于精细的基因外显子组装描述。
GENCODE项目： 原本是 ENCODE计划 的一个子项目，旨在极其详尽地绘制出人类和小鼠基因组中所有蛋白质编码基因、假基因（Pseudogenes） 和长链非编码 RNA 的地图。今天，GENCODE 发布的 GTF 文件已成为全球几乎所有单细胞测序和转录组分析的公认默认标准。

       学术参考文献 [Academic Review]

[1] Harrow J, Frankish A, Gonzalez JM, et al. (2012). GENCODE: the reference human genome annotation for The ENCODE Project. Genome Research. 22(9):1760-1774.
[顶级基石文献]：该文献标志着世界上最权威的人类基因组标准注释集——GENCODE 的正式成型。详细描述了计算预测与大量手工比对（Manual Curation）相结合的过程，确立了当今全球生信领域广泛采用的 GTF 标准与质量控制金基准。

[2] Dobin A, Davis CA, Schlesinger F, et al. (2013). STAR: ultrafast universal RNA-seq aligner. Bioinformatics. 29(1):15-21.
[工程化应用核心]：介绍了当今最主流的转录组极速比对工具 STAR。该论文详细阐述了算法如何在建立基因组索引（Index）时，通过深度依赖并解析外接的 GTF 文件坐标，从而完美解决跨越长内含子的转录本剪接比对难题。

[3] Liao Y, Smyth GK, Shi W. (2014). featureCounts: an efficient general purpose program for assigning sequence reads to genomic features. Bioinformatics. 30(7):923-930.
[定量工具里程碑]：经典软件 featureCounts 的原始发布论文。作者精确定义了如何利用测序碎片（BAM）与 GTF 文件中第三列定义的“exon”特征和第九列定义的“gene_id”进行重叠计算，构成了目前单细胞及 Bulk RNA-seq 生成表达矩阵的核心方法论。

           GTF格式 · 知识图谱

文件解构核心	标准 9 列坐标 • 强制属性：`gene_id` 与 `transcript_id`
标记目标层级	Exon (外显子) • CDS (编码序列) • 起止密码子
下游应用阵列	RNA-Seq 定量矩阵生成 • 可变剪接发掘 • 临床变异注释

匿名

搜索

GTF格式

名字空间

更多

页面选项

目录

语法结构：解码基因组的 9 列“GPS 坐标”

生信与临床映射：无注释，不精准

工程学陷阱：版本隔离与数据库的暗战

基因组学中最易犯的“坐标崩塌”致命错误

核心相关概念

导航

导航

功能菜单

Wiki工具

Wiki工具

匿名

搜索

GTF格式

语法结构：解码基因组的 9 列“GPS 坐标”

生信与临床映射：无注释，不精准

工程学陷阱：版本隔离与数据库的暗战

基因组学中最易犯的“坐标崩塌”致命错误

核心相关概念

导航

Wiki工具

页面工具