Swiss-Prot
Swiss-Prot(全称 UniProtKB/Swiss-Prot)是全球公认的高质量蛋白质序列数据库的金标准。
作为 UniProt 知识库中的“已审查”(Reviewed)部分,Swiss-Prot 的最大特色在于人工审编(Manual Curation)。与自动生成的数据库(如 TrEMBL)不同,Swiss-Prot 中的每一条记录都由经过博士级训练的生物学家(Biocurators)阅读原始文献后手动创建和修订。它以极低的冗余度提供了关于蛋白质功能、结构域、翻译后修饰(PTM)、变异及相关疾病的详尽注释。
"贵族"数据库:为何 Swiss-Prot 不可替代?
在生物数据呈指数级爆炸的今天,Swiss-Prot 依然保持着“小而美”的规模(仅占 UniProt 总数据量的 < 0.2%),但它是所有自动化注释的训练集和参考基准。
| 特性 | Swiss-Prot (已审查) | TrEMBL (未审查) |
|---|---|---|
| 数据来源 | 文献提取。专家阅读实验论文,手动输入数据。 | 机器翻译。由 EMBL/GenBank 核酸序列自动翻译,无实验验证。 |
| 冗余度 | 极低。所有异构体(Isoforms)合并到一个条目中。 | 高。同一蛋白可能有多个重复条目。 |
| 注释深度 | 极深。包含功能、亚细胞定位、PTM、晶体结构链接等。 | 浅。通常仅有序列和计算机预测的基本功能。 |
| 标识 | 金色五角星 ⭐⭐⭐⭐⭐ | 灰色标识 |
Biocuration:生物信息学的工匠精神
Swiss-Prot 的核心竞争力在于SIB 位于日内瓦的注释团队。
- 合并 (Merge): 审编者会将不同实验室提交的、针对同一基因的多个测序结果合并。例如,人类 P53 蛋白在 GenBank 可能有数百个序列,但在 Swiss-Prot 只有唯一的条目(P04637)。
- 标准化 (Standardization): 统一蛋白命名(不再叫“未知蛋白”),并使用受控词汇(如 GO 术语)描述功能,方便计算机检索。
- 特征注释 (Feature Annotation): 明确标记出信号肽在哪里、跨膜区在哪里、磷酸化位点在哪里、活性中心在哪里。这些信息对于药物设计是无价的。
关键相关概念 [Key Concepts]
1. Canonical Sequence (标准序列): 对于有多个异构体(Isoforms)的蛋白,Swiss-Prot 会选定一条作为“标准序列”(Canonical)。这是进行 BLAST 比对或构建进化树时的默认参考。
2. PTM (翻译后修饰): Swiss-Prot 是查询 PTM 最可靠的来源之一。它详细记录了糖基化、磷酸化、乙酰化、二硫键等修饰的具体氨基酸位置。
3. Cross-reference (交叉引用): Swiss-Prot 是生物数据的“枢纽”。一个条目通常包含连接到 PDB(结构)、Ensembl(基因)、OMIM(疾病)、InterPro(家族)等数十个外部数据库的超链接。
学术参考文献 [Academic Review]
[1] Bairoch A, Boeckmann B. (1991). The SWISS-PROT protein sequence data bank. Nucleic Acids Res.
[点评]:历史性文献。Amos Bairoch 首次正式在 NAR 数据库专刊上介绍 Swiss-Prot,确立了其作为高质量注释库的地位。
[2] Boutet E, et al. (2016). UniProtKB/Swiss-Prot, the Manually Annotated Section of the Universal Protein Knowledgebase. Methods Mol Biol.
[点评]:详细介绍了 Swiss-Prot 的审编流程(Curation Pipeline),揭示了如何将原始数据转化为结构化知识。
[3] The UniProt Consortium. (2023). UniProt: the Universal Protein Knowledgebase in 2023. Nucleic Acids Res.
[点评]:最新的年度报告,展示了 Swiss-Prot 如何整合 AlphaFold 结构预测数据,以及应对新冠病毒蛋白注释的快速反应。