UniProt
UniProt(Universal Protein Resource,通用蛋白质资源库)是全球最全面、最权威且被广泛引用的蛋白质序列与功能信息中心。
它由欧洲生物信息研究所(EBI)、瑞士生物信息研究所(SIB)和美国蛋白质信息资源(PIR)组成的 UniProt 联盟共同维护。UniProt 的核心使命是为科学界提供一个中心化的、高质量的蛋白质“百科全书”。其最著名的子库 Swiss-Prot 以“人工审查、注释详尽、极低冗余”著称,被视为蛋白质数据的金标准;而 TrEMBL 子库则包含了海量的、由核酸序列自动翻译而来的未审查蛋白质序列。
双轨制:Swiss-Prot 与 TrEMBL
UniProtKB(UniProt 知识库)由两个截然不同的部分组成,理解它们的区别是使用该数据库的前提。
| 子库名称 | 特征描述 | 数据质量与来源 |
|---|---|---|
| Swiss-Prot | 已审查 (Reviewed)。 像维基百科的“精选条目”。数量少(约 57 万条),增长慢。 |
人工注释。由专家阅读文献后手动添加功能、修饰、结构等信息。极高的可靠性。 |
| TrEMBL | 未审查 (Unreviewed)。 像海量的“草稿”。数量巨大(> 2.5 亿条),随测序技术飞速增长。 |
机器自动生成。将 EMBL/GenBank 中的核酸序列通过计算机程序翻译成蛋白,未经人工核对。 |
💡 专家提示: 在进行 BLAST 比对或同源搜索时,如果只关心已知功能的蛋白,请勾选 "Swiss-Prot only";如果想在未开发物种中寻找新基因,则需包含 TrEMBL。
不仅仅是序列:全方位的蛋白画像
UniProt 并不只是存储一串氨基酸字母,它致力于描绘蛋白质的“生平”。
关键相关概念 [Key Concepts]
1. UniRef (Reference Clusters): 为了解决数据冗余问题(比如 1000 株大肠杆菌有几乎相同的管家基因),UniProt 将相似序列打包成簇。UniRef100、UniRef90、UniRef50 分别代表序列一致性为 100%、90%、50% 的聚类,大大加快了 BLAST 速度。
2. Accession Number (AC号): 蛋白质的“终身身份证”。如 P53_HUMAN (Entry Name) 对应的 AC 号是 P04637。即使蛋白名字改了,AC 号也永不改变,确保引用的稳定性。
3. Proteome (蛋白质组): UniProt 为特定物种(如人类、小鼠、拟南芥)提供完整的蛋白质组数据集下载,是质谱分析(Mass Spectrometry)进行搜库比对的基础文件。
学术参考文献 [Academic Review]
[1] The UniProt Consortium. (2023). UniProt: the Universal Protein Knowledgebase in 2023. Nucleic Acids Res.
[点评]:年度更新报告。详述了 UniProt 最新的数据增长情况、AlphaFold 结构的整合以及对 SARS-CoV-2 蛋白的紧急注释工作。
[2] Bairoch A, Apweiler R. (2000). The SWISS-PROT protein sequence database and its supplement TrEMBL in 2000. Nucleic Acids Res.
[点评]:历史性文献。由 Swiss-Prot 创始人 Amos Bairoch 撰写,确立了 Swiss-Prot 高质量人工注释的标准。
[3] Bateman A, et al. (2017). UniProt: the universal protein knowledgebase. Nucleic Acids Res.
[点评]:EBI 团队综述。解释了 UniProt 如何从分散的数据库(PIR, Swiss-Prot, TrEMBL)合并为统一的全球资源。