UniProt

来自医学百科
120.244.141.225讨论2026年2月7日 (六) 20:28的版本 (建立内容为“<div style="padding: 0 4%; line-height: 1.8; color: #1e293b; font-family: 'Helvetica Neue', Helvetica, 'PingFang SC', Arial, sans-serif; background-color: #ffffff…”的新页面)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)

UniProtUniversal Protein Resource,通用蛋白质资源库)是全球最全面、最权威且被广泛引用的蛋白质序列与功能信息中心。
它由欧洲生物信息研究所(EBI)、瑞士生物信息研究所(SIB)和美国蛋白质信息资源(PIR)组成的 UniProt 联盟共同维护。UniProt 的核心使命是为科学界提供一个中心化的、高质量的蛋白质“百科全书”。其最著名的子库 Swiss-Prot 以“人工审查、注释详尽、极低冗余”著称,被视为蛋白质数据的金标准;而 TrEMBL 子库则包含了海量的、由核酸序列自动翻译而来的未审查蛋白质序列。

UniProt
Universal Protein Resource (点击展开)
蛋白质界的“双轨制”体系
资源档案
运营方 UniProt Consortium (EBI, SIB, PIR)
核心子库 Swiss-Prot (精选)
TrEMBL (海量)
数据量 > 2.5 亿条序列
更新频率 每 8 周
主要功能
序列查询 FASTA 格式
功能注释 GO, 亚细胞定位
去冗余 UniRef
标识符 Accession (如 P53_HUMAN)

双轨制:Swiss-Prot 与 TrEMBL

UniProtKB(UniProt 知识库)由两个截然不同的部分组成,理解它们的区别是使用该数据库的前提。

子库名称 特征描述 数据质量与来源
Swiss-Prot 已审查 (Reviewed)
像维基百科的“精选条目”。数量少(约 57 万条),增长慢。
人工注释。由专家阅读文献后手动添加功能、修饰、结构等信息。极高的可靠性。
TrEMBL 未审查 (Unreviewed)
像海量的“草稿”。数量巨大(> 2.5 亿条),随测序技术飞速增长。
机器自动生成。将 EMBL/GenBank 中的核酸序列通过计算机程序翻译成蛋白,未经人工核对。

💡 专家提示: 在进行 BLAST 比对或同源搜索时,如果只关心已知功能的蛋白,请勾选 "Swiss-Prot only";如果想在未开发物种中寻找新基因,则需包含 TrEMBL。

不仅仅是序列:全方位的蛋白画像

UniProt 并不只是存储一串氨基酸字母,它致力于描绘蛋白质的“生平”。

  • PTM (翻译后修饰): 告诉你该蛋白在哪里被磷酸化、糖基化或乙酰化。这对于理解信号转导至关重要。
  • Subcellular Location (亚细胞定位): 告诉你该蛋白是住在细胞核里、线粒体里,还是被分泌到细胞外。
  • Variant (变异): 整合了来自 ClinVargnomAD 的信息,标注了哪些氨基酸突变会导致疾病。
  • AlphaFold 预测: 近年来,UniProt 已深度整合 AlphaFold DB,为数以亿计缺乏晶体结构的蛋白提供了高置信度的 3D 结构预测模型。
       关键相关概念 [Key Concepts]
       

1. UniRef (Reference Clusters): 为了解决数据冗余问题(比如 1000 株大肠杆菌有几乎相同的管家基因),UniProt 将相似序列打包成簇。UniRef100、UniRef90、UniRef50 分别代表序列一致性为 100%、90%、50% 的聚类,大大加快了 BLAST 速度。

2. Accession Number (AC号): 蛋白质的“终身身份证”。如 P53_HUMAN (Entry Name) 对应的 AC 号是 P04637。即使蛋白名字改了,AC 号也永不改变,确保引用的稳定性。

3. Proteome (蛋白质组): UniProt 为特定物种(如人类、小鼠、拟南芥)提供完整的蛋白质组数据集下载,是质谱分析(Mass Spectrometry)进行搜库比对的基础文件。

       学术参考文献 [Academic Review]
       

[1] The UniProt Consortium. (2023). UniProt: the Universal Protein Knowledgebase in 2023. Nucleic Acids Res.
[点评]:年度更新报告。详述了 UniProt 最新的数据增长情况、AlphaFold 结构的整合以及对 SARS-CoV-2 蛋白的紧急注释工作。

[2] Bairoch A, Apweiler R. (2000). The SWISS-PROT protein sequence database and its supplement TrEMBL in 2000. Nucleic Acids Res.
[点评]:历史性文献。由 Swiss-Prot 创始人 Amos Bairoch 撰写,确立了 Swiss-Prot 高质量人工注释的标准。

[3] Bateman A, et al. (2017). UniProt: the universal protein knowledgebase. Nucleic Acids Res.
[点评]:EBI 团队综述。解释了 UniProt 如何从分散的数据库(PIR, Swiss-Prot, TrEMBL)合并为统一的全球资源。

           生物信息学 · 知识图谱
上级分类 生物医学数据库 • 序列数据库
核心组件 Swiss-Prot (精选) • TrEMBL (自动) • UniRef
关联资源 GenBank (核酸) • PDB (结构) • AlphaFold