生物医学数据库

来自医学百科
120.244.141.225讨论2026年2月7日 (六) 20:23的版本 (建立内容为“<div style="padding: 0 4%; line-height: 1.8; color: #1e293b; font-family: 'Helvetica Neue', Helvetica, 'PingFang SC', Arial, sans-serif; background-color: #ffffff…”的新页面)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)

生物医学数据库(Biomedical Databases)是现代生命科学研究的“数字基础设施”。它们是系统化存储、组织和检索生物学数据(如 DNA 序列、蛋白质结构、临床变异、科学文献)的电子仓库。
随着高通量测序(NGS)技术的爆发,生物数据呈指数级增长,单一实验室无法独立管理。因此,形成了以美国的 NCBI、欧洲的 EBI 和日本的 DDBJ 为核心的全球数据共享网络。这些数据库不仅是科研人员查询基因功能(如 GenBank, UniProt)的工具,更是临床医生解读遗传病变异(如 ClinVar, gnomAD)的决策依据。每年一月的《Nucleic Acids Research》杂志都会发布全球生物数据库的年度特刊,目前收录的数据库已数以千计。

Bio-Databases
Digital Life Science (点击展开)
全球数据的“三足鼎立”
体系档案
三大中心 NCBI (美), EBI (欧), DDBJ (日)
核心协议 INSDC (数据每日同步)
数据类型 序列, 结构, 变异, 文献
访问模式 Open Access (主要)
典型代表
文献索引 PubMed
核酸序列 GenBank
蛋白质 UniProt, PDB
临床变异 ClinVar, HGMD

四大象限:生物数据的分类学

生物医学数据库繁多,通常根据存储数据的类型分为四大核心类别。

类别 代表数据库 核心功能
序列数据库 (Sequence) GenBank (DNA)
UniProt (蛋白)
最基础的数据库。存储基因和蛋白质的线性序列信息(ATCG / 氨基酸)。
结构数据库 (Structure) PDB (Protein Data Bank) 存储蛋白质、DNA/RNA 的三维晶体结构(X-ray/冷冻电镜数据)。是药物设计的基础。
变异数据库 (Variation) dbSNP (多态性)
ClinVar (致病性)
gnomAD (人群频率)
连接“序列”与“疾病”。告诉我们某个位点的突变是“正常的”还是“致病的”。
功能与通路 (Pathway) KEGG (代谢通路)
GO (基因本体)
描述基因之间的相互作用网络。回答“这个基因参与了什么生理过程”的问题。

NCBI:生物信息的“国会图书馆”

美国国立生物技术信息中心(NCBI)是全球最大的生物医学数据库集群。它不仅是一个数据库,而是一个由数十个相互关联的数据库组成的生态系统。

  • PubMed 全球医学生和生物学家的“搜索引擎”。收录了超过 3600 万篇生物医学文献摘要,是获取知识的第一站。
  • GenBank: 只要你测序得到一个新的基因序列,为了发表论文,你必须将其提交到 GenBank 并获得一个Accession Number(登录号)。
  • RefSeq: GenBank 里的数据良莠不齐(包括冗余和错误的提交),NCBI 官方整理了一套“去伪存真”的标准参考序列库,称为 RefSeq。
  • Blast: 这不是数据库,而是 NCBI 提供的比对工具。它允许你在数亿条序列中,瞬间找到与你手中序列相似的那一条。
       关键相关概念 [Key Concepts]
       

1. INSDC (国际核苷酸序列数据库合作组织): 由 NCBI (美国)、EMBL-EBI (欧洲) 和 DDBJ (日本) 组成的联盟。它们之间每天交换和同步数据。这意味着你向 DDBJ 提交的数据,第二天就能在 NCBI 查到。全球科研数据因此融为一体。

2. Accession Number (登录号): 生物数据的“身份证号”。例如 NM_000518 是人类 β-珠蛋白 mRNA 的 RefSeq 编号。只要有这个号码,就能在全球任何数据库中精确定位到该条目。

3. FASTA Format: 数据库中最通用的序列存储格式。以大于号 ">" 开头作为描述行,下一行紧接序列(ATCG...)。简单、纯文本,是生物信息学界的“通用语”。

       学术参考文献 [Academic Review]
       

[1] Nucleic Acids Research. (Annual). Database Issue. NAR.
[点评]:每年一月出版的专刊,是生物数据库领域的“黄页”。收录并更新了全球所有重要的生物数据库,是了解该领域最新进展的必读。

[2] UniProt Consortium. (2021). UniProt: the universal protein knowledgebase. Nucleic Acids Res.
[点评]:详细介绍了 UniProt 数据库的构建标准,如何整合 Swiss-Prot(人工注释,高质量)和 TrEMBL(自动注释,大数据)。

[3] NCBI Resource Coordinators. (2018). Database resources of the National Center for Biotechnology Information. Nucleic Acids Res.
[点评]:NCBI 的官方说明书。概括了 Entrez 系统的架构以及各大子数据库(GenBank, PubMed, dbSNP 等)的功能。

           生物信息学 · 知识图谱
上级分类 生物信息学 • 数据科学
三大支柱 NCBI (美) • EBI (欧) • DDBJ (日)
核心实例 GenBankPubMedClinVarUniProt