生物医学数据库
生物医学数据库(Biomedical Databases)是现代生命科学研究的“数字基础设施”。它们是系统化存储、组织和检索生物学数据(如 DNA 序列、蛋白质结构、临床变异、科学文献)的电子仓库。
随着高通量测序(NGS)技术的爆发,生物数据呈指数级增长,单一实验室无法独立管理。因此,形成了以美国的 NCBI、欧洲的 EBI 和日本的 DDBJ 为核心的全球数据共享网络。这些数据库不仅是科研人员查询基因功能(如 GenBank, UniProt)的工具,更是临床医生解读遗传病变异(如 ClinVar, gnomAD)的决策依据。每年一月的《Nucleic Acids Research》杂志都会发布全球生物数据库的年度特刊,目前收录的数据库已数以千计。
四大象限:生物数据的分类学
生物医学数据库繁多,通常根据存储数据的类型分为四大核心类别。
| 类别 | 代表数据库 | 核心功能 |
|---|---|---|
| 序列数据库 (Sequence) | GenBank (DNA) UniProt (蛋白) |
最基础的数据库。存储基因和蛋白质的线性序列信息(ATCG / 氨基酸)。 |
| 结构数据库 (Structure) | PDB (Protein Data Bank) | 存储蛋白质、DNA/RNA 的三维晶体结构(X-ray/冷冻电镜数据)。是药物设计的基础。 |
| 变异数据库 (Variation) | dbSNP (多态性) ClinVar (致病性) gnomAD (人群频率) |
连接“序列”与“疾病”。告诉我们某个位点的突变是“正常的”还是“致病的”。 |
| 功能与通路 (Pathway) | KEGG (代谢通路) GO (基因本体) |
描述基因之间的相互作用网络。回答“这个基因参与了什么生理过程”的问题。 |
NCBI:生物信息的“国会图书馆”
美国国立生物技术信息中心(NCBI)是全球最大的生物医学数据库集群。它不仅是一个数据库,而是一个由数十个相互关联的数据库组成的生态系统。
- PubMed: 全球医学生和生物学家的“搜索引擎”。收录了超过 3600 万篇生物医学文献摘要,是获取知识的第一站。
- GenBank: 只要你测序得到一个新的基因序列,为了发表论文,你必须将其提交到 GenBank 并获得一个Accession Number(登录号)。
- RefSeq: GenBank 里的数据良莠不齐(包括冗余和错误的提交),NCBI 官方整理了一套“去伪存真”的标准参考序列库,称为 RefSeq。
- Blast: 这不是数据库,而是 NCBI 提供的比对工具。它允许你在数亿条序列中,瞬间找到与你手中序列相似的那一条。
关键相关概念 [Key Concepts]
1. INSDC (国际核苷酸序列数据库合作组织): 由 NCBI (美国)、EMBL-EBI (欧洲) 和 DDBJ (日本) 组成的联盟。它们之间每天交换和同步数据。这意味着你向 DDBJ 提交的数据,第二天就能在 NCBI 查到。全球科研数据因此融为一体。
2. Accession Number (登录号): 生物数据的“身份证号”。例如 NM_000518 是人类 β-珠蛋白 mRNA 的 RefSeq 编号。只要有这个号码,就能在全球任何数据库中精确定位到该条目。
3. FASTA Format: 数据库中最通用的序列存储格式。以大于号 ">" 开头作为描述行,下一行紧接序列(ATCG...)。简单、纯文本,是生物信息学界的“通用语”。
学术参考文献 [Academic Review]
[1] Nucleic Acids Research. (Annual). Database Issue. NAR.
[点评]:每年一月出版的专刊,是生物数据库领域的“黄页”。收录并更新了全球所有重要的生物数据库,是了解该领域最新进展的必读。
[2] UniProt Consortium. (2021). UniProt: the universal protein knowledgebase. Nucleic Acids Res.
[点评]:详细介绍了 UniProt 数据库的构建标准,如何整合 Swiss-Prot(人工注释,高质量)和 TrEMBL(自动注释,大数据)。
[3] NCBI Resource Coordinators. (2018). Database resources of the National Center for Biotechnology Information. Nucleic Acids Res.
[点评]:NCBI 的官方说明书。概括了 Entrez 系统的架构以及各大子数据库(GenBank, PubMed, dbSNP 等)的功能。