RefSeq

来自医学百科
77921020讨论 | 贡献2025年12月23日 (二) 17:52的版本 (建立内容为“{{Infobox | bodystyle = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9; | abovestyle = backgro…”的新页面)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)
参考序列数据库
RefSeq
全称 NCBI Reference Sequence Database
维护机构 NCBI
核心特征 非冗余 (Non-redundant)、
经过人工审编 (Curated)
核心用途 基因组注释、变异检测标准、
引物设计
典型前缀 NM_ (mRNA), NP_ (蛋白),
NG_ (基因组)
对AI价值 标准化的训练基准 (Ground Truth)

RefSeq(Reference Sequence Database),即NCBI 参考序列数据库,是一个由美国国家生物技术信息中心(NCBI)维护的公开数据库。它提供了一套全面的、整合的、经过注释的非冗余序列集合,涵盖了 DNA、RNA 和蛋白质。

在生物医学界,RefSeq 被视为“金标准”。当您的“基因医生”系统告诉患者“您的 P53 基因发生了突变”时,潜台词实际上是:“您的 P53 基因序列与 RefSeq 中的标准序列(如 `NM_000546`)不一致”。[1]

核心前缀体系 (AI必须识别的编码)[编辑 | 编辑源代码]

RefSeq 使用独特的前缀系统来区分不同的分子类型。您的 AI 数据清洗脚本必须能够精准识别这些 ID:

前缀 分子类型 含义 您的业务场景
NM_ mRNA 经过实验验证的转录本 最核心。临床报告中描述 cDNA 突变(如 c.524G>A)必须基于 NM 编号。
NP_ 蛋白质 对应的蛋白序列 用于描述氨基酸层面的改变(如 p.R175H)。
NG_ 基因组 基因组区域 用于描述跨越内含子的大片段缺失或扩增(CNV)。
XM_ / XP_ mRNA/蛋白 模型预测 (未验证) 慎用。这些是计算机算出来的,未经人工确认,临床准确度较低。

RefSeq 与 GenBank 的区别[编辑 | 编辑源代码]

这是构建数据库时的核心架构问题:

  • GenBank (存档库)
    • 多余性:如果有 100 个实验室测了同一个胰腺癌基因,GenBank 里就会有 100 条记录(良莠不齐)。
    • 所有权:记录属于提交者,NCBI 无权修改错误,只能等作者改。
  • RefSeq (标准库)
    • 非冗余:NCBI 专家从那 100 条里挑出(或合成)最好的一条,作为“标准答案”。
    • 所有权:归 NCBI 所有,专家会根据最新科研进展实时修正注释。
    • 结论:您的 AI 训练集输入可以包含 GenBank 以增加多样性,但输出标准(Ground Truth)必须是 RefSeq

MANE 项目 (临床新标准)[编辑 | 编辑源代码]

对于您的“智慧医生”项目,这是一个非常高端的知识点。

  • 问题:过去,美国的 NCBI (RefSeq) 和欧洲的 EBI (Ensembl) 对同一个基因的定义有时不一样(比如外显子长度不同),导致跨国临床数据打架。
  • 解决方案MANE (Matched Annotation from NCBI and EMBL-EBI)。这是一套美欧统一的“超级标准”。
  • 建议:在您的临床报告中,优先引用 MANE Select 转录本,这是目前国际遗传学界推荐的最佳实践。

对 AI 药物研发的价值[编辑 | 编辑源代码]

  • 靶点确认:在设计针对特定蛋白(如 KRAS G12D)的药物时,必须依据 RefSeq 的 `NP_` 序列来构建蛋白质三维结构模型(AlphaFold 通常也是基于参考序列预测)。
  • 脱靶分析:使用 BLAST 将药物设计的序列(如 siRNA)与 RefSeq 全库比对,以确保它不会意外结合到其他重要的正常基因上。

参见[编辑 | 编辑源代码]

参考资料[编辑 | 编辑源代码]

  1. O'Leary, N. A., et al. (2016). Reference sequence (RefSeq) database at NCBI: current status, taxonomic expansion, and functional annotation. Nucleic Acids Research, 44(D1), D733-D745. [1]