“BLAST”的版本间的差异

来自医学百科
(建立内容为“{{Infobox | bodystyle = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9; | abovestyle = backgro…”的新页面)
 
 
第64行: 第64行:
  
 
== 实际应用与 AI 结合 ==
 
== 实际应用与 AI 结合 ==
* '''本地化部署 (Local BLAST)''':出于患者隐私([[HIPAA]]/GCP 合规)考虑,您的“智慧医生”系统不应直接把患者序列传到 NCBI 的公网服务器。您需要在公司内部服务器搭建 '''Local BLAST+''',并在内网运行比对。
+
* '''本地化部署 (Local BLAST)''':出于患者隐私([[HIPAA]]/GCP 合规)考虑,您的“智慧医生”系统不应直接把患者序列传到 NCBI 的公网服务器。您需要在公司内部服务器搭建 '''Local BLAST+''',并在内网运行比对。<ref name="NCBI_BLAST_Help" />
 
* '''特征工程''':在训练基因组大模型时,BLAST 的比对结果(如一致性百分比、覆盖度)是极其重要的特征输入(Feature Engineering),可以帮助 AI 判断一个变异是否会导致功能丧失。
 
* '''特征工程''':在训练基因组大模型时,BLAST 的比对结果(如一致性百分比、覆盖度)是极其重要的特征输入(Feature Engineering),可以帮助 AI 判断一个变异是否会导致功能丧失。
  

2025年12月23日 (二) 17:44的最新版本

BLAST
Basic Local Alignment Search Tool
全称 Basic Local Alignment Search Tool
开发者 Altschul, Gish, Miller,
Myers, Lipman (1990)
维护机构 NCBI
核心算法 启发式局部比对算法
统计指标 E-value (期望值)
常见变体 blastn, blastp, blastx
对AI价值 基因特征提取、
序列相似性计算

BLAST英文名:Basic Local Alignment Search Tool,即“基本局部比对搜索工具”),是一套在生物信息学领域使用最广泛的算法和程序,用于比较初级生物序列信息(如蛋白质的氨基酸序列或 DNA 的核苷酸序列)。

BLAST 被誉为生物学界的“Google”。它可以让研究人员输入一段未知的序列(Query),然后在巨大的数据库(如 GenBank)中迅速找到与之相似的已知序列(Subject)。对于您的“基因医生”项目,它是确认患者基因突变位点最基础的工具。[1]

核心原理[编辑 | 编辑源代码]

与“全局比对”(Global Alignment,如 Needleman-Wunsch 算法)试图从头到尾对齐两条序列不同,BLAST 采用局部比对(Local Alignment)策略:

  • 种子延伸法:它先寻找短的、完全匹配的片段(称为“种子”或 Word),然后向两端延伸,直到相似度下降到阈值以下。
  • 优势:这种启发式算法比全局比对快几个数量级,使其能够处理 GenBank 这种 PB 级别的数据量。

五大核心变体 (技术选型指南)[编辑 | 编辑源代码]

您的 AI 团队在编写自动分析流程(Pipeline)时,必须根据数据类型选择正确的程序:

程序名 查询序列 (Input) 目标数据库 典型应用场景
blastn 核苷酸 (DNA/RNA) 核苷酸 寻找同源基因、映射引物位置
blastp 蛋白质 蛋白质 寻找功能相似的蛋白、药物靶点分析
blastx 核苷酸 (翻译后) 蛋白质 最常用:分析未知 DNA 片段可能编码什么蛋白
tblastn 蛋白质 核苷酸 (翻译后) 在未注释的基因组中寻找新基因
tblastx 核苷酸 (翻译后) 核苷酸 (翻译后) 远缘物种间的深度同源性分析

关键统计指标:E-value[编辑 | 编辑源代码]

这是解读 BLAST 结果的灵魂。

  • 定义:E-value (Expect Value) 表示在随机情况下,在这么大的数据库中找到得分如此高的匹配结果的期望次数
  • 解读规则
    • 越小越好:E-value 越接近 0,说明匹配越不可能是巧合(即具有真实的生物学意义)。
    • 阈值:通常 E-value < $10^{-5}$ 被认为有统计学意义;在“基因医生”的临床诊断中,通常要求 E-value 接近 0(如 $10^{-100}$)。

实际应用与 AI 结合[编辑 | 编辑源代码]

  • 本地化部署 (Local BLAST):出于患者隐私(HIPAA/GCP 合规)考虑,您的“智慧医生”系统不应直接把患者序列传到 NCBI 的公网服务器。您需要在公司内部服务器搭建 Local BLAST+,并在内网运行比对。[2]
  • 特征工程:在训练基因组大模型时,BLAST 的比对结果(如一致性百分比、覆盖度)是极其重要的特征输入(Feature Engineering),可以帮助 AI 判断一个变异是否会导致功能丧失。

参见[编辑 | 编辑源代码]

参考资料[编辑 | 编辑源代码]

  1. Altschul, S. F., Gish, W., Miller, W., Myers, E. W., & Lipman, D. J. (1990). Basic local alignment search tool. Journal of Molecular Biology, 215(3), 403-410.
  2. NCBI. (2023). BLAST® Command Line Applications User Manual. [1]