生物信息学

来自医学百科
120.244.141.225讨论2026年2月7日 (六) 19:58的版本

生物信息学(Bioinformatics)是一门高度交叉的学科,它结合了生物学、计算机科学、信息工程、数学和统计学,旨在开发用于存储、检索、组织和分析生物数据(特别是基因组序列和蛋白质结构)的方法和软件工具。
随着人类基因组计划(HGP)的完成和二代测序(NGS)技术的爆发,生物学已从传统的“观察科学”转变为数据密集型的“信息科学”。
生物信息学的核心任务是将海量的、碎片化的生物数据(如 A/T/C/G 序列)转化为有意义的生物学洞见(如致病机理、进化关系、药物靶点),是现代精准医学和新药研发的基石。

Bioinformatics
In Silico Biology (点击展开)
连接“代码”与“生命”的桥梁
学科档案
核心构成 生物 + 计算机 + 统计
实验类型 干实验 (Dry Lab)
主要数据 DNA/RNA 序列, 蛋白结构
核心数据库 NCBI (GenBank), PDB
常用工具栈
编程语言 Python, R, Linux Shell
比对算法 BLAST, BWA, Bowtie
变异分析 GATK, Mutect2
结构预测 AlphaFold

三大核心领域 (The Big Three)

生物信息学虽然包罗万象,但其核心工作流主要围绕着中心法则(DNA -> RNA -> Protein)展开。

组学 (Omics) 核心问题 典型分析任务
基因组学
(Genomics)
“我有什么?”
研究 DNA 序列本身及其变异。
序列组装 (Assembly)、变异检测 (Variant Calling, SNPs/Indels)、系统发育树构建。
转录组学
(Transcriptomics)
“我在做什么?”
研究基因的表达水平。
差异表达分析 (Differential Expression, DE)、单细胞测序聚类 (scRNA-seq)、通路富集 (GO/KEGG)。
蛋白质组学
(Proteomics)
“我长什么样?”
研究蛋白的结构与功能。
结构预测 (AlphaFold)、分子对接 (Docking)、蛋白质相互作用网络 (PPI)。

从数据到临床:NGS 分析流程

在临床诊断(如癌症、遗传病)中,生物信息学主要负责处理高通量测序(NGS)产生的原始数据。

  • 原始数据 (Raw Data): 测序仪产出的 .fastq 文件,包含数亿条短序列(Reads)及其质量评分。
  • 比对 (Alignment/Mapping): 将短序列像“拼图”一样比对到人类参考基因组(Reference Genome, 如 hg38)上,生成 .bam 文件。
  • 变异检出 (Variant Calling): 找出样本与参考基因组不同的位点,生成 .vcf 文件。
  • 注释与解读 (Annotation): 利用数据库(如 ClinVar, gnomAD)标记这些变异的临床意义(良性/致病),最终生成临床报告。
       关键相关概念 [Key Concepts]
       

1. Pipeline (分析流程): 生信分析通常不是单一软件完成的,而是将多个工具串联起来(如 QC -> Trim -> Map -> Call),形成自动化的工作流(Workflow),常用工具如 Nextflow, Snakemake。

2. Algorithm (算法): 生物信息学的核心。例如 动态规划(Dynamic Programming)用于序列比对,隐马尔可夫模型(HMM)用于基因预测,深度学习(Deep Learning)用于蛋白结构预测。

3. Databases (数据库): 生信的“粮仓”。包括一级数据库(存储原始数据,如 GenBank, SRA)和二级数据库(存储整理后的知识,如 UniProt, KEGG, OMIM)。

       学术参考文献 [Academic Review]
       

[1] Altschul SF, et al. (1990). Basic local alignment search tool (BLAST). J Mol Biol.
[点评]:史上引用率最高的生物学论文之一。BLAST 算法让海量序列的快速比对成为可能,是生物信息学的基石工具。

[2] Lander ES, et al. (2001). Initial sequencing and analysis of the human genome. Nature.
[点评]:人类基因组计划(HGP)草图发表。标志着生物学正式进入组学(Omics)和大数据时代。

[3] Jumper J, et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature.
[点评]:人工智能的胜利。解决了困扰生物学 50 年的“蛋白折叠问题”,证明了 AI 在生物信息学中的统治级潜力。

           计算生物学 · 知识图谱
上级分类 生物学计算机科学 • 交叉学科
技术驱动 NGS (测序) • AI (深度学习) • 云计算
应用场景 药物研发遗传咨询 • 进化分析