生物信息学

来自医学百科
77921020讨论 | 贡献2025年12月23日 (二) 15:38的版本
生物信息学
英文名:Bioinformatics
学科类型 交叉学科
涉及领域 生物学计算机科学
统计学数学信息工程
核心对象 DNARNA蛋白质
主要应用 基因组学药物设计
精准医疗系统生物学
常用工具 BLAST、Bioconductor、
AlphaFold、GATK
早期先驱 玛格丽特·戴霍夫 (Margaret Dayhoff)

生物信息学英文名:Bioinformatics)是一门利用计算机科学统计学数学的方法来分析和解释生物学数据(特别是分子生物学数据)的交叉学科。它致力于开发算法和软件工具,以从大规模复杂的生物数据中提取知识。

该学科是现代生物学和医学研究的核心支柱,特别是在人类基因组计划完成后,海量数据的解读需求使得生物信息学成为精准医疗和新药研发的关键驱动力。[1]

定义与范畴

生物信息学的研究范畴主要包括三个层面:

  1. 数据管理:建立数据库以存储、检索和组织海量的生物数据(如GenBankUniProt)。
  2. 数据分析:利用计算方法挖掘数据中的生物学意义(如差异表达分析、变异检测)。
  3. 工具开发:编写软件和管道(Pipeline)以自动化处理生物学问题。

主要研究领域

序列分析

这是生物信息学的基础。通过序列比对(Sequence Alignment)算法(如BLAST),研究人员比较不同物种的DNARNA蛋白质序列,推断进化关系或预测基因功能。2001年人类基因组草图的发布是序列分析史上的里程碑。[2]

结构生物信息学

致力于预测生物大分子的三维结构。传统的X射线晶体衍射耗时耗力,而计算方法带来了革命性突破。2021年,DeepMind发布的基于深度学习的AlphaFold能够以原子级精度从氨基酸序列预测蛋白质结构,解决了困扰生物学界50年的难题。[3]

基因组学与转录组学

  • 基因组学:组装基因组,寻找疾病相关的单核苷酸多态性(SNP)和结构变异(SV)。
  • 转录组学:利用RNA测序(RNA-Seq)技术,分析基因在特定生理或病理状态下的表达水平变化。

在医学中的应用

临床生物信息学与精准医疗

生物信息学是将基因组数据转化为临床决策的桥梁。通过分析患者的遗传背景,医生可以实现“量体裁衣”式的治疗。这在罕见遗传病诊断和药物基因组学中尤为重要。[4]

肿瘤生物信息学

在癌症研究中,生物信息学被用于识别驱动突变(Driver Mutations)和肿瘤微环境特征。例如,基于TCGA(癌症基因组图谱)的大规模泛癌种分析揭示了不同器官肿瘤之间共享的分子特征,重新定义了癌症的分子分类。[5]

药物发现

  • 计算机辅助药物设计(CADD):模拟药物分子与靶点的结合。
  • AI制药:利用大型语言模型(LLM)生成全新的药物分子结构,显著缩短研发周期。

常用工具与数据库

  • 数据库NCBI (GenBank, PubMed), EBI, PDB (蛋白质结构), TCGA (癌症数据)。
  • 编程语言Python (Biopython), R语言 (Bioconductor), Linux Shell。
  • 工作流管理:Snakemake, Nextflow。

参见

参考资料

  1. Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press, 2004.
  2. Lander, ES. Initial sequencing and analysis of the human genome. Nature. 2001, 409 (6822): 860–921. Error: Bad DOI specified模板:Namespace detect showall. 
  3. Jumper, J表达式错误:无法识别的词语“etal”。. Highly accurate protein structure prediction with AlphaFold. Nature. 2021, 596 (7873): 583–589. Error: Bad DOI specified模板:Namespace detect showall. 
  4. Duffy, DJ. Problems, challenges and promises: perspectives on precision medicine and bioinformatics. Briefings in Bioinformatics. 2016, 17 (3): 494–504. Error: Bad DOI specified模板:Namespace detect showall. 
  5. Hoadley, KA表达式错误:无法识别的词语“etal”。. Cell-of-Origin Patterns Dominate the Molecular Classification of 10,000 Tumors from 33 Types of Cancer. Cell. 2018, 173 (2): 291–304. Error: Bad DOI specified模板:Namespace detect showall.