Bioinformatics

来自医学百科
77921020讨论 | 贡献2026年2月3日 (二) 09:22的版本 (建立内容为“<div style="padding: 0 4%; line-height: 1.8; color: #1e293b; font-family: 'Helvetica Neue', Helvetica, 'PingFang SC', Arial, sans-serif; background-color: #ffffff…”的新页面)
(差异) ←上一版本 | 最后版本 (差异) | 下一版本→ (差异)

Bioinformatics(生物信息学)是一门结合了生物学 (Biology)计算机科学 (Computer Science)数学与统计学 (Statistics) 的交叉学科。其核心任务是开发算法和软件工具,以存储、检索、组织和分析海量的生物数据(如 DNA 序列、蛋白质结构)。随着 NGS (二代测序) 技术的普及,生物数据呈指数级增长,生物信息学已成为现代生命科学的“操作系统”。它不仅用于基因组组装和注释,还通过 Machine Learning (机器学习) 技术(如 AlphaFold)在蛋白质结构预测、药物辅助设计以及 Precision Medicine (精准医疗) 中发挥着决定性作用。

Bioinformatics
Biological Data Science (点击展开)
解码生命的数字工具
学科参数
中文名称 生物信息学
学科性质 交叉学科 (Interdisciplinary)
核心数据 Sequence, Structure, Expression
编程语言 Python, R, Perl, C++
关键工具库
序列比对 BLAST, ClustalW
数据库 GenBank, UniProt, PDB
AI 模型 AlphaFold
常用平台 Bioconductor, Galaxy

核心流程:从数据到知识

生物信息学的工作流通常遵循“In Silico” (计算机模拟) 的路径,将湿实验产生的数据转化为生物学见解:

1. 序列比对 (Sequence Alignment)

这是生物信息学最基础的操作。通过 BLAST 等算法,将未知的 DNA 或蛋白质序列与数据库中的已知序列进行比对,从而推断其功能、同源性及进化关系。

2. 组装与注释 (Assembly & Annotation)

组装: 测序仪产生的只是数百万个短片段 (Reads),算法(如 de Bruijn Graph)负责将其拼装成完整的基因组。
注释: 标记出基因组中哪些片段是基因、哪些是调控元件。

对比:湿实验 vs. 干实验

维度 Wet Lab (湿实验) Dry Lab (干实验 / 生信)
核心工具 移液枪、离心机、培养皿 服务器、Linux 终端、Python/R
处理对象 生物样本 (血液、组织、细菌) 数字化数据 (FASTQ, BAM, PDB)
成本构成 试剂耗材 (昂贵且消耗性) 计算算力、存储、人力
典型产出 原始测序数据、显微图像 变异列表 (VCF)、进化树、3D结构

前沿突破:结构生物信息学

长期以来,预测蛋白质的 3D 结构是生物学的“圣杯”。
AlphaFold 的出现彻底改变了这一领域。它利用深度学习算法,仅根据氨基酸序列就能以原子级精度预测蛋白质结构,解决了困扰科学界 50 年的“蛋白质折叠问题”。这极大加速了新药研发和对致病机理的理解。

       学术参考文献 [Academic Review]
       

[1] Altschul SF, et al. (1990). Basic local alignment search tool. Journal of Molecular Biology.
[点评]:BLAST 算法的奠基之作,是生物信息学史上引用率最高的论文之一,确立了序列比对的标准。

[2] Jumper J, et al. (2021). Highly accurate protein structure prediction with AlphaFold. Nature.
[点评]:DeepMind 团队关于 AlphaFold 的重磅论文,标志着 AI 在生物学领域的历史性突破。

[3] Lander ES. (2011). Initial impact of the sequencing of the human genome. Nature.
[点评]:回顾了人类基因组计划后十年间,生物信息学如何推动了基因组学从测序走向功能解析。

           计算生物学体系 · 知识图谱
核心数据库 NCBI (GenBank) • EBI (Ensembl) • PDB (结构)
常用格式 FASTAFASTQ (测序) • BAM/SAM (比对) • VCF (变异)
应用方向 Phylogenetics (进化树) • Metagenomics (宏基因组) • Drug Design