“生物信息学”的版本间的差异

来自医学百科
(建立内容为“{{Infobox | bodystyle = width: 300px; float: right; clear: right; margin: 0 0 1em 1em; border: 1px solid #a2a9b1; background: #f9f9f9; | abovestyle = backgro…”的新页面)
 
第18行: 第18行:
  
 
| label4      = 主要应用
 
| label4      = 主要应用
| data4        = [[基因组学]]、[[药物设计]]、<br>[[个性化医疗]]、[[系统生物学]]
+
| data4        = [[基因组学]]、[[药物设计]]、<br>[[精准医疗]]、[[系统生物学]]
  
 
| label5      = 常用工具
 
| label5      = 常用工具
第27行: 第27行:
 
}}
 
}}
  
'''生物信息学'''({{lang-en|Bioinformatics}})是一门利用[[计算机科学]]、[[统计学]]和[[数学]]的方法来分析和解释生物学数据(特别是分子生物学数据)的[[交叉学科]]
+
'''生物信息学'''({{lang-en|Bioinformatics}})是一门利用[[计算机科学]]、[[统计学]]和[[数学]]的方法来分析和解释生物学数据(特别是分子生物学数据)的[[交叉学科]]。它致力于开发算法和软件工具,以从大规模复杂的生物数据中提取知识。
  
随着[[高通量测序]](NGS)技术的发展,生物数据呈爆炸式增长。生物信息学已成为现代生物学和医学研究中不可或缺的一部分,尤其在[[精准医疗]]、新药研发和[[合成生物学]]领域发挥着关键作用。
+
该学科是现代生物学和医学研究的核心支柱,特别是在[[人类基因组计划]]完成后,海量数据的解读需求使得生物信息学成为[[精准医疗]]和新药研发的关键驱动力。<ref name="Mount2004">{{cite book |last=Mount |first=David W. |title=Bioinformatics: Sequence and Genome Analysis |publisher=Cold Spring Harbor Laboratory Press |year=2004 |isbn=978-0-87969-712-9 |edition=2nd}}</ref>
  
 
== 定义与范畴 ==
 
== 定义与范畴 ==
生物信息学的核心目标是通过计算手段揭示生物学奥秘。它主要包括以下三个层面的研究:
+
生物信息学的研究范畴主要包括三个层面:
# '''数据管理''':开发数据库和算法以存储、检索和组织海量的生物数据(如[[GenBank]]、[[UniProt]])。
+
# '''数据管理''':建立数据库以存储、检索和组织海量的生物数据(如[[GenBank]]、[[UniProt]])。
# '''数据分析''':利用统计学和机器学习方法挖掘数据中的生物学意义(如差异表达分析、变异检测)。
+
# '''数据分析''':利用计算方法挖掘数据中的生物学意义(如差异表达分析、变异检测)。
# '''工具开发''':编写软件和管道(Pipeline)以自动化处理复杂的生物学问题。
+
# '''工具开发''':编写软件和管道(Pipeline)以自动化处理生物学问题。
  
 
== 主要研究领域 ==
 
== 主要研究领域 ==
 
=== 序列分析 ===
 
=== 序列分析 ===
这是生物信息学最基础的内容。通过序列比对(Sequence Alignment)算法(如[[BLAST]]),研究人员可以比较不同物种的[[DNA]]、[[RNA]]或[[蛋白质]]序列,从而推断进化关系或预测基因功能。
+
这是生物信息学的基础。通过序列比对(Sequence Alignment)算法(如[[BLAST]]),研究人员比较不同物种的[[DNA]]、[[RNA]]或[[蛋白质]]序列,推断进化关系或预测基因功能。2001年人类基因组草图的发布是序列分析史上的里程碑。<ref name="Lander2001">{{cite journal |last1=Lander |first1=ES |display-authors=etal |title=Initial sequencing and analysis of the human genome |journal=[[Nature]] |date=2001 |volume=409 |issue=6822 |pages=860–921 |doi=10.1038/35057062}}</ref>
  
 
=== 结构生物信息学 ===
 
=== 结构生物信息学 ===
致力于预测蛋白质和核酸的三维结构。近年来,基于深度学习的工具(如DeepMind开发的'''[[AlphaFold]]''')在该领域取得了革命性突破,能够高精度地从氨基酸序列预测蛋白质结构。
+
致力于预测生物大分子的三维结构。传统的X射线晶体衍射耗时耗力,而计算方法带来了革命性突破。2021年,DeepMind发布的基于深度学习的'''[[AlphaFold]]'''能够以原子级精度从氨基酸序列预测蛋白质结构,解决了困扰生物学界50年的难题。<ref name="AlphaFold2021">{{cite journal |last1=Jumper |first1=J |last2=Evans |first2=R |last3=Pritzel |first3=A |display-authors=etal |title=Highly accurate protein structure prediction with AlphaFold |journal=[[Nature]] |date=2021 |volume=596 |issue=7873 |pages=583–589 |doi=10.1038/s41586-021-03819-2}}</ref>
  
 
=== 基因组学与转录组学 ===
 
=== 基因组学与转录组学 ===
* '''[[基因组学]]''':组装和注释基因组,寻找疾病相关的单核苷酸多态性([[SNP]])和结构变异(SV)。
+
* '''[[基因组学]]''':组装基因组,寻找疾病相关的单核苷酸多态性([[SNP]])和结构变异(SV)。
* '''[[转录组学]]''':分析[[RNA测序]](RNA-Seq)数据,研究基因在不同状态下的表达水平。
+
* '''[[转录组学]]''':利用[[RNA测序]](RNA-Seq)技术,分析基因在特定生理或病理状态下的表达水平变化。
  
=== 网络与系统生物学 ===
+
== 在医学中的应用 ==
不仅仅关注单个基因,而是研究基因、蛋白质和代谢物之间的相互作用网络(Interactions Network),试图从整体层面理解生物系统的行为。
+
=== 临床生物信息学与精准医疗 ===
 +
生物信息学是将基因组数据转化为临床决策的桥梁。通过分析患者的遗传背景,医生可以实现“量体裁衣”式的治疗。这在罕见遗传病诊断和药物基因组学中尤为重要。<ref name="ReviewMed">{{cite journal |last1=Duffy |first1=DJ |title=Problems, challenges and promises: perspectives on precision medicine and bioinformatics |journal=Briefings in Bioinformatics |date=2016 |volume=17 |issue=3 |pages=494–504 |doi=10.1093/bib/bbv060}}</ref>
  
== 在医学中的应用 ==
+
=== 肿瘤生物信息学 ===
=== 临床生物信息学 ===
+
在癌症研究中,生物信息学被用于识别驱动突变(Driver Mutations)和肿瘤微环境特征。例如,基于[[TCGA]](癌症基因组图谱)的大规模泛癌种分析揭示了不同器官肿瘤之间共享的分子特征,重新定义了癌症的分子分类。<ref name="CancerBioinfo">{{cite journal |last1=Hoadley |first1=KA |last2=Yau |first2=C |display-authors=etal |title=Cell-of-Origin Patterns Dominate the Molecular Classification of 10,000 Tumors from 33 Types of Cancer |journal=Cell |date=2018 |volume=173 |issue=2 |pages=291–304 |doi=10.1016/j.cell.2018.03.022}}</ref>
在临床诊断中,生物信息学流程被用于分析患者的遗传数据,以辅助诊断罕见遗传病或指导癌症治疗(例如检测[[EGFR]]或[[KRAS]]突变以选择靶向药物)。
 
  
 
=== 药物发现 ===
 
=== 药物发现 ===
* '''计算机辅助药物设计'''(CADD):利用分子对接(Molecular Docking)模拟药物分子与靶点蛋白的结合。
+
* '''计算机辅助药物设计'''(CADD):模拟药物分子与靶点的结合。
* '''AI制药''':利用[[大型语言模型]](LLM)和生成式AI模型生成全新的药物分子结构。
+
* '''AI制药''':利用[[大型语言模型]](LLM)生成全新的药物分子结构,显著缩短研发周期。
  
== 常用数据库与工具 ==
+
== 常用工具与数据库 ==
* '''数据库''':
+
* '''数据库''':[[NCBI]] (GenBank, PubMed), [[EBI]], [[PDB]] (蛋白质结构), [[TCGA]] (癌症数据)。
** [[NCBI]](美国国家生物技术信息中心)
 
** [[EBI]](欧洲生物信息学研究所)
 
** [[PDB]](蛋白质数据库)
 
** [[TCGA]](癌症基因组图谱)
 
 
* '''编程语言''':[[Python]] (Biopython), [[R语言]] (Bioconductor), [[Linux]] Shell。
 
* '''编程语言''':[[Python]] (Biopython), [[R语言]] (Bioconductor), [[Linux]] Shell。
 +
* '''工作流管理''':Snakemake, Nextflow。
  
 
== 参见 ==
 
== 参见 ==
第71行: 第68行:
 
* [[医学信息学]]
 
* [[医学信息学]]
 
* [[人工智能]]
 
* [[人工智能]]
* [[人类基因组计划]]
+
* [[系统生物学]]
  
 
== 参考资料 ==
 
== 参考资料 ==
第79行: 第76行:
 
[[Category:计算机科学]]
 
[[Category:计算机科学]]
 
[[Category:生物信息学]]
 
[[Category:生物信息学]]
 +
[[Category:计算科学]]

2025年12月23日 (二) 15:38的版本

生物信息学
英文名:Bioinformatics
学科类型 交叉学科
涉及领域 生物学计算机科学
统计学数学信息工程
核心对象 DNARNA蛋白质
主要应用 基因组学药物设计
精准医疗系统生物学
常用工具 BLAST、Bioconductor、
AlphaFold、GATK
早期先驱 玛格丽特·戴霍夫 (Margaret Dayhoff)

生物信息学英文名:Bioinformatics)是一门利用计算机科学统计学数学的方法来分析和解释生物学数据(特别是分子生物学数据)的交叉学科。它致力于开发算法和软件工具,以从大规模复杂的生物数据中提取知识。

该学科是现代生物学和医学研究的核心支柱,特别是在人类基因组计划完成后,海量数据的解读需求使得生物信息学成为精准医疗和新药研发的关键驱动力。[1]

定义与范畴

生物信息学的研究范畴主要包括三个层面:

  1. 数据管理:建立数据库以存储、检索和组织海量的生物数据(如GenBankUniProt)。
  2. 数据分析:利用计算方法挖掘数据中的生物学意义(如差异表达分析、变异检测)。
  3. 工具开发:编写软件和管道(Pipeline)以自动化处理生物学问题。

主要研究领域

序列分析

这是生物信息学的基础。通过序列比对(Sequence Alignment)算法(如BLAST),研究人员比较不同物种的DNARNA蛋白质序列,推断进化关系或预测基因功能。2001年人类基因组草图的发布是序列分析史上的里程碑。[2]

结构生物信息学

致力于预测生物大分子的三维结构。传统的X射线晶体衍射耗时耗力,而计算方法带来了革命性突破。2021年,DeepMind发布的基于深度学习的AlphaFold能够以原子级精度从氨基酸序列预测蛋白质结构,解决了困扰生物学界50年的难题。[3]

基因组学与转录组学

  • 基因组学:组装基因组,寻找疾病相关的单核苷酸多态性(SNP)和结构变异(SV)。
  • 转录组学:利用RNA测序(RNA-Seq)技术,分析基因在特定生理或病理状态下的表达水平变化。

在医学中的应用

临床生物信息学与精准医疗

生物信息学是将基因组数据转化为临床决策的桥梁。通过分析患者的遗传背景,医生可以实现“量体裁衣”式的治疗。这在罕见遗传病诊断和药物基因组学中尤为重要。[4]

肿瘤生物信息学

在癌症研究中,生物信息学被用于识别驱动突变(Driver Mutations)和肿瘤微环境特征。例如,基于TCGA(癌症基因组图谱)的大规模泛癌种分析揭示了不同器官肿瘤之间共享的分子特征,重新定义了癌症的分子分类。[5]

药物发现

  • 计算机辅助药物设计(CADD):模拟药物分子与靶点的结合。
  • AI制药:利用大型语言模型(LLM)生成全新的药物分子结构,显著缩短研发周期。

常用工具与数据库

  • 数据库NCBI (GenBank, PubMed), EBI, PDB (蛋白质结构), TCGA (癌症数据)。
  • 编程语言Python (Biopython), R语言 (Bioconductor), Linux Shell。
  • 工作流管理:Snakemake, Nextflow。

参见

参考资料

  1. Bioinformatics: Sequence and Genome Analysis. Cold Spring Harbor Laboratory Press, 2004.
  2. Lander, ES.&#32;Initial sequencing and analysis of the human genome.&#32;Nature.&#32;2001,&#32;409&#32;(6822):&#32;860–921.&#32;Error: Bad DOI specified模板:Namespace detect showall.&nbsp;
  3. Jumper, J表达式错误:无法识别的词语“etal”。.&#32;Highly accurate protein structure prediction with AlphaFold.&#32;Nature.&#32;2021,&#32;596&#32;(7873):&#32;583–589.&#32;Error: Bad DOI specified模板:Namespace detect showall.&nbsp;
  4. Duffy, DJ.&#32;Problems, challenges and promises: perspectives on precision medicine and bioinformatics.&#32;Briefings in Bioinformatics.&#32;2016,&#32;17&#32;(3):&#32;494–504.&#32;Error: Bad DOI specified模板:Namespace detect showall.&nbsp;
  5. Hoadley, KA表达式错误:无法识别的词语“etal”。.&#32;Cell-of-Origin Patterns Dominate the Molecular Classification of 10,000 Tumors from 33 Types of Cancer.&#32;Cell.&#32;2018,&#32;173&#32;(2):&#32;291–304.&#32;Error: Bad DOI specified模板:Namespace detect showall.&nbsp;