基因测序

来自医学百科

基因测序(DNA Sequencing)是测定 DNARNA 分子中核苷酸(腺嘌呤 A、胸腺嘧啶 T、胞嘧啶 C、鸟嘌呤 G)精确排列顺序的实验室技术。作为现代 分子生物学基因组学 的绝对底层基建,基因测序技术经历了从第一代 Sanger 测序(低通量、高精度),到第二代 NGS 高通量测序(海量并行、短读长),再到第三代单分子测序(超长读长、无扩增偏倚)的颠覆性演进。2003 年完成的 人类基因组计划 耗资 30 亿美元历时 13 年才破译了一个人类基因组,而今天的 NGS 技术只需数小时、几百美元即可完成同等工作。在现代 临床病理学精准医学 中,基因测序是不可或缺的“雷达”。它被广泛应用于 NIPT 以筛查胎儿染色体异常,在 肿瘤学 中用于寻找诸如 EGFR突变BRAF V600E突变 以指导 靶向治疗,并在极高维度上推动了 单细胞测序宏基因组学 的爆发式发展。

DNA Sequencing
Genomic Decoding Technology
高通量测序 (NGS) 核心工作流
核心输出数据 核苷酸序列 (A, T, C, G)
第一代技术 桑格测序 (双脱氧链终止)
第二代技术 (NGS) SBS (Illumina 等)
第三代技术 单分子实时 / 纳米孔测序
临床诊断金标准 WES / 靶向基因 Panel
数据解析支撑 生物信息学 (Bioinformatics)

技术迭代:从链终止到单分子微观读取

基因测序技术的演进是人类工程学与分子生物学结合的巅峰,其核心机制经历了三次根本性的革命:


  • 第一代(Sanger 测序):双脱氧链终止法。 弗雷德里克·桑格 的天才设计。在 PCR 扩增时,掺入缺少 3'-OH 羟基的特殊双脱氧核苷酸(ddNTPs)。一旦聚合酶连上 ddNTP,DNA 链的延伸就会强行终止。通过收集各种长度不一、末端带有特定荧光标记的片段,并使用毛细管电泳按长度排序,即可像读条形码一样读出序列。其准确率极高(金标准),但通量极低。
  • 第二代(NGS 高通量测序):边合成边测序 (SBS)。 以 Illumina 平台为代表。首先将长链 DNA 打碎成数千万个短片段(构建 文库),固定在流动槽(Flow cell)的玻璃芯片上进行桥式扩增,形成簇(Cluster)。随后加入带有荧光标记且被化学基团暂时封闭的游离碱基。每次聚合酶连上一个碱基,机器就拍照记录荧光颜色(判读 A/T/C/G),然后切除封闭基团继续下一个。数千万个簇同时“发光拍照”,实现了通量的指数级爆炸。
  • 第三代(单分子长读长测序):跨越 PCR 偏倚。 包含 PacBio 的 SMRT 技术和 Oxford Nanopore (纳米孔) 技术。纳米孔测序直接将单根未扩增的 DNA 长链拉过具有电压的生物蛋白孔,不同碱基通过时产生的微安级电流阻滞波形不同,以此直接解码。它能够读取长达数十万碱基的序列,完美解决了 NGS 无法拼接复杂 串联重复序列 的难题。

临床病理:重塑现代疾病诊断体系

临床应用场景 测序策略与检测靶点 医学影响与干预手段
肿瘤伴随诊断
(Companion Diagnostics)
通过靶向基因 Panel(如包含 500 个癌症相关基因),极高深度地测定组织活检或 ctDNA,寻找 点突变基因融合 或计算 TMB 直接决定患者是否适合使用特定的 靶向药(如奥希替尼)或免疫疗法。
无创产前检测
(NIPT)
抽取孕妇外周血,对其中游离的微量胎儿 DNA (cffDNA) 进行低深度 WGS。利用统计学算法分析染色体剂量的微小偏差。 安全、极高精度地筛查胎儿 唐氏综合征(21-三体)等染色体非整倍体疾病。
罕见遗传病确诊
(Rare Disease Diagnosis)
当临床表型复杂无法确诊时,采用家系 WES,重点比对父母与患儿的蛋白质编码区序列,寻找新生突变 (De novo mutations) 或隐性遗传致病位点。 结束患者的“诊断奥德赛”,明确病因,指导遗传咨询及潜在的 基因治疗

前沿工程:从宏观生态到单细胞微观折叠

重铸生命科学认知的高维利器

  • 单细胞转录组测序 (scRNA-Seq): 传统测序是将几百万个细胞打碎混合测序(Bulk RNA-Seq),得到的是“冰沙”。而单细胞技术利用微流控芯片将单个细胞包裹在油滴中,并贴上独特的 DNA 条形码(Barcode)。这使得我们能够获得一块“水果拼盘”,极其精确地描绘出 肿瘤微环境 中每一个免疫细胞和癌细胞的独特表达状态。
  • 临床生物信息学 (Bioinformatics Pipelines): 测序仪产出的只是由数十亿个 A/T/C/G 组成的“天书”文件(FASTQ 格式)。必须依赖庞大的超算集群,通过对齐算法(Alignment,如 BWA)将其像拼图一样映射到人类参考基因组上,再通过变异检出算法(Variant Calling,如 GATK)剔除测序噪音,最终找出真正的 错义突变
  • 临床宏基因组学 (mNGS): 应对不明原因的重症感染(如罕见脑炎)。不再进行耗时的细菌培养,而是直接抽取患者的脑脊液进行无差别测序。将测出的所有序列与全球 病原体 基因组数据库比对,能在 24 小时内瞬间锁定导致感染的罕见病毒、真菌或细菌。

关键相关概念

  • 测序深度与覆盖度 (Depth and Coverage): 评价测序质量的核心指标。“覆盖度”指基因组有多大比例被至少测到了一次;“测序深度”指某个特定碱基被重复测序的平均次数。在寻找极低频的肿瘤突变时,往往需要极高的测序深度(如 1000X 以上),以确保利用统计学(如 泊松分布)剔除系统假阳性错误。
  • 全外显子组测序 (WES): 基因组中负责编码蛋白质的区域(外显子)仅占整体序列的 1-2%,却包含了大约 85% 的已知致病突变。WES 通过探针捕获技术,只对这些核心区域进行高深度测序,是目前临床遗传病诊断中性价比最高的主力策略。
  • 表观遗传测序 (Epigenetic Sequencing): 测序不仅能读取碱基排列,还能读取 DNA 的化学修饰。例如通过重亚硫酸盐测序(Bisulfite Sequencing),可以精确识别出基因组中发生 甲基化 的胞嘧啶位点,揭示基因在不改变序列的情况下是如何被“静音”的。
       学术参考文献 [Academic Review]
       

[1] Sanger, F., Nicklen, S., & Coulson, A. R. (1977). DNA sequencing with chain-terminating inhibitors. Proceedings of the National Academy of Sciences. 74(12), 5463-5467.
[第一代测序原典]:分子生物学史上最伟大的文献之一。Frederick Sanger 团队首次详细公布了利用特殊的双脱氧核苷酸阻断 DNA 链延伸的测序原理。这一划时代的发明使他荣获第二座诺贝尔化学奖,开启了人类阅读生命代码的纪元。

[2] Lander, E. S., Linton, L. M., Birren, B., ..., & International Human Genome Sequencing Consortium. (2001). Initial sequencing and analysis of the human genome. Nature. 409(6822), 860-921.
[大科学工程巅峰]:人类基因组计划(HGP)的旗舰成果。该论文正式公布了人类基因组的工作草图,标志着人类首次在宏观尺度上获得了自身的基因指令集。其基于第一代测序和层级鸟枪法的策略,是生命科学史上最浩大的工程丰碑。

[3] Bentley, D. R., Balasubramanian, S., Swerdlow, H. P., ..., & Smith, D. R. (2008). Accurate whole human genome sequencing using reversible terminator chemistry. Nature. 456(7218), 53-59.
[第二代测序技术奠基]:这篇核心文献由 Illumina 团队发表,详细阐述了如今统治全球测序市场的核心底层技术——边合成边测序(SBS)和可逆终止子化学机制。该技术彻底打破了测序成本和通量的物理瓶颈,直接引爆了现代精准医疗革命。