基因测序
基因测序(DNA Sequencing)是测定 DNA 或 RNA 分子中核苷酸(腺嘌呤 A、胸腺嘧啶 T、胞嘧啶 C、鸟嘌呤 G)精确排列顺序的实验室技术。作为现代 分子生物学 和 基因组学 的绝对底层基建,基因测序技术经历了从第一代 Sanger 测序(低通量、高精度),到第二代 NGS 高通量测序(海量并行、短读长),再到第三代单分子测序(超长读长、无扩增偏倚)的颠覆性演进。2003 年完成的 人类基因组计划 耗资 30 亿美元历时 13 年才破译了一个人类基因组,而今天的 NGS 技术只需数小时、几百美元即可完成同等工作。在现代 临床病理学 与 精准医学 中,基因测序是不可或缺的“雷达”。它被广泛应用于 NIPT 以筛查胎儿染色体异常,在 肿瘤学 中用于寻找诸如 EGFR突变 或 BRAF V600E突变 以指导 靶向治疗,并在极高维度上推动了 单细胞测序 与 宏基因组学 的爆发式发展。
技术迭代:从链终止到单分子微观读取
基因测序技术的演进是人类工程学与分子生物学结合的巅峰,其核心机制经历了三次根本性的革命:
- 第一代(Sanger 测序):双脱氧链终止法。 弗雷德里克·桑格 的天才设计。在 PCR 扩增时,掺入缺少 3'-OH 羟基的特殊双脱氧核苷酸(ddNTPs)。一旦聚合酶连上 ddNTP,DNA 链的延伸就会强行终止。通过收集各种长度不一、末端带有特定荧光标记的片段,并使用毛细管电泳按长度排序,即可像读条形码一样读出序列。其准确率极高(金标准),但通量极低。
- 第二代(NGS 高通量测序):边合成边测序 (SBS)。 以 Illumina 平台为代表。首先将长链 DNA 打碎成数千万个短片段(构建 文库),固定在流动槽(Flow cell)的玻璃芯片上进行桥式扩增,形成簇(Cluster)。随后加入带有荧光标记且被化学基团暂时封闭的游离碱基。每次聚合酶连上一个碱基,机器就拍照记录荧光颜色(判读 A/T/C/G),然后切除封闭基团继续下一个。数千万个簇同时“发光拍照”,实现了通量的指数级爆炸。
- 第三代(单分子长读长测序):跨越 PCR 偏倚。 包含 PacBio 的 SMRT 技术和 Oxford Nanopore (纳米孔) 技术。纳米孔测序直接将单根未扩增的 DNA 长链拉过具有电压的生物蛋白孔,不同碱基通过时产生的微安级电流阻滞波形不同,以此直接解码。它能够读取长达数十万碱基的序列,完美解决了 NGS 无法拼接复杂 串联重复序列 的难题。
临床病理:重塑现代疾病诊断体系
| 临床应用场景 | 测序策略与检测靶点 | 医学影响与干预手段 |
|---|---|---|
| 肿瘤伴随诊断 (Companion Diagnostics) |
通过靶向基因 Panel(如包含 500 个癌症相关基因),极高深度地测定组织活检或 ctDNA,寻找 点突变、基因融合 或计算 TMB。 | 直接决定患者是否适合使用特定的 靶向药(如奥希替尼)或免疫疗法。 |
| 无创产前检测 (NIPT) |
抽取孕妇外周血,对其中游离的微量胎儿 DNA (cffDNA) 进行低深度 WGS。利用统计学算法分析染色体剂量的微小偏差。 | 安全、极高精度地筛查胎儿 唐氏综合征(21-三体)等染色体非整倍体疾病。 |
| 罕见遗传病确诊 (Rare Disease Diagnosis) |
当临床表型复杂无法确诊时,采用家系 WES,重点比对父母与患儿的蛋白质编码区序列,寻找新生突变 (De novo mutations) 或隐性遗传致病位点。 | 结束患者的“诊断奥德赛”,明确病因,指导遗传咨询及潜在的 基因治疗。 |
前沿工程:从宏观生态到单细胞微观折叠
重铸生命科学认知的高维利器
- 单细胞转录组测序 (scRNA-Seq): 传统测序是将几百万个细胞打碎混合测序(Bulk RNA-Seq),得到的是“冰沙”。而单细胞技术利用微流控芯片将单个细胞包裹在油滴中,并贴上独特的 DNA 条形码(Barcode)。这使得我们能够获得一块“水果拼盘”,极其精确地描绘出 肿瘤微环境 中每一个免疫细胞和癌细胞的独特表达状态。
- 临床生物信息学 (Bioinformatics Pipelines): 测序仪产出的只是由数十亿个 A/T/C/G 组成的“天书”文件(FASTQ 格式)。必须依赖庞大的超算集群,通过对齐算法(Alignment,如 BWA)将其像拼图一样映射到人类参考基因组上,再通过变异检出算法(Variant Calling,如 GATK)剔除测序噪音,最终找出真正的 错义突变。
- 临床宏基因组学 (mNGS): 应对不明原因的重症感染(如罕见脑炎)。不再进行耗时的细菌培养,而是直接抽取患者的脑脊液进行无差别测序。将测出的所有序列与全球 病原体 基因组数据库比对,能在 24 小时内瞬间锁定导致感染的罕见病毒、真菌或细菌。
关键相关概念
- 测序深度与覆盖度 (Depth and Coverage): 评价测序质量的核心指标。“覆盖度”指基因组有多大比例被至少测到了一次;“测序深度”指某个特定碱基被重复测序的平均次数。在寻找极低频的肿瘤突变时,往往需要极高的测序深度(如 1000X 以上),以确保利用统计学(如 泊松分布)剔除系统假阳性错误。
- 全外显子组测序 (WES): 基因组中负责编码蛋白质的区域(外显子)仅占整体序列的 1-2%,却包含了大约 85% 的已知致病突变。WES 通过探针捕获技术,只对这些核心区域进行高深度测序,是目前临床遗传病诊断中性价比最高的主力策略。
- 表观遗传测序 (Epigenetic Sequencing): 测序不仅能读取碱基排列,还能读取 DNA 的化学修饰。例如通过重亚硫酸盐测序(Bisulfite Sequencing),可以精确识别出基因组中发生 甲基化 的胞嘧啶位点,揭示基因在不改变序列的情况下是如何被“静音”的。
学术参考文献 [Academic Review]
[1] Sanger, F., Nicklen, S., & Coulson, A. R. (1977). DNA sequencing with chain-terminating inhibitors. Proceedings of the National Academy of Sciences. 74(12), 5463-5467.
[第一代测序原典]:分子生物学史上最伟大的文献之一。Frederick Sanger 团队首次详细公布了利用特殊的双脱氧核苷酸阻断 DNA 链延伸的测序原理。这一划时代的发明使他荣获第二座诺贝尔化学奖,开启了人类阅读生命代码的纪元。
[2] Lander, E. S., Linton, L. M., Birren, B., ..., & International Human Genome Sequencing Consortium. (2001). Initial sequencing and analysis of the human genome. Nature. 409(6822), 860-921.
[大科学工程巅峰]:人类基因组计划(HGP)的旗舰成果。该论文正式公布了人类基因组的工作草图,标志着人类首次在宏观尺度上获得了自身的基因指令集。其基于第一代测序和层级鸟枪法的策略,是生命科学史上最浩大的工程丰碑。
[3] Bentley, D. R., Balasubramanian, S., Swerdlow, H. P., ..., & Smith, D. R. (2008). Accurate whole human genome sequencing using reversible terminator chemistry. Nature. 456(7218), 53-59.
[第二代测序技术奠基]:这篇核心文献由 Illumina 团队发表,详细阐述了如今统治全球测序市场的核心底层技术——边合成边测序(SBS)和可逆终止子化学机制。该技术彻底打破了测序成本和通量的物理瓶颈,直接引爆了现代精准医疗革命。