结构变异
结构变异(Structural Variation,SV)是指基因组中长度大于 50 bp 的大尺度 DNA 序列改变。与单核苷酸变异 (SNV) 和小片段插入缺失 (Indel) 相比,SV 虽然在数量上较少,但其涉及的碱基总数和对基因组功能的影响往往更大。
SV 包括缺失、重复、倒位、易位和拷贝数变异 (CNV) 等多种形式。它们是物种进化、表型多样性以及人类疾病(特别是癌症和罕见遗传病)的重要驱动力。随着 三代测序(如 PacBio HiFi 和 ONT)的普及,人类对 SV 的解析能力已从“冰山一角”迈向了“全景图谱”,揭示了大量曾被短读长测序遗漏的复杂变异。
类型与机制:基因组的重排
结构变异不仅仅是序列的改变,更是基因组结构的重组。根据对基因组含量的影响,可分为两大类:
| 缩写 | 全称 | 描述与影响 |
|---|---|---|
| DEL | 缺失 (Deletion) | 基因组片段丢失。可能导致单倍体剂量不足(Haploinsufficiency),如肿瘤抑制基因(TP53, RB1)的丢失。 |
| DUP | 重复 (Duplication) | 片段拷贝数增加。常导致原癌基因(如 HER2, MYC)的过表达。DEL 和 DUP 合称为 CNV。 |
| INV | 倒位 (Inversion) | 片段方向颠倒(180°翻转)。虽不改变拷贝数,但可能打断基因或产生融合基因(如 EML4-ALK)。 |
| TRA | 易位 (Translocation) | 不同染色体之间的片段交换。经典案例是慢性粒细胞白血病中的费城染色体 (BCR-ABL1)。 |
| INS | 插入 (Insertion) | 外源序列或转座子(如 LINE-1, Alu)插入。 |
检测困境:NGS 的盲区
长期以来,利用短读长(NGS)检测 SV 面临巨大挑战。由于 SV 的断点(Breakpoint)常位于重复序列区域,短读长(150bp)难以跨越和精确定位。
- NGS 策略: 依赖间接证据推断,假阳性率高。
• Read Depth: 覆盖度突然下降(DEL)或上升(DUP)。
• Split Reads: 一条 Read 被切开比对到两个位置(精确定位断点)。
• Discordant Pairs: 双端测序的距离或方向异常。 - TGS 革命: PacBio HiFi 和 Oxford Nanopore 读长可达 10kb-100kb,能直接跨越复杂的断点和重复区。研究表明,每个基因组中约有 25,000 个 SV,其中超过 70% 只能通过三代测序检出。
临床意义:肿瘤与罕见病
SV 是许多疾病的直接致病原因,也是重要的药物靶点。
● 肿瘤驱动变异: 基因融合(Gene Fusions)是许多靶向药物的适应症。例如,NTRK 融合阳性患者可使用拉罗替尼;ALK 融合阳性肺癌患者可使用克唑替尼。
● 基因组灾难 (Chromothripsis): 在某些恶性肿瘤中,染色体发生“粉碎性”断裂并随机重连,产生数百个复杂的 SV,导致预后极差。
● 罕见病诊断: 许多孟德尔遗传病由 SV 引起(如地中海贫血的基因缺失),常规 WES(外显子测序)极易漏检,需配合 WGS 或三代测序。
学术参考文献 [Academic Review]
[1] Alkan C, Coe BP, Eichler EE. (2011). Genome structural variation discovery and genotyping. Nature Reviews Genetics.
[点评]:SV 领域的经典综述。定义了 SV 的类型,并详细讨论了当时基于 NGS 的检测算法(Read depth, Split read 等)的局限性。
[2] Chaisson MJP, et al. (2019). Multi-platform discovery of haplotype-resolved structural variation in human genomes. Nature Communications.
[点评]:比较了不同测序平台在 SV 检测上的性能,证明了长读长(PacBio)在发现插入序列和复杂变异方面的压倒性优势。
[3] Li Y, et al. (2020). Patterns of somatic structural variation in human cancer genomes. Nature.
[点评]:泛癌症全基因组分析(PCAWG)的重磅成果,全面绘制了 2600 多例癌症样本中的 SV 图谱,揭示了 SV 在肿瘤发生中的核心作用。