HiFi测序
HiFi 测序(High Fidelity Reads,高保真测序)是 PacBio 公司基于 SMRT 技术推出的一种兼具“长读长”和“高准确度”的测序模式。它打破了测序界长期存在的“二代测序短而准、三代测序长而差”的二元对立局面。
通过构建哑铃型文库并进行循环一致性测序 (CCS),HiFi 模式让聚合酶对同一 DNA 分子进行多次反复读取。由于 SMRT 测序的错误是随机分布的,通过算法将多次读取的结果进行比对和自我校正,可以产生长度达到 15-25 kb 且准确率超过 99.9%(Q30)的一致性序列。HiFi 目前已被公认为基因组组装、结构变异 (SV) 检测及单倍体分型的“金标准”。
原理核心:以循环换精度
PacBio 早期的测序模式称为 CLR (Continuous Long Read),虽然读长很长,但单次读取错误率高达 15%,限制了其应用。HiFi 通过一种巧妙的文库构建策略解决了这个问题:
- 1. 哑铃型文库 (SMRTbell): 将双链 DNA 片段的两端连接上发夹接头(Hairpin Adapter),使其形成一个封闭的单链圆环。
- 2. 滚环测序: Phi29 聚合酶具有极强的链置换能力,它会绕着这个圆环不断地进行滚环复制。如果插入片段是 15kb,聚合酶合成了 150kb,那么它就相当于把这个片段读了 10 遍。
- 3. 子读取 (Subreads): 每一遍读取称为一个 Subread。虽然每个 Subread 仍有随机错误,但这些错误在不同轮次中出现在不同位置。
- 4. 循环一致性 (CCS): 算法将所有 Subreads 进行多序列比对。由于信号是随机的,噪音相互抵消,最终生成的一致性序列 (Consensus Read) 准确率极高,即 HiFi Read。
性能优势:基因组学的“不可能三角”
在 HiFi 出现之前,基因组学面临一个“不可能三角”:读长(Length)、准确度(Accuracy)和通量/成本。HiFi 几乎同时满足了前两者:
| 特性 | Illumina (NGS) | PacBio HiFi |
|---|---|---|
| 准确度 | >99.9% (Q30) | >99.9% (Q30) |
| 读长 | 短 (150 bp) | 长 (15,000 bp) |
| GC 偏好 | 有 (PCR导致) | 无 (覆盖度均匀) |
| 能力 | SNV, 小Indel | SNV, Indel, 结构变异, 单倍体分型 |
应用领域:精准组学的新基石
- T2T基因组组装: HiFi Reads 的高精度是区分基因组中高度相似重复序列(Segmental Duplications)的关键。2022 年人类基因组图谱的补全主要归功于 HiFi (骨架) + ONT Ultra-long (补洞)。
- 结构变异 (SV) 发现: 人类基因组中,SV 影响的碱基数远多于 SNV。HiFi 能够以碱基级分辨率精准检测 50bp 以上的插入、缺失和倒位,大大提高了罕见病的诊断率。
- 单倍体分型 (Phasing): 由于读长足够长,HiFi 可以直接跨越杂合位点,将父本和母本的染色体序列完全分开,实现“定相”组装。
学术参考文献 [Academic Review]
[1] Wenger AM, et al. (2019). Accurate circular consensus long-read sequencing improves variant detection. Nature Biotechnology.
[点评]:HiFi 测序的开山之作。详细论证了 CCS 模式如何将三代测序的准确率提升至 Q30 水平,并重新定义了变异检测的标准。
[2] Nurk S, et al. (2022). The complete sequence of a human genome. Science.
[点评]:HiFi 测序的高光时刻。T2T 联盟利用 HiFi 数据构建了近乎完美的基因组骨架,解决了着丝粒等复杂区域的组装难题。
[3] Liao WW, et al. (2023). A draft human pangenome reference. Nature.
[点评]:人类泛基因组参考图谱(HPRC)主要基于 HiFi 数据构建,旨在捕捉人类群体的遗传多样性。