Iso-Seq
Iso-Seq(Isoform Sequencing,全长转录组测序)是 PacBio 开发的一项基于 SMRT 测序技术的转录组分析方案。与传统的基于“打断-测序-组装”模式的 二代测序 (RNA-seq) 不同,Iso-Seq 利用长读长优势,能够直接对全长 cDNA 分子(从 5' 端到 3' Poly-A 尾)进行从头到尾的完整测序。
其核心价值在于“无需组装” (No Assembly Required)。这意味着它可以精准识别可变剪接异构体(Isoforms)、发现融合基因以及界定转录本的确切边界,彻底解决了短读长测序在复杂转录组重构中的拼接歧义问题。随着 HiFi测序 模式的引入,Iso-Seq 数据的准确度已达到 Q30 级别。
核心痛点:短读长的拼接困境
在转录组研究中,真核生物普遍存在复杂的可变剪接(Alternative Splicing),即一个基因可以通过外显子的不同组合产生多种 mRNA 异构体。
- NGS (Illumina): 将 2-3kb 的转录本打断成 150bp 的碎片。生物信息学软件试图将这些碎片“拼”回去。但这就像拼图时缺失了关键连接块,很难确定“外显子 A”是和“外显子 B”还是“外显子 C”连在一起。
- Iso-Seq (PacBio): 读长(10-15kb)远超转录本平均长度。One Read = One Transcript。无需打断,无需组装,直接读取完整的外显子连接顺序,彻底消除了拼接歧义。
标准流程:从 CCS 到 FLNC
Iso-Seq 的生物信息学分析流程专注于从原始数据中提取高质量的“全长非嵌合序列”。
| 步骤 | 描述 |
|---|---|
| 1. CCS 生成 | 利用 HiFi 模式,将同一分子的多次子读取(Subreads)进行自我校正,生成高精度的 CCS Reads (Q30+)。 |
| 2. FLNC 分类 | 识别并切除 5' 引物、3' 引物和 Poly-A 尾。只有同时具备这三者的序列才被定义为全长非嵌合体 (FLNC)。 |
| 3. 聚类 (Clustering) | 将来自同一转录本的多个 FLNC Reads 聚类,生成高置信度的一致性序列(Consensus),去除测序噪音。 |
| 4. 塌缩 (Collapse) | 将一致性序列比对到参考基因组,合并冗余序列,最终输出去冗余的异构体集合。 |
技术进阶:MAS-Seq 与 Kinnex
早期 Iso-Seq 的主要瓶颈是通量较低,主要用于构建 Reference,难以进行定量分析。
MAS-Seq (Multiplexed Arrays Sequencing): PacBio 推出的 Kinnex 试剂盒利用串联技术,将多个 cDNA 分子连接成一个长链(HiFi Read 可长达 15-20kb)。这使得单次测序产出的转录本数量增加了 8-10 倍,使得单细胞全长转录组 (scIso-Seq) 成为可能,能够同时解析单细胞水平的基因表达和异构体多样性。
学术参考文献 [Academic Review]
[1] Sharon D, et al. (2013). A single-molecule long-read survey of the human transcriptome. Nature Biotechnology.
[点评]:Iso-Seq 的开山之作。证明了长读长测序可以发现大量 NGS 遗漏的新异构体和基因融合。
[2] Wang T, et al. (2016). Unveiling the complexity of the maize transcriptome by single-molecule long-read sequencing. Nature Communications.
[点评]:在复杂植物基因组(玉米)中的经典应用,极大地改善了参考基因组的注释质量。
[3] Al'Khafaji A, et al. (2023). High-throughput RNA isoform sequencing using programmed cDNA concatenation. Nature Biotechnology.
[点评]:MAS-Seq (Kinnex) 的核心论文。展示了通过串联技术大幅提高 Iso-Seq 通量,使其适用于单细胞测序。