RNA-Seq
RNA-Seq(RNA Sequencing,转录组测序)是一种利用 NGS (二代测序) 或 TGS (三代测序) 技术来检测样本中 RNA 的存在与数量的方法。与其前身 Microarray (基因芯片) 相比,RNA-Seq 不依赖预先设计的探针,因此能够“无偏倚”地检测整个 Transcriptome (转录组)。它不仅能进行高精度的基因表达定量(Quantitative Analysis),还能发现新的转录本、识别 Alternative Splicing (可变剪接) 事件以及检测 Fusion Gene (融合基因)。如今,RNA-Seq 已成为连接 Genomics 与 Proteomics 的核心技术,是现代生物医学研究中标配的“显微镜”。
实验流程:从 RNA 到数据
RNA-Seq 的核心挑战在于 RNA 不稳定且大部分是无用的 rRNA(核糖体RNA)。标准建库流程包含以下关键步骤:
1. RNA 提取与富集 (Enrichment)
细胞中 >80% 的 RNA 是 rRNA,必须去除。
Poly-A Selection: 利用磁珠捕获带 Poly-A 尾巴的 mRNA(仅适用于真核生物)。
rRNA Depletion: 直接移除 rRNA(适用于降解样本或检测 lncRNA)。
2. 逆转录与测序 (RT & Sequencing)
RNA 被打断成短片段,通过逆转录酶合成 cDNA。接上接头 (Adapters) 后,在测序仪(如 Illumina NovaSeq)上进行扩增和测序,生成数以亿计的 Reads。
生信分析:将 Reads 转化为知识
| 步骤 | 常用软件 | 任务描述 |
|---|---|---|
| 1. QC & Trimming | FastQC, Trimmomatic | 检查数据质量,切除低质量碱基和接头序列。 |
| 2. Mapping (比对) | STAR, HISAT2 | 将 Reads 贴回参考基因组(需处理跨内含子的比对)。 |
| 3. Quantification | HTSeq, Salmon | 数一数每个基因上有多少条 Reads (Raw Counts)。 |
| 4. Differential Exp | DESeq2, edgeR | 寻找样本间表达量有显著差异的基因,并绘制火山图。 |
关键概念:标准化 (Normalization)
不能直接比较原始 Reads 数,因为基因长度(长的基因落得Reads多)和测序深度(测得深的总数多)会造成偏差。主流的标准化方法如下:
TPM (Transcripts Per Million)
当前最推荐的单位。它先校正基因长度,再校正测序深度。
$$TPM_i = \frac{X_i / l_i}{\sum_j (X_j / l_j)} \cdot 10^6$$
其中 $X_i$ 是基因 $i$ 的 Read Count,$l_i$ 是基因长度。TPM 的优势在于每个样本的总和都是 100万,方便样本间比较。
学术参考文献 [Academic Review]
[1] Wang Z, Gerstein M, Snyder M. (2009). RNA-Seq: a revolutionary tool for transcriptomics. Nature Reviews Genetics.
[点评]:RNA-Seq 领域的“圣经”级综述,详细阐述了技术原理及其取代芯片的必然性。
[2] Stark R, Grzelak M, Hadfield J. (2019). RNA sequencing: the teenage years. Nature Reviews Genetics.
[点评]:全面回顾了 RNA-Seq 十年来的技术演进,特别是长读长 (Long-read) 测序在异构体识别中的应用。
[3] Mortazavi A, et al. (2008). Mapping and quantifying mammalian transcriptomes by RNA-Seq. Nature Methods.
[点评]:早期经典文献,提出了 RPKM 概念(虽然现在多用 TPM,但该文具有里程碑意义)。