专栏名称: 基迪奥生物
广州基迪奥生物官方公众平台,小圆每天分享各种生信软件使用技巧, 搜罗好玩的科研生活,定期还有掉节操的生物界八卦分享,让科研变得有意思咯~
目录
相关文章推荐
51好读  ›  专栏  ›  基迪奥生物

实用干货 | 转录组还能有这么多问题?

基迪奥生物  · 公众号  ·  · 2024-08-28 18:00

正文

什么是转录组测序?转录组测序简称RNA-seq,是一种高通量技术,用于分析细胞或者组织在特定条件下的RNA分子组成,换句话说,RNA-seq是对某个条件下生物体的转录状态拍了一张快照。通过这种技术,研究人员可以了解基因表达的模式,包括哪些基因被激活或抑制,以及它们的表达水平如何变化。

近年来,随着测序成本的不断降低,RNA-seq已经成为生物学研究必不可少的技术手段,从标准的RNA-seq流程中也衍生出100多种应用,已经广泛地应用在临床和基础研究中,但是对于大多数初学者来说,RNA-seq的分析结果中依旧暗藏很多问题。

01

RNA-seq是如何测出我们基因的表达量的?


从研究样本中提取总mRNA并进行建库和测序,对获得的下机数据进行质量控制,选择合适的比对工具将处理后的reads比对到参考基因组上,最后,使用工具从比对结果中提取每个基因的reads计数,生成基因表达的计数矩阵。

02

基因表达量和转录本表达量有什么区别?


基因表达量和转录本表达量的区别在于前者指的是一个基因整体的表达水平,包括该基因所有转录本的总和,而后者则专指特定转录本在细胞中的表达水平。基因表达量通常通过计算与该基因相关的reads总数获得,而转录本表达量则是针对特定转录本进行的计数。一个基因可以表达出多个转录本;对于基因的表达水平分析实际上是综合一个基因的多个转录本定量的结果。因为可变剪切的缘故,一个基因可能有多个转录本。如果是我们基迪奥的客户,可以在Omicsmart在线报告的可变剪切分析模块中对特定基因在多个样本中的可变剪切结果进行可视化分析。


03

怎么让不同样本之间的测序结果变得可以比较?


在RNA-seq上游的流程中,所得到的产物为表达矩阵,各个样本比对到参考基因组中各个基因的reads数,一般成为raw read count,这也是最简单的表达定量形式。在同一个样本中,不同的RNA可能有不同长度,长度越长,对应的reads就越多;在不同的样本中,它们可能有不同的测序深度,深度越深,对应的reads也越多。不同样本的raw count很难直接进行比较,因此,RPKM和FPKM、及TPM应运而生。

RPKM: Reads Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的reads)
FPKM: Fragments Per Kilobase of exon model per Million mapped fragments(每千个碱基的转录每百万映射读取的fragments)

Reads Count:特定基因的reads计数。
Gene Length (bp):基因的长度,以碱基对(bp)为单位。
Total Reads Mapped:在样本中映射到参考基因组的总reads数,通常以百万为单位,即10 6

RPKM与FPKM类似,两者计算方法相同, 区别在于FPKM针对双端测序。其中10 3 是用来标准化基因的长度,10 6 用来标准化测序深度。FPKM排除了测序深度对总reads数的影响,但是没有考虑到基因转录本长度对reads总和的影响,所以就有了TPM。

TPM: Transcripts Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts)

首先,计算每个基因的RPK(Reads Per Kilobase):

然后,计算所有基因的RPK总和:

最后,计算TPM:

TPM与RPKM/FPKM不同之处在于TPM先去除了基因的长度影响,而RPKM/FPKM则先去除测序深度的影响,实际上TPM优化了不同样本的不同总reads对样本比较的影响,更适合用于比较不同样本间的基因表达。那么什么时候选counts,什么时候选TPM?借助文章 TPM, FPKM, or Normalized Counts? A Comparative Study of Quantification Measures for the Analysis of RNA-seq Data from the NCI Patient-Derived Models Repository 我们发现校正文库大小带来的影响的时候可能会导致低表达基因的表达量发生变化。所以通过Excel直接比较不同基因的表达差异时,用TPM可能会更好。而通过DESeq2等软件进行下游分析时,需要提供原始的counts。


04

如何解释qPCR和转录组结果不一致


RNA-seq将mRNA逆转录成DNA,通过高通量测序的方法测定其序列并统计其表达水平。qPCR通过对 PCR 扩增反应中每一个循环产物荧光信号的实时检测从而实现对起始模板定量及定性的分析。 Benchmarking of RNA-sequencing analysis workflows using whole-transcriptome RT-qPCR expression data 发现转录组不管采用何种方法分析,RNA-seq与qPCR相关性都只在80%左右。

对于常见的qPCR和转录组结果不一致有以下几种可能的原因:

1. 用于qPCR定量检测的基因,虽然差异分析时的差异倍数高,但是本身表达量偏低,导致qPCR定量检测时CT值较高,误差较大;挑选的基因差异倍数较低或者FDR值较高,差异不显著。

2. qPCR验证和测序的样品是否相同?RNA的表达具有时空特异性,同一批次的不同样本的mRNA表达也可能出现差异。
4. 用于qPCR验证的样本量是否覆盖测序的样本量。如果用于qPCR检测的样本全部来自于测序的样本,就算验证的结果符合预期,也只能说明测序样本的趋势正确,并不能代表所有同样处理的样本的趋势都是一致的,所以用于qPCR检测的样本量要大于测序的样本量。
5. 样本有降解或者有污染。某些RNA的降解速率可能较快,反转录成cDNA后就会有差异;样品有污染(核糖体、支原体、菌类等),也会降低测序有效数据量,影响低丰度的mRNA的表达量计算。
7. 样品编号是否正确,顺序是否正确。
8. 检查QPCR的上样顺序和计算公式是否正确。
9. qPCR引物设计问题。在RNA-Seq分析中,许多基因往往会产生多个转录本,且某些转录本形式相对复杂。因此,如果引物设计不当,可能会导致qPCR结果的不准确,甚至受到假基因的干扰。因此,建议在设计qPCR引物时,尽量选择位于转录本共有外显子上的引物,而不是特定转录本。引物设计完成后,可以利用Omicsmart平台的BLAST分析模块进行Primer Blast,以确保所设计的引物不会与基因组中的假基因产生交叉匹配,从而有效避免假基因表达对实验结果的干扰。


基迪奥在线分析平台Omicsmart支持无代码进行数据的质控及后续分析,还有转录组、代谢组及关联分析平台,测序即可免费使用,欢迎咨询~






请到「今天看啥」查看全文