专栏名称: 基迪奥生物
广州基迪奥生物官方公众平台,小圆每天分享各种生信软件使用技巧, 搜罗好玩的科研生活,定期还有掉节操的生物界八卦分享,让科研变得有意思咯~
目录
相关文章推荐
物道  ·  既见城隍:何不来请一个它? ·  2 天前  
物道  ·  一日道|内心辽阔,世界温柔 ·  3 天前  
无时尚中文网  ·  突发:1亿美元贱卖Stuart ... ·  4 天前  
51好读  ›  专栏  ›  基迪奥生物

实用干货 | 如何依靠差异来初步分析转录组数据?

基迪奥生物  · 公众号  ·  · 2024-11-01 18:09

正文

我的样本非常珍贵,只能获得两个样本,我能进行差异分析吗?

众所周知,获取实验数据常常面临诸多挑战,其中部分实验的成本尤为高昂。因此,在正式实验之前,通常会先进行预实验,以验证方案的可行性。鉴于预实验中每个样品的成本考量,我们往往不会为每种条件设立重复样本。在这种情况下,常用的数据分析工具如DESeq2可能不再适用,而应当选择能够处理无重复样本情况下的差异分析工具,比如edgeR。

Omicsmart和Omicshare平台提供了包括DESeq2和edgeR在内的一系列工具,用于进行差异表达分析。那么,这些工具与文献中经常提到的limma之间有何主要区别呢?

DESeq2 edgeR 以及 limma 包被广泛认为是转录组数据分析领域中的“三巨头”,代表着差异基因表达研究的标准方法。值得注意的是,edgeR和limma是由同一科研团队开发的,两者在方法论上有着密切联系。特别地,edgeR针对转录组数据进行了专门优化,并具有处理无生物学重复样本的独特优势。

重点来了,在选用edgeR进行无重复分析时,我们无法直接从样本中估计基因间的变异程度,因此,我们提供了广泛使用的如 0.01 0.4 等常用的固定离散系数, 在人等重复性较差的样本中,我们推荐使用0.4,而在小鼠等本身遗传背景较干净的物种中推荐0.01 。当然,我们还是推荐投稿时需要使用三个重复。


我有处理前和处理后的样本,放一起差异分析不明显该怎么办?

这个时候就要搬出我们的配对分析了!大家一定在文章里见到过配对样本t检验,


实际上,DESeq2也提供了针对配对样本的差异分析功能。当样本间的变异性较大时,按独立样本的思路进行差异分析可能会导致正确识别的差异基因数量显著减少。通过使用配对样本分析,可以有效控制样本间的变异性,提高统计功效,从而检测到更为细微的效应。

接下来,我们借助Omicsmart使用DESeq2来一次配对分析,比较一下差异基因数量的差异。

我们看到未配对样本差异分析得到上调基因和下调基因的数量相差不大。

同样,配对后的样本差异分析得到的上调基因数量是远大于下调基因的,我们可以看到样本是否配对对最后的差异基因数量还是有蛮大的影响。

那么多差异分析的图,每个都代表什么意思? 我该怎么看我的基因表达量?

在处理完数据之后,我们要对数据进行可视化,常见的结果包括:火山图、小提琴图、聚类热图等等。


1. 热 图



热图 是非常常见的展示基因在各个样本中表达量的一个图形,不仅适用在RNA-seq中,在scRNA-seq中也经常用来区分细胞类群。热图中横坐标代表样本类型,纵坐标为基因。热图的取值范围一般位于±3以内,这是由于低丰度和高丰度的基因通常变异范围极大,有时会覆盖10-10000+,通常,热图软件都可以选择对绘图数值进行标准正态分布化(Z score)。也就是将一组值通过均一化,使其符合均值为0,方差为1的标准正态分布。

这里又将涉及到一个问题:我们是选择按行均一化、按列均一化还是对所有值均一化。

不同处理方式,背后的意义也会有所不同。例如,如果在聚类过程中,你想让高表达的基因对样本的分类起到更大的作用,那么选择“对所有值均一化”也是较好的选择。但通常在热图绘制过程中,我们一般是以基因为单位来观测这些表达量数值的变化的。按基因均一化,可以最大程度地呈现每一个基因的变化信息,避免一个超高表达的基因掩盖了其他基因的变化。


2.小提琴图



在RNA-seq数据分析中, 小提琴图(Violin Plot) 是一种用于展示数据分布情况的图表,它结合了箱线图(Box Plot)和密度图(Density Plot)的特点。小提琴图可以非常直观地显示出不同样本或条件下的基因表达水平分布情况。

1.形状: 小提琴图的“琴身”部分显示的是数据点在特定区间内的密度。琴身越宽,表示该区间内数据点越多,即该表达水平出现的频率越高;琴身越窄,则表示该区间内数据点较少。

2.中位数: 通常,在小提琴图的中间会有一条细线或者一个标记来表示中位数的位置。中位数是将一组数值按大小顺序排列后位于中间位置的值,它可以帮助我们了解数据集的中心趋势。

3.四分位数: 除了中位数之外,小提琴图内部还可能包含一个类似于箱线图的小矩形,这个矩形的上下边界分别代表第一四分位数(Q1,下四分位数)和第三四分位数(Q3,上四分位数)。这两个值将数据分为四个等份,每一份大约包含25%的数据点。

4.极值与异常值: 在一些小提琴图中,可能会用小圆点或其他符号标出最小值、最大值以及潜在的异常值。这些信息有助于识别数据中的极端情况。

5.比较不同组别: 当需要比较两个或多个不同条件下的基因表达时,可以通过并排绘制多个小提琴图来进行直观对比。通过观察各组之间的差异,如中位数的位置、分布宽度等,可以初步判断不同条件下基因表达是否存在显著差异。


3.火山图



火山图(Volcano Plot)是一种非常有用的可视化工具,它能够同时展示基因表达变化的倍数(fold change)和统计学显著性(如p值或调整后的p值)。通过调整阈值,也就是横纵坐标的两根虚线,我们能快速了解哪些基因在不同条件下的表达量发生了显著变化,可以直观地比较上下调基因之间的数目差异,进一步可以快速筛选出感兴趣的基因进行深入的研究。


4.多组差异散点图



各位小伙伴可能要问了,那如果还想看一下各个样本之间的上调和下调基因怎么办,多组差异散点图应运而生,相对于火山图,它提供了两个组分别的上下调基因数量,做到了组内的上下调基因的比较,同时克服了热图不能准确显示差异数量的缺陷。






请到「今天看啥」查看全文