做转录组研究的老师通常拿到RNA-seq数据都比较头疼,从庞大的数据中整理需要的信息做差异分析、富集分析、数据检验等等,就很费时间,更不要说数据提交分析时频繁error导致的崩溃。
工欲善其事必先利其器,合理使用工具让分析事半功倍才是明智之举。Omicshare平台edgeR/DESeq2差异分析工具就是这个利器。
在整理上传数据时,可能有不同的数据形式,如原始reads count数据、经RPKM/FPKM、TPM等标准化处理的数据等,不论edgeR软件还是DESeq2软件,都只能对count数据进行差异分析,工具强制
只能上传原始count数据
即正整数,同时文件中整列为0的样本数据应剔除。
如果是已经经过标准化处理的小数数据,无法上传edgeR差异分析,可尝试使用t检验进行分析。
Tips:
edgeR/DESeq2差异分析与t检验都可对数据进行差异分析,设置P或Q的检验阈值、差异倍数等筛选。
但edgeR/DESeq2是专门为RNA-seq数据设计的差异分析工具,在分析前会对RNA-seq数据进行标准化(工具默认
CPM方法
),以校正测序深度和其他技术性偏差,能够更准确地处理数据的离散性和技术噪声,更推荐用 edgeR/DESeq2进行RNA-seq数据的差异分析;
t检验无法有效处理RNA-seq数据中的高离散性和低表达基因,且未考虑测序深度的差异,使用t检验进行RNA-seq数据的差异分析,可能会导致假阳性率升高和结果偏差较大不可靠,尤其是在未对reads count数据进行适当预处理的情况下。如果确实需要使用 t 检验,建议先对数据进行
标准化处理
,并严格进行
多重检验校正
。
分组文件不需要表头,上传几组比较,就有几组对应差异结果;若上传时提示分组文件与基因count文件行列数量不对应,可检查去掉分组文件表头;
当然,测序数据文件数据量通常都不小,在上传文件时工具进行数据检查耗时更长,推荐使用txt文件会稍快一些;
常用的阈值设置为差异倍数2倍、P值0.05,在edgeR/DESeq2差异分析工具中,直接以
差异倍数筛选
,对应结果表中
log2fc绝对值大于1
;t检验工具则以
log2fc筛选
,对应默认阈值为1;
edgeR差异分析结果图输出为所有比较组差异基因柱状图、不同比较组差异火山图,
结果数据中,log2fc为基于CPM标准化后的数据进行计算:
也可使用输出的不同比较组差异基因log2fc数据、Pvalue数据,整合绘制多组差异散点图:
动态多组差异散点图绘制教程
更多实用又好看科研配图,欢迎评论区交流分享~
OmicShare
是基迪奥生物旗下,以交互式生信工具、原创组学书籍、生信论坛以及视频教程于一体的生信平台,现
140000+
科研人注册使用,超
4500+
篇SCI引用。即刻注册,轻松开启NCS绘图之旅!
关于OmicShare tools的SCI文章已经发表了!
影响因子23.7!
发表期刊:
iMet
a (IF 23.7)
原文链接DOI:
https://doi.org/10.1002/imt2.228
*海量工具使用无门槛:
161+
工具覆盖
99%
生命科学期刊发表所需,无需任何编程基础,提交数据即可完成绘图;
*发表级美图直出:
顶刊审美,参数/配色可实时交互;
*支持免费使用:
每个工具均
可免费
使用
2
次;还可通过
【邀请好友】
或
【论坛任务】
获取奥币,解锁更多免费次数。详情戳:
《OS新手使用说明》
*完整权益体验:
升级
【会员/超级会员】
,实现绘图自由,还能尊享更多权益:
https://www.omicshare.com/user/register.php?lang=zh
OS工具:
https://www.omicshare.com/tools/