专栏名称: 生信人
共同学习生物信息学知识,共同探究生物奥秘。
目录
相关文章推荐
生信人  ·  中科院一区SCI:中药研究的单细胞思路 ·  3 天前  
生信宝典  ·  2025 年2月 | ... ·  昨天  
BioArt  ·  Nature | ... ·  2 天前  
生物制品圈  ·  刷屏了!智慧芽生物医药2025新年惊喜:超1 ... ·  3 天前  
51好读  ›  专栏  ›  生信人

小白做差异分析

生信人  · 公众号  · 生物  · 2017-10-17 08:09

正文

今天跟大家分享下小编使用 GEO 转化工具, DEC 差异筛选工具,火山图工具,热图工具的试用经过。

(PS之前重来木有做过差异分析的我,完全利用小工具实现~~~)

昨天有一个学姐让我分析下 GSE79737 这套数据。

视频版下载:https://pan.baidu.com/s/1i5tKlnv

一、数据下载

首先打开 GEO 网站,搜索 GSE79737 ,点击 GPL16570 参考数据信息。

可以知道,样本的第一列是探针信息, gene_assignment 是比对上的基因 id ,不过比对上的 id 有很多种,这里需要用后面简单处理下。

按照教程下载

二、格式转换

然后打开生信人 GEO_Convert.exe 工具。

点击选择文件读入 GSE79737_family.xml.tgz

注意此处选择的时候,要看数据列是第二列(一般都是),然后看他其实是已经取过 log 了。

然后 ID 处要注意,选择刚才看到的 gene_assignment 列。

然后点击导出样本信息,导出数据矩阵。

三、筛选差异

然后打开 DECenter 筛选差异。

并将刚才导出的数据矩阵,样本信息和输出目录选择好。

点击样本信息按钮,查看信息

看是配对样本。可以选择 limma 进行分析。(由于我这个数据质量不是很好,所以这里我选择 P<1 ), abs(log2 FC )) >1

然后样本类型列选择 treatment ,运行导出。

如果结果不好,可以反复的调整 p lfc 进行结果优化。

结果会有三个文件,第一个 limma.txt 格式如下

第一列是基因 id ,第二列是 log2(FC) ,第三列是表达值,第四列是 t 值,第五列是 p 值,第六列是调整之后的 p 值( fdr ),第七列是 B 值。 这个文件可以用于后面绘制火山图。

其中第一列、第二列,第六列是比较重要的指标。

然后看筛选出来的差异基因。也就是 Diff.txt.

重要的信息是第二列,第六列和最后一列。

然后看下 TopExp.txt 。这些是差异基因在各个样本中的表达情况,可以用于后面绘制热图。

四、绘制火山图

打开生信人绘制火山图工具,选择 PBS;-vs-MG;.limma.txt 文件(因为我这个显著的不多,所以用全部的来绘制。)

然后通过调整点的大小调整图片,还是可以看到零星的几个点。

五、绘制热图







请到「今天看啥」查看全文