专栏名称: 科研猫
小平台,大功能。本公众号旨在传播生物医学科研技能和生物信息学基础知识及应用技巧,助您在大数据时代精准挖掘科研数据,让您轻轻松松学知识,顺顺利利发文章。
目录
相关文章推荐
中国基金报  ·  突然,直线拉升! ·  昨天  
中国基金报  ·  突发公告!百亿A股一发起人逝世 ·  昨天  
长江云新闻  ·  缴税5千万!江西福彩开出2.5亿大奖 ·  2 天前  
中国基金报  ·  突发!开曼群岛附近海域发生8.0级地震 ·  3 天前  
中国基金报  ·  招行公告!事关黄金账户 ·  4 天前  
51好读  ›  专栏  ›  科研猫

重磅:GEO数据库挖掘教程(4)一体化分析代码(带视频+R代码分享)

科研猫  · 公众号  ·  · 2020-10-15 07:15

正文

前面三期的课程中,我们从 GEO基础知识 快速锁定目标数据 以及 R语言基础 这三个方面讲解了GEO数据挖掘的背景知识,课后大家也都很积极地找到折耳猫小姐姐和小猎豹,提了很多的问题,最频繁的提问就是:“何时出下一期”、“什么时候教数据分析”,可见大家的学习热情都非常高涨,对GEO数据挖掘非常感兴趣。今天,我们就来讲GEO数据挖掘的终极教程。


众所周知,GEO里面大部分是表达谱数据,而表达谱的数据挖掘涉及众多的分析方法和繁琐的分析步骤,这里给大家做了一个大致的流程图,以便大家有一个整体而全面的认知。简而言之,GEO的数据分析就分为两大步骤:

(1)从 原始数据 基因表达值 ,这里要经过繁琐的数据前处理过程;

(2)从 表达值 功能分析 差异基因/聚类/功能富集等)。下面我们就按部就班地进行讲解。




Step1: 从原始数据到表达值

这一步骤是相对比较简单、比较固定的流程,但是其在数据分析过程中的地位 至~关~重~要! 因为后续所有的高级分析都是建立在表达值的基础上,如果这里出了问题,那么后续所有分析都会产生极大的偏差。在GEO中,所有的data series除了上传原始数据外,还会有一个已经处理好的表达值矩阵,这个是GEO强制要求submitter在上传过程中必须上传的,就存储在series matrix file中。我们在分析数据的时候,可以直接使用这个series matrix file作为表达值进行后续的分析。


Step2: 从表达值到功能分析

有了表达值以后,我们就可以“畅所欲为”了。常见的后续分析有:差异表达分析、层次聚类,主成分分析等,主要根据我们的分析目的来定。现在,我们来对他们进行逐个讲解。

a. 差异表达分析

这个分析相对较好理解,其实就是两个不同分组之间基因表达值有差异的基因。一般通过两个指标去进行筛选:Fold change(变化倍数,简称FC),以及P value(P值)。常用的FC阈值为2,P value的阈值为0.05或者0.01。



b. 层次聚类分析

这个也是表达谱分析中的常用套路,其理论基础是:基因之间存在共表达,在表达谱上具有相似性的基因或样本可能具有潜在的相关性。在聚类分析中,基因被看作是一个向量,通过元素与元素之间的距离,将不同的元素归类。通过层次聚类,我们把表达谱相近似的基因或者样本富集在一起,然后再对特定的基因进行功能分析,或者对临床样本进行表型的挖掘。



c. 主成分分析

Principle Component Analysis, PCA。属于降维分析的一种,将样本从输入空间通过线性或非线性映射到一个低维空间,减少了后续步骤处理的计算量,当降至三维以下时还可用于可视化技术,从而发挥人在低维空间感知上的优点,发现数据集的空间分布、聚类性质等结构特征。PCA对于分析样本的相关性具有自己独到的优势。


好了,讲了这么多原理,是不是觉得有点头晕脑胀呢,大家可能会想:讲了这么多,还没有教我们怎么做,有什么用?

嗯~~那我就要放干货了,各位请接招吧。为了方便大家对GEO数据进行深入的分析挖掘,我们开发了一款高效、集成的数据分析流程,整合在一个R代码中,大家 只需输入数据集的几个相关编号 即可。


我给这个代码起了一个非常炫酷的名字: GEO Terminator 。可能有点夸张,但是绝对实用。我们要做的就是到GEO找到你要分析的数据,不知道怎么找的,请参见我们的上一篇( GEO数据库挖掘(2)--快速锁定目标数据 ),输入GSExxx,以及检测平台GPLxxx,自定义一下要分析的样本表型,然后全选(Ctrl+A),运行(Ctrl+Enter)即可。整个代码运行可能需要几分钟到十几分钟的时间,根据你的数据大小和网速快慢而定,最终结果是这样的:


猎豹一出手,便知有没有~。只需输入几个编号,所有分析全自动运行,包括:(1)质控箱线图,(2)差异表达基因,(3)层次聚类热图,(4)差异表达火山图,(5)主成分分析散点图,囊括表达谱数据挖掘的所有基本分析。

相信大家都参加在线上或者线下的诸多收费型培训,这种技术含量超高的“黑科”的价格不菲,现在睁大双眼,握紧水杯,科研猫正式宣布,免费分享此代码,惠及更多被科研折磨的脱毛的猫猫们~~


代码免费分享,

代码免费分享,

代码免费分享!

只要扫描下方二维码

联系“折耳猫”小姐姐

免费获取!








请到「今天看啥」查看全文