网络关系常常用于揭示一些复杂的作用关系,在基因调控关系中也是非常常见的。在SCI论文中一张漂亮的网络图往往能提升整个文章的逼格,在之前的文章中也介绍过不少网络图的作图,大家可以在公众号内搜索关键词“生信”翻看以前的文章。今天还是给大家介绍生信文章的思路,今天的文章题目为“Network and Pathway-Based Analyses of Genes Associated with Parkinson’s Disease”,发表在Mol Neurobiol(IF=4.16)上,文章的方法是基于网络和信号通路分析,目的是发掘与帕金森综合症(Parkinson’s Disease,PD)相关的基因。
文章思路如下:
1、筛选PD相关的基因;
2、对PD相关的基因进行功能富集分析;
3、信号通路之间关系的分析;
4、最小生成树算法生成PD相关的蛋白质互作网络。
下面具体的分析一下各步的做法
1、筛选PD相关的基因
文章中这一步的做法有点类似META分析的文献筛选,以Parkinson’s disease和polymorphism或genotype或alleles进行MeSH查询(MeSH指Medical Subject Headings,pubmed里每篇文章都会由该领域专家标注适当的标签,使用者可透过 MeSH Terms 查询文献),一共得到2277篇文章,去除结果为阴性的以及与基因研究无关的,最后从200篇文章中筛选出242个与PD有关的基因。
2、对PD相关的基因进行功能富集分析
这一步想必大家都很熟悉了,对上述基因进行GO和KEGG分析。
3、信号通路之间关系的分析
这里作者做了pathway crosstalk的分析,简单地说就是分析信号通路两两之间有多少共同基因。本文中的具体做法是计算Jaccard Coefficient(JC)和Overlap Coefficient(OC),取二者平均值作为评分标准(这两个系数的具体算法可以大家自行百度一下就知道了,很简单)。然后用cytoscape构建下图,信号通路之间的连线粗细与上述评分标准正相关。
上图可以清楚的看出整个网络分成左右两个模块,两个模块中分别有哪些通路,这些都可以给我们揭示PD的机制予以提示,在Discussion里可以好好说一说。
4、最小生成树算法生成PD相关的蛋白质互作网络
首先获取整个人类基因组的背景网络,数据来源为Protein Interaction Network Analysis (PINA)平台和Science上这篇文章“Uncovering disease-disease relationships through the incomplete interactome”的结果(包含16022个蛋白质和228122个作用关系)。所谓构建PD相关的蛋白质互作网络就是以PD相关的基因为种子,把PD相关的从这一总网络中提取出来。提取的方法有很多,本文作者选用了最小生成树算法。之所以选这个方法是因为生物学过程符合网络吝啬原则(network parsimony principle)。一个有 n 个结点的连通图的生成树是原图的极小连通子图,且包含原图中的所有 n 个结点,并且有保持图连通的最少的边。说人话就是A如何有多条路通往B,A会选择那条最短的,在一个网络中,A到所有节点的最短路径即为最小生成树。
比如这样一个加权网络,从D点出发,连通所有节点的最省路径是怎样的?
最省路径如上图,最小生成树的权值之和为39。
最小生成树算法通过Metalab或者C语言等都可以很容易的实现。作者这里了利用GenRev这一软件,该软件通过输入seed基因(PD相关基因),基于背景网络,根据最小生成树算法扩充最合适的额外节点(不是开始分析出来的PD相关基因)来完成整个网络。
图中圆形的是开始分析的PD相关基因,三角形的则是后面通过最小生成树算法扩充的。这些三角形所示的基因即是作者的新发现,可能与PD相关,可以用于后续研究。
小结:1、文章的思路其实并不复杂,不过对电脑硬件略有要求,内存CPU不太行的童鞋请勿轻易尝试;2、作者研究的是PD,而这样的研究适用于任何疾病!好了不多说了,4分SCI在向你招手~~~
有科研问题要问?上科研微论坛!
关注后获取《科研修炼手册》1、2、3、4、5,基金篇精华合集