专栏名称: 生信人
共同学习生物信息学知识,共同探究生物奥秘。
目录
51好读  ›  专栏  ›  生信人

WGCNA如何玩转NAR?

生信人  · 公众号  · 生物  · 2022-01-06 18:48

正文

今天跟大家分享的是今年发表在Nucleic Acids Research(IF: 16.971)上的一篇文章,研究者对来自于60多种疾病,数百个转录组数据集的共表达网络和人类蛋白质-蛋白质相互作用网络进行系统分析,揭示出特定疾病或多种疾病中共享的蛋白质与通路信息等。此外,为更好地理解特定通路在疾病环境中发挥的作用,研究者还将疾病特异性共表达网络与通路信息结合,识别出疾病特异性相关通路(图1)。

图1.工作流程

Towards a global investigation of transcriptomic signatures through co-expression networks and pathway knowledge for the identification of disease mechanisms
基于转录组特征的共表达网络和通路分析识别疾病相关机制

1.数据收集与整理
研究者从ArrayExpress 中检索属于Affymetrix Human Genome U133 Plus 2.0 Array平台检测的数据集合,并基于是否有样本信息,样本数量,疾病信息,转录组数据等标准对数据进行筛选,最终得到由279套数据集合组成的人类疾病相关转录组学数据(图2)。该数据包括63组疾病信息以及1组对照样本的转录组数据。
研究者进一步对原始表达数据集进行预处理和合并。首先使用R中oligo包的RMA函数对每个单独的数据集进行预处理,并进行标准化。在合并来自不同数据集的样本时,通过ComBat对数据进行批量校正,以去除对应于单个数据集的影响。最后,将探针映射到基因上。

图2.数据筛选流程

2.疾病特异性共表达网络的构建
研究者基于WGCNA包对不同疾病数据集构建共表达网络。为促进网络的可比性,研究者将共表达网络定义为每种疾病中前1%相似性最高的拓扑覆盖矩阵(TOM),共表达网络的1%约对应200万条边。不同类型疾病的特异性共表达网络规模及其整合网络如图3所示。TXLNGY和NCR2是最常见的共表达基因,在60个疾病的共表达网络中被识别到。其中,48个基因在超过57个疾病特异性共表达网络中被识别到。

图3.构建疾病特异性的共表达网络

3. 构建人类蛋白质-蛋白质相互作用网络
为系统地探究疾病特异性共表达网络与通路间相关性,研究者进一步建立一个综合网络,其包含来自KEGG,Reactome,WikiPathways等6个数据库的互作信息。此外,研究者基于MPath对多个数据库和等效通路的基因集进行整合,从而确保网络中的每个蛋白质最低限度地分配给一个单一通路。使用MPath将蛋白质注释到通路上,既促进更大网络的生成,又避免冗余通路的出现。

最终的人类蛋白质互作网络由8601个节点和199535条边组成。其中,绝大多数节点都是蛋白质编码基因 (图4A)。在该网络中,关联关系最为普遍(73%),其余的关系类型为因果关系,包括增加、减少、调节和组成关系(图4B)。

图4.人蛋白质-蛋白质相互作用网络中节点和边的类型统计

4.疾病特异性共表达网络与蛋白质互作网络的相似性
为探寻共表达网络和通路信息之间的一致性,研究者基于通路相似性和互作相似性两种方法,将每个疾病特异性共表达网络与相互作用网络进行叠加。只有30%-33.4%的常见共表达基因存在于相互作用网络中。此外,这些常见的疾病特异性共表达基因与相互作用网络中连接最紧密的蛋白间,也只观察到很少重叠。研究者评估来自KEGG通路和疾病共表达网络的所有蛋白之间的重叠,并试图验证疾病共表达网络中最常见的蛋白是否也可以在通路数据中找到。在KEGG中仅发现共表达网络中29%-31%的蛋白。常见蛋白的平均通路注释数量(14.8个)略低于所有蛋白的平均注释数量(16个)。以上结果表明,尽管这些基因是所有疾病共表达网络中最常见的,但它们往往在科学研究和蛋白质互作研究中被忽视。

5.不同疾病中一致差异表达基因(DEGs)的meta分析
首先,研究者使用Limma R软件包对46种疾病中患者和对照样本进行差异表达分析。对每种疾病的DEGs进行筛选,只保留那些经过矫正后p<0.05的基因。研究者基于meta分析确定特异性疾病或跨疾病共享的DEGs之间的失调模式,并展示DEGs与疾病特异性共表达网络和相互作用网络的重叠,以阐明DEGs可能参与的机制。并独立计算出这些疾病中所有上调基因和下调基因的平均值。46种疾病中的差异表达基因如图5所示,几乎所有的基因都在一种或多种疾病中上调,而在至少另一种疾病中下调。只有CCDC43、JADE3、RPL22L1、SOCS1和TOR3A是在多个疾病中特异性上调的, CAVIN2和ZSCAN18是特异性下调的。近2万个基因在疾病-正常中发生差异表达,其中17600个DEGs上调,15600个DEGs下调。在最显著差异表达的基因中,34个表达上调,26个表达下调。然后将这些基因与500种最常见和最不常见的疾病特异性基因进行比较。在上调最多的基因中,CDK1属于最常见的疾病蛋白,而CRNDE、DEPTOR和RASD1则属于最不常见的蛋白。同样,在下调幅度最大的基因中,只有S100A8属于最常见的疾病蛋白。此外,研究者发现上调幅度最大的4个基因属于胶原基因,而一些蛋白家族基因在上调幅度最大的和下调幅度最大的基因中都可以找到。此外,这些基因在它们所涉及的绝大多数疾病中发生下调,但同时也会出现在某些疾病最显著上调的基因中。

图5. 差异表达基因(DEGs)的meta分析

6. 疾病特异性共表达网络中边的整体研究
研究者进一步探究共表达网络中最常见的共表达关系,并将它们与正常的共表达网络和相互作用网络进行比较。由于共表达网络中有相当多的边,因此研究者将分析重点放在共表达网络中最常见的边上。研究者发现21条边存在于70%以上的疾病共表达网络中,202条边存在于50%以上的疾病共表达网络中。这21条边中近一半由金属硫蛋白家族的蛋白组成,其主要参与转录因子的调控和癌症的发生。
此外,研究者将疾病共表达网络中最常见的边与正常的共表达网络进行比较,以确定两者之间的相关性。当限定相关性最强的1000或10000条边时,疾病共表达网络中最常见的边与正常网络中相关性最强的边分别有19%到17%的重叠。在这些相互作用网络中,随着疾病与对照样本间共表达网络中比较边数量的增加(即由最常见的1000到10000条),重叠的数量减少到4%。在多个疾病特异性共表达网络中与互作网络交叠的基因对需要进一步的研究,因为它们更有可能在疾病中一致出现。
7. 基于共表达网络与通路信息识别疾病相关通路
研究者系统地将通路信息与疾病共表达网络叠加,以揭示共表达网络与通路数据库中已确定的蛋白相互作用之间的一致或差异。共表达程度较高的基因更可能发挥相似功能,可以推断共同表达的基因更可能参与相同的生物学通路。基于这一假设,研究者对疾病相关通路进行识别。首先基于KEGG的通路分别将通路知识映射到疾病共表达网络和蛋白质互作网络中,并将相互作用的映射部分映射到疾病共表达网络中。在特定疾病和疾病类型中,显示出不同程度的相似性(图6)。相似性被定义为来自KEGG通路的潜在蛋白存在于疾病共表达网络中的邻居的百分比(即通路-疾病相似性),浅色代表相似度低,深色代表相似度高。比如,长期抑制的通路与精神抑郁的共表达网络具有最高的相似性。胃肠道疾病,如肾癌,结直肠癌、致病性大肠杆菌感染等的共表达网络有很高的相似性。

图6. 基于通路知识和网络相似性绘制疾病特异性表达模式

8.案例分析:精神分裂症与长期增强通路的深入研究
为理解特定疾病相关通路的背后机制,研究者主要对长期增强(LTP)通路与精神分裂症间关系进行探究,已经有证据表明精神分裂症患者的LTP发生损伤。在KEGG中,LTP通路被归类为神经系统通路,其主要由25个蛋白和35条边组成(图7)。通过将精神分裂症共表达网络与LTP通路叠加,研究者发现LTP通路蛋白间的独特相关性,表明该通路中的绝大多数蛋白在共表达网络中是相关的(图7;灰色边缘),并证明在给定的共表达网络中相关的蛋白质确实也可以参与相同的生物过程,包括蛋白激酶A与NMDA受体、Ca2+/钙调素依赖性蛋白激酶II (CAMKII)和钙调素之间的相互作用,以及CAMKII随后激活的AMPAR和代谢型谷氨酸受体等。

图7. 精神分裂症与LTP的深入研究

共表达网络常见,WGCNA也常见,为啥人家就能轻轻松松NAR呢?小编刚看到题目也是一头雾水,但是看完整篇文章之后不得不感慨人家确实还是有两把刷子的。一是数据集丰富,研究者不仅仅将目光锁定到肿瘤上,更是从ArrayExpress中筛选出279套符合要求的63种人类疾病相关转录组学数据。二是工作量比较大,对63种疾病构建共表达网络并进行系统的通路分析和比较分析。此外,结果部分的描写细致,准确,非常值得我们学习。






请到「今天看啥」查看全文