专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  Dev Cell | ... ·  2 天前  
生物制品圈  ·  合成生物发酵工程工艺设计与设备设施改造 ·  2 天前  
生信菜鸟团  ·  前瞻 | Nature | ... ·  3 天前  
BioArt  ·  Science丨神经元- ... ·  3 天前  
51好读  ›  专栏  ›  生信菜鸟团

WGCNA(1)常见图表介绍

生信菜鸟团  · 公众号  · 生物  · 2024-09-19 18:27

正文

学习笔记总结于『生信技能树』马拉松课程

GEO数据挖掘系列,第19篇学习笔记:学习加权共表达网络分析的常见图

差异分析:找出一组与另一组之间表达量有差别的基因

加权共表达网络分析(WGCNA, Weighted correlation network analysis):先把基因分组,再找出与自身实验设计或者与某种表型最相关的一组基因

下面将介绍加权共表达网络分析的五张常见图

一、软阈值β选择图

1.R^2系数 & β软阈值

R^2 :无标度网络的拟合度/判定系数,评估拟合模型对观测数据的解释能力(简单来说R^2是衡量无标度网络的统计指标)

R^2越大,说明越接近无标度网络如图2(a)。哪个数字第一次达到了纵坐标0.8/0.85/0.9,则哪个数字是软阈值

如图纵坐标已达到0.9,对应数字是12,则可以就以0.9为准;如果数值已经达到20+但还没到0.9,那可以换成0.8或0.85(一般最低就0.8了)

β :软阈值,相关性矩阵向邻接矩阵转换的 参数

2.connectivity连接度

connectivity :连接度,反映在一个网络中,其某个节点的重要程度

mean connectivity :平均连通性,尽可能大

3.需要中和两者考虑

虽然要追求尽量大的连接度,但不能太离谱。例如如图1(右)最大平均连接度达到1500时数值是1,对应到图1(左)数值为1时纵坐标是-0.4,它与0.9相差太大,这样也不行

图1

4.无标度网络

如图2(a),有的点处于核心位置,有的点处于边缘位置,它们有明确的等级之分,基因网络更符合无标度网络而不是随机网络

5.随机网络

如图2(c),点与点之间都差不多,没有指向集中性

图2

二、基因模块化图

对基因进行聚类,比较基因表达模式是否类似。类似则会被划进同一模块即被聚到一个分支,每条线代表一个基因

不同模块用不同颜色表示,同一模块的基因通常据有类似的功能

灰色:没有对应到任何模块的基因

希望看到的结果是:每个模块尽量都在一起。同一种颜色越被聚到一起,说明结果越好,但没被聚到一起如图3所示也不是不能用

图3

三、模块与性状之间的关联图

横坐标为表型,纵坐标为模块,数值越大越相关

如图4,假设现在想研究这两个表型genotype和age。对于genotype而言,与它最相关的模块是MEpink;对于age而言,与它最相关的模块是MEturquoise,至此可以将这两个模块的基因分别提取出来研究

图4

相关系数只能计算对应的两列,而表达矩阵是一个表格,而非一列。 所以不是直接拿表达矩阵去计算,而是需要汇总,将多列变成一列后才能计算相关性

多列变一列的方法:对一个模块里的基因表达矩阵进行主成分分析,用第一个主成分(PC1)的指标--特征向量(ME)代表一个模块,得到模块MEs矩阵

至此可以计算每个模块的特征向量与若干个性状之间的相关系数,形成一个矩阵,做热图

四、MM & GS图

即拿出其中一个模块里的基因作图,例如拿取的是图4中青色模块的基因,图5中横坐标为MM,纵坐标为GS。

GS 代表模块里的每个基因与性状的相关性







请到「今天看啥」查看全文