在
之前的文章
中我们提到,由于微生物组数据之间的非独立性,往往会导致传统相关性计算方法(Pearson)出现偏差。除了
SparCC
之外, SPIEC-EASI (
SP
arse
I
nvers
E
C
ovariance Estimation for
E
cological
A
ssociation
I
nference,读作
speakeasy
)也是一种常用的统计方法。这种方法将针对组成数据开发的数据转换方法与稀疏图形模型推理框架相结合,使用稀疏邻域和逆协方差选择算法构建微生物组网络,该流程封装于
SpiecEasi
R 包中。
Sparse and compositionally robust inference of microbial ecological networks. PLoS Comput. Biol. 2015; 11: e1004226
GitHub 地址:https://github.com/zdk123/SpiecEasi
相关性分析和条件独立性
在一个生态系统中,任何 OTU 的丰度都可能依赖于其他 OTU 的丰度。下面我们定义一个场景:OTU 3 可(通过某种生物学机制)直接影响 OTU 1、2 和 4,OTU 1、2 和 4 之间并无直接关联。
根据上图中的关系,我们模拟了一个包含五百个样本的虚拟数据集(绝对丰度):
根据丰度矩阵我们可计算这四个物种的 Pearson 相关性矩阵(正相关为绿色,负相关为红色)。
不同阈值可绘制不同的网络关系。比如以 ρ≥|0.35| 为阈值(虚线),网络中 OTU 3 将连接到所有其他 OTU,而且 OTU 2 和 OTU 4 之间还多了一个连接。但若使用更严格的ρ≥|0.5| 为阈值(实线),将导致更稀疏的相关性网络,缺失 OTU 3 和 OTU 1 之间的联系。
但更关键的是,用这种方法没有一个阈值可以恢复真正的网络关系。
SPIEC-EASI 所使用的逆样本协方差矩阵也是一个对称矩阵,如果 OTU 关系是独立的,则值近似为零。所以根据样本逆协方差的方法选择阈值,可以恢复真实的网络。