专栏名称: 猫头鹰教室
猫头鹰教室为小张聊科研发布课程与会议信息的专属账号,带来小张聊科研最新课程培训信息,并介绍课程相关的知识点,让您随时可以get到想参加的课程,也为学员提供一个继续学习和交流的港湾
51好读  ›  专栏  ›  猫头鹰教室

微生物扩增子测序图表解读(上)

猫头鹰教室  · 公众号  ·  · 2020-02-22 19:58

正文

请到「今天看啥」查看全文


很多小伙伴有过这样的经历,在拿到公司出具的报告之后,仍然一头雾水,几十页的报告内容看着丰富却不知该怎么运用,看似一大堆数据图表却不知如何下手,那么怎样给报告中的数据赋予灵魂让它真正成为对你有帮助的分析呢? 让它真正成为对你有帮助的分析呢,今天一文扫除困惑。

16s 分析结果详解
1. OUT 是我们要搞清的一个重要概念,可以说是后续分析的基石
OTU (operational taxonomic units) 是在系统发生学研究或群体遗传学研究中,为了便于进行分析,人为 给某一个分类单元 (品系,种,属,分组等) 设置的同一标志 。通常按照 97% 的相似性阈值将序列划分为不同的 OTU ,每一个 OTU 通常被视为一个微生物物种。相似性小于 97% 就可以认为属于不同的种,相似性小于 93%-95% ,可以认为属于不同的属。样品中的微生物多样性和不同微生物的丰度都是基于对 OTU 的分析。

有了 OTU 这个概念之后,就不难理解下表。对每个样本的测序数量和 OTU 数目进行统计,并且在表栺中列出了测序覆盖的完整度。


其中 SampleName 表示样本名称; SampleSize 表示样本序列总数; OTUsNumber 表示注释上的 OTU 数目; OTUsSeq 表示注释上 OTU 的样本序列总数。

2. Coverage
Coverage 是指各样品文库的覆盖率,其数值越高,则样本中序列没有被测出的概率越低。该指数实际反映了本次测序结果是否代表样本的真实情况。计算公式为: C=1-n1/N 其中 n1 = 只含有一条序列的 OTU 的数目; N = 抽样中出现的总的序列数目。

下表是对每个样本在分类字水平上的数量进行统计,并且在表栺中列出了在每个分类字水平上的物种数目。


其中 SampleName 表示样本名称; Phylum 表示分类到门的 OTU 数量; Class 表示分类到纲的 OTU 数量; Order 表示分类到目的 OTU 数量; Family 表示分类到科的 OTU 数量; Genus 表示分类到属的 OTU 数量; Species 表示分类到种的 OTU 数量。

我们可以看到绝大部分的 OTU 都分类到了属( Genus ),也有很多分类到了种( Species )。但是仍然有很多无法完全分类到种一级,这是由于环境微生物本身存在非常丰富的多样性,还有大量的菌仍然没有被测序和发现。
当然,对这些种属的构成还可以进行柱状图展示:


横坐标中每一个条形图代表一个样本,纵坐标代表该分类层级的序列数目或比例。同一种颜色代表相同的分类级别。图中的每根柱子中的颜色表示该样本在不同级别(门、纲、目等)的序列数目,序列数目只计算级别最低的分类,例如在属中计算过了,则在科中则不重复计算。

3. 韦恩图
韦恩图是对样本之间或分组之间的 OTU 进行比较获得。


4. 样品构成丰度
4.1 稀释曲线
微生物多样性分析中如何验证测序数据量是否足以反映样品中的物种多样性?

稀释曲线(丰富度曲线)可以派上用场。 它是用来评价 测序量是否足以覆盖所有类群 ,并间接反映样品中物种的 丰富程度

不免有同学有疑惑,稀释曲线怎么来的?

它是利用已测得 16S rDNA 序列中已知的各种 OTU 相对比例 计算 抽取 n 个( n 小于测得 reads 序列总数) reads 时出现 OTU 数量的 期望值 ,然后根据一组 n 值(一般为一组小于总序列数的等差数列)与其相对应的 OTU 数量的期 望值做出曲线来。 至此,我们虽然知道了稀释曲线的由来,那么这个五彩缤纷的稀释曲线该怎么看呢?

当曲线 趋于平缓 或者达到 平台期 时也就可以认为测序深度已经 基本覆盖 到样品中所有的物种,增加测序数据无法再找到更多的 OTU

反之,则表示样品中物种 多样性较高 ,还存在较多未被测序检测到的物种。

横坐标代表随机抽取的序列数量;纵坐标代表观测到的 OTU 数量。样本曲线的延伸终点的横坐标位置为该样本的测序数量。

4.2 Shannon-Winner 曲线
Shannon-Wiener 曲线,是利用 shannon 指数来进行绘制的, 反映样品中微生物多样性的指数 ,利用各样品的测序量在不同测序深度时的微生物多样性指数构建曲线,以此反映各样本在不同测序数量时的微生物多样性。

当曲线 趋向平坦 时,说明 测序数据量足够大 ,可以反映样品中绝大多数的微生物物种信息。

横坐标代表随机抽取的序列数量;纵坐标代表的是反映物种多样性的 Shannon 指数,样本曲线的延伸终点的横坐标位置为该样本的测序数量。 其中曲线的最高点也就是该样本的 Shannon 指数,指数越高表明样品的物种多样性越高。

好奇的同学又有疑问, Shannon 指数怎么算的?

这里有 Shannon 指数的公式:

其中, Sobs= 实际测量出的 OTU 数目; ni= 含有 i 条序列的 OTU 数目; N = 所有的序列数。

4.3 Rank-Abundance 曲线
该曲线用于同时解释样品多样性的两个方面,即样品所含物种的 丰富程度 均匀程度

横坐标代表物种排序的数量; 纵坐标代表观测到的相对丰度。 样本曲线的延伸终点的横坐标位置为该样本的物种数量

物种的丰富程度由曲线在横轴上的长度来反映,曲线越 ,表示物种的组成越 丰富 物种组成的均匀程度由曲线的形状来反映,曲线越 平坦 ,表示物种组成的 均匀程度越高 如果曲线 越平滑下降 表明样本的物种 多样性越高 ,而曲线 快速陡然下降 表明样本中的 优势菌群所占比例很高 多样性较低

但一般超过 20 个样本图就会变得非常复杂而且不美观!所以假如没超过 20 个样可以考虑该图哦 ~

5 . Alpha 多样性(样本内多样性)
Alpha 多样性是指一个特定区域或者生态系统内的多样性,常用的度量指标有 Chao1 丰富度估计量( Chao1 richness estimator )、香农 - 威纳多样性指数( Shannon-wiener diversity index )、辛普森多样性指数( Simpson diversity index )等。

计算菌群 丰度 Chao ace
计算菌群 多样性 Shannon Simpson

Simpson 指数值越大,说明群落多样性越高; Shannon 指数越大,说明群落多样性越高。

看了那么多指数,可能觉得有点晕,到底每个指数是什么意思呢?
当然要解释下咯:

5.1 Chao1 是用 chao1 算法计算群落中只检测到 1 次和 2 次的 OTU 数估计群落中实际存在的物种数。 Chao1 在生态学中常用来估计物种总数,由 Chao (1984) 最早提出。 Chao1 值越大代表物种总数越多

Schao1=Sobs+n1(n1-1)/2(n2+1)
其中 Schao1 为估计的 OTU 数, Sobs 为观测到的 OTU 数,
n1 为只有一条序列的 OTU 数目, n2 为只有两条序列的 OTU 数目。

5.2 Shannon 用来估算样品中 微生物的多样性指数 之一。它与 Simpson 多样性指数均为常用的反映 alpha 多样性的指数。 Shannon 值越大,说明群落多样性越高


5.3 Ace 用来估计 群落中含有 OTU 数目 的指数,由 Chao 提出,是生态学中估计物种总数的常用指数之一,与 Chao1 的算法不同。

5.4 Simpson 用来估算样品中微生物的多样性指数之一,由 Edward Hugh Simpson ( 1949) 提出,在生态学中常用来定量的描述一个区域的生物多样性。 Simpson 指数值越大,说明群落多样性越高。

6. Alpha 多样性指数差异箱形图
分别对 Alpha diversity 的各个指数进行秩和检验分析(若两组样品比较则使用 R 中的 wilcox.test 函数,若两组以上的样品比较则使用 R 中的 kruskal.test 函数),通过 秩和检验筛选不同条件下的显著差异 Alpha Diversity 指数。


7. Beta 多样性分析(样品间差异分析)
也许我们有听说 Beta 多样性在最近 10 年间成为生物多样性研究的热点问题之一。

具体解释下:
Beta 多样性 度量时空尺度上物种组成的变化 , 是生物多样性的重要组成部分 , 与许多生态学和进化生物学问题密切相关!

7.1 PCoA 分析
PCoA principalco-ordinates analysis )是一种研究数据相似性或差异性的可视化方法,通过一系列的特征值和特征向量进行排序后,选择主要排在前几位的特征值, PCoA 可以找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样品点之间的相互位置关系,只是改变了坐标系统。 重要的是,它是可以用来观察个体或群体间的差异的。

每一个点代表一个样本,相同颜色的点来自同一个分组,两点之间距离越近表明两者的群落构成差异越小。

7.2 PCA 分析
主成分分析( Principalcomponent analysis PCA 是一种研究数据相似性或差异性的可视化方法,通过一系列的特征值和特征向量进行排序后,选择主要的前几位特征值,采取 降维 的思想, PCA 可以找到距离矩阵中最主要的坐标,结果是数据矩阵的一个旋转,它没有改变样品点之间的相互位置关系,只是改变了坐标系统。


详细关于主成分分析的解释推荐大家看一篇文章, http://blog.csdn.net/aywhehe/article/details/5736659

一起来看看包含 PCoA 研究的文章。


研究背景 :全球塑料产量飞速增长,而且呈持续上升的趋势,因此导致大量塑料废物排放到环境中,从沿海河口到大洋环流,从东大西洋到南太平洋海域。塑料废弃物具有化学稳定性和生物利用率低的特点,可长期存在于海洋中,从而影响海洋环境包括海洋生物的生存。

作为一个独特的底物,塑料碎片可以吸附海洋中的微生物并形成个“塑性球”。以生物膜形式存在于塑料碎片上的微生物群落。许多研究表明,无论是在海洋还是淡水生态系统中,附着在塑料碎片上微生物群落的组成明显不同于周围环境(水和沉积物),而且易受位置、时间和塑料类型的影响。

主要图表:
两两群落差异指数的 PCoA 图:

PCoA 图可以清楚地看到, SW 区细菌群落的置信椭圆与 pd sd 的置信椭圆有显著的偏差 (p<0.05) ,而 sd 上细菌群落的置信椭圆几乎覆盖了 pd 的置信椭圆 (p>0.05) ,这表明 pd sd 上的细菌群落有相似之处。

不同样本和处理下的细菌群落(前 10 位)丰度分布:


底物 (SW SD Pd) 上的主要属为细菌和假互斥单胞菌,暴露两周后,这些菌可能是分布广泛和适应性强的三种底物 (SW SD PD) 。暴露 4 周后,弧菌相对丰度增加 . 此外,暴露 6 周后,自养细菌 ( 如扁平菌和硝酸菌 ) 的数量增加。这三种底物上个细菌群落的生长模式也与 3.2 的结果一致。图 5 还显示,在 6 个星期内,在 429 个原位点中,假单胞菌在 pd 上的相对丰度高于 sw sd(anova p<0.05)


研究结论: 首先,营养物质 (TN TP) 与生物膜的平均生长速率呈正相关,而盐度与生物膜的平均生长速率呈负相关。盐度是影响 PD 的个细菌多样性的主要因素,而温度、溶解氧和养分 (TN TP) 在类似的盐度条件下可能具有二次效应。尽管种聚合物类型对 PD 上的细菌群落的多样性具有较少的影响,但是在细菌群落中的一些属显示对 PD 的聚合物类型的选择性,并且倾向于将其优选的基质定殖。大的相对丰度 SW PD SD 间属显著差异。盐度是改变河口地区 Pd 条件致病菌富集的主要因素。另外,在种病原物种丰富的基础上, PD 具有较高的致病性。

7.3 NMDS 分析(非度量多维尺度分析)
NMDS NonmetricMultidimensional Scaling )常用于 比对样本组之间的差异 ,可以基于进化关系或数量距离矩阵。

每一个点代表一个样本,相同颜色的点来自同一个分组,两点之间距离越近表明两者的群落构成差异越小。

7.4 排序分析
PCA PcoA NMDS 分析都属于排序分析( Ordinationanalysis )。
排序 (ordination) 的过程就是在一个可视化的低维空间或平面重新排列这些样本。
目的 :使得样本之间的 距离 最大程度地 反映出平面散点图内样本之间的关系 信息。
排序又分两种: 非限制性排序和限制性排序。

1 、非限制性排序 (unconstrainedordination)
—— 只使用物种 组成数据的排序
(1) 主成分分析 (principalcomponents analysis,PCA)
(2) 对应分析 (correspondenceanalysis, CA)
(3) 去趋势对应分析 (Detrendedcorrespondence analysis, DCA)
(4) 主坐标分析 (principalcoordinate analysis, PCoA)
(5) 非度量多维尺度分析 (non-metricmulti-dimensional scaling, NMDS)

2 、限制性排序 (constrainedordination)
——同时使用 物种 环境因子 组成数据的排序
(1) 冗余分析 (redundancyanalysis,RDA)
(2) 典范对应分析 (canonicalcorrespondence analysis, CCA)

比较 PCA PCoA
在非限制性排序中, 16S 和宏基因组数据分析通常用到的是 PCA 分析和 PCoA 分析,两者的区别在于:
PCA 分析是基于 原始的物种组成矩阵 所做的排序分析,而 PCoA 分析则是基于 由物种组成计算得到的距离矩阵 得出的。
PCoA 分析中,计算距离矩阵的方法有很多种,包括如: Euclidean, Bray-Curtis, and Jaccard ,以及 (un)weighted Unifrac ( 利用各样品序列间的进化信息来计算样品间距离,其中 weighted 考虑物种的丰度, unweighted 没有对物种丰度进行加权处理 )








请到「今天看啥」查看全文