最近刷到了一个预印本的文章:《The curses of performing differential expression analysis using single-cell data》,是来自于美国的密西根大学和芝加哥大学的研究论文。他们提到了单细胞数据分析的“诅咒”(curses)。单细胞转录组差异分析之所以困难,主要是由于以下8个方面的原因:
-
-
单细胞数据需要经过标准化来校正PCR扩增偏倚、批次效应以及数据分布的偏差。然而,目前还没有建立一个统一的金标准来指导在不同情况下应使用哪种标准化方法。
-
传统的基于计数的标准化方法(如CPM)可能会抹去由UMIs(Unique Molecular Identifiers)提供的重要数据,并且不考虑基因间对细胞资源的竞争。
-
单细胞数据中存在大量的零值,这些零值可能代表基因未表达、表达水平低未被检测到,或是技术问题导致的未捕获。
-
许多单细胞差异表达研究在预处理步骤中尝试去除零值膨胀,但这可能会错误地将生物学上有意义的零值(例如由于表达量低或不表达)视为技术假象。
-
在单细胞研究中,来自不同供体的样本通常在同一批次中处理,导致供体效应与批次效应混杂在一起。
-
即使进行了批次校正,供体效应仍然可能存在,如果不考虑这些效应,可能会导致假阳性的发现。
累积偏差(Cumulative Biases)
:
-
单细胞数据分析通常遵循一个层次化的顺序工作流程,从批次校正到标准化、数据插补和特征选择,这些步骤可能会将前一步的偏差带入到下一步,从而累积起来,最终减弱检测差异表达基因的能力。
-
选择合适的统计模型来处理单细胞数据也是一项挑战,因为数据的分布可能与模型的假设不完全一致,例如,负二项分布的假设可能不适用于所有情况。
-
单细胞数据通常非常稀疏,每个样本中表达的基因数量较少,这增加了分析的复杂性。
-
单细胞测序技术可能会引入技术变异,不同批次的样本可能会有不同的技术变异,这需要在分析中仔细处理。
-
即使是来自同一类型的细胞,不同个体或不同状态下的细胞也可能表现出显著的生物学变异。
-
处理和分析单细胞数据需要复杂的计算方法和较大的计算资源。
文献中提出的新范式(new paradigm)是直接在原始UMI计数上应用广义线性混合模型(GLMM),这种方法可以在执行批次校正、标准化、插补或特征选择之前,就对原始数据进行差异表达分析。这种方法保留了样本特定的结构和生物信号,并可以调整任何潜在的混杂因素,如批次、年龄、性别或种族,通过将它们作为固定效应的协变量纳入模型中。这种方法可能有助于克服上述一些挑战,提高单细胞转录组差异分析的准确性和可靠性。
基于广义线性混合模型(GLMM)做单细胞转录组差异分析
在这篇论文中,作者提出了使用广义线性混合模型(Generalized Linear Mixed Model, GLMM)来处理单细胞转录组数据的差异表达分析。GLMM 是一种灵活的统计方法,可以同时处理固定效应和随机效应。以下是 GLMM 在单细胞数据分析中的一些优缺点:
优点:
-
处理多层次数据结构
:GLMM 可以很好地处理单细胞数据中的多层次结构,例如,考虑细胞类型、供体(donor)和实验批次等不同层次的效应。
-
调整混杂因素
:通过将批次、年龄、性别或种族等潜在的混杂因素作为协变量纳入模型,GLMM 可以有效地调整这些因素对结果的影响。
-
利用原始UMI计数
:GLMM 直接在原始的UMI(Unique Molecular Identifiers)计数上进行分析,保留了数据的绝对表达水平,这有助于更准确地估计基因表达的差异。
-
提高统计检验的准确性
:GLMM 可以提供更为准确的统计检验,因为它考虑了数据的随机效应,从而减少了假阳性和假阴性的风险。
-
灵活性
:GLMM 允许研究者根据数据的特定情况选择合适的概率分布,例如泊松分布或二项分布,以适应不同类型的计数数据。
-
更好的敏感性
:GLMM 显示出比现有方法更高的敏感性,能够检测到更多的差异表达基因。
-
稳健性
:GLMM 对模型的误设定具有较好的稳健性,即使数据的实际分布与模型假设不完全一致,也能提供可靠的结果。
缺点:
-
计算复杂性
:GLMM 的计算通常比简单的统计方法更为复杂和资源密集,可能需要较长的计算时间和较高的计算能力。
-
模型设定
:选择合适的随机效应结构可能具有挑战性,不当的模型设定可能导致错误的结论。
-
参数估计
:在某些情况下,GLMM 的参数估计可能不够精确,特别是当数据中存在稀有事件或极端值时。
-
过度依赖先验假设
:GLMM 的结果可能过度依赖于先验的假设,如数据分布的假设,如果这些假设不成立,可能会影响结果的解释。
-
模型选择困难
:在面对多种可能的模型时,选择合适的模型可能具有挑战性,需要专业知识和经验。
-
对数据质量要求较高
:为了获得准确的结果,GLMM 分析需要高质量的数据,包括严格的数据清洗和预处理步骤。
-
结果解释
:GLMM 提供了丰富的统计输出,但结果的解释可能比简单的方法更为复杂,需要深入理解模型和统计概念。
总的来说,GLMM 为单细胞数据的差异表达分析提供了一种强大的工具,尽管存在一些挑战和局限性,但其优点使其成为解决现有方法不足的有力候选。
案例和对比
在这篇论文中,作者为了证明其提出的广义线性混合模型(GLMM)算法的优势,与几种现有的单细胞差异表达分析方法进行了对比。以下是作者对比的方法以及结果概述:
-
Poisson-glmm 和 Binomial-glmm
:这是作者提出的两种新方法,它们直接在原始UMI(Unique Molecular Identifiers)计数上执行差异表达分析,使用GLMM框架来调整批次效应和样本内变异。
-
DESeq2
和
edgeR
:这两种是传统的伪批量(pseudo-bulk)方法,它们将来自同一供体的细胞合并,并使用与批量RNA-seq数据相同的工具进行差异表达分析。
-
MAST
:这是一种为单细胞数据设计的方法,采用零膨胀负二项模型,并使用对数转换的CPM(counts per million)计数进行分析。
-
Wilcox
:这是Seurat包中使用的非参数秩和检验方法,它使用集成的标准化计数数据。
-
Muscat
中的
MMvst
和
MMpoisson
:这些是Muscat包中实现的混合模型,分别在方差稳定转换数据和原始UMI计数上拟合线性混合模型。