Basic Information
英文标题: ezSingleCell: an integrated one-stop single-cell and spatial omics analysis platform for bench scientists
中文标题:ezSingleCell:一种专为实验台科学家设计的集成一站式单细胞和空间组学分析平台
所属期刊:Nature Communications
文章作者:Raman Sethi | Jinmiao Chen
文章链接:https://www.nature.com/articles/s41467-024-48188-2
Abstract
ezSingleCell 是一个交互式且易于使用的应用程序,用于分析各种单细胞和空间组学数据类型,无需预先具备编程知识。
它结合了公开可用的最佳方法,用于深入的数据分析、整合和交互式数据可视化。
ezSingleCell 包含五个模块,每个模块都设计为一种数据类型或任务的全面工作流程。
此外,ezSingleCell 允许在一个统一界面内不同模块之间进行交互。
可接受的输入数据可以是多种格式,而输出则包括可用于发表的图表和表格。
提供详细的手册和视频教程,指导用户完成分析工作流程和参数调整,以适应他们的研究目标。
ezSingleCell 流畅的界面可以在不到五分钟的时间内分析一个包含 3000 个细胞的标准单细胞 RNA 测序数据集。
ezSingleCell 提供两种形式:无需安装的网页应用 (https://immunesinglecell.org/ezsc/) 或带有 shinyApp 界面的软件包 (https://github.com/JinmiaoChenLab/ezSingleCell2),用于离线分析。
Introduction
单细胞RNA测序(scRNA-seq)已成为一种强大的技术,能够在单细胞水平上获取基因表达谱。
单细胞分析还扩展到了其他组学领域,例如单细胞ATAC-seq和CITE-seq,分别用于测量染色质可及性和蛋白质。
此外,空间转录组学的进步现在使研究人员能够在保持空间上下文的同时,以单细胞分辨率探查组织样本。
后者的能力对于理解不同细胞类型如何在空间上排列以产生组织的涌现特性至关重要。
与此同时,新的工具正在被开发出来以分析产生的数据并产生新的生物学见解。
2021年,Zappia 和 Theis 报告称,在 scRNA-tools 数据库中编目的单细胞工具数量已超过一千。
目前,两个软件平台仍然占据主导地位,分别是 Seurat 和 Scanpy,它们分别是 R 和 Python 中进行单细胞分析的事实标准。
两者都需要一定程度的生物信息学专业知识和编程知识,因此对实验科学家的数据分析构成了障碍。
相比之下,具有直观图形用户界面的工具将极大地有利于希望使用单细胞实验的实验科学家。
最近从研究社区和商业公司开发了几个网络服务器(补充表 1),但大多数仅限于转录组学分析,无法在一个统一的界面中处理空间组学、单细胞多组学和单细胞染色质可及性(scATAC-seq)衍生的数据。
此外,这些网站主要提供基本的分析功能,如质量控制、数据聚类和降维,而更高级的下游分析,如细胞类型鉴定和细胞间相互作用,并未包含在其分析流程中。
只有 ICARUS 和 Cellar 可以处理多种数据模式,并提供一些下游分析,如细胞类型鉴定,但不包括其他如细胞间通信和空间数据集的细胞类型去卷积。
另一个网络服务器 SciAp 集成了来自不同工作流程的工具,包括来自 Scanpy 的20个模块,涵盖了数据过滤、标准化、变量基因选择、聚类、降维和轨迹推断方法,但目前仅处理 scRNA-seq 数据。
此外,不同数据模式的整合分析,例如将 scRNA-seq 与空间转录组学结合,目前的网络服务器尚无法实现。
为了提供一个更全面的数据分析平台,并具有用户友好的界面,我们推出了 ezSingleCell,这是一个专为实验科学家设计的一体化单细胞和空间数据分析网络服务器(https://immunesinglecell.org/ezsc/)。
ezSingleCell 接受多种格式的数据输入,如文本格式(csv 和 tsv)或 10x Cell Ranger/Space Ranger/Cell Ranger-ATAC 输出,并返回可用于发表的图形和表格。
ezSingleCell 在以下方面改进了现有的单细胞数据分析网络服务器,包括 SciAp、ICARUS 和 CELLAR。
首先,ezSingleCell 覆盖了更广泛的单细胞数据分析范围,包括单细胞多组学、单细胞 ATAC-seq 和空间转录组学。
提供的分析工具包括我们自主研发的算法 GraphST 和 CELLiD,以及根据基准测试研究确定的顶级公开可用工具,如 Seurat、Harmony、scVI、CellphoneDB、MOFA + 和 Signac。
其次,ezSingleCell 提供了许多超出基本分析流程的高级分析功能。
所有模块通用的分析选项包括差异基因表达分析、基因集富集分析、细胞类型相似性分析和细胞间通讯分析。
此外,ezSingleCell 还提供了特定模块的分析功能,例如在 scATAC-seq 模块中的 Peak2GeneLinkage 分析以及对空间数据集进行的细胞类型去卷积。
第三,ezSingleCell 可以分析 scATAC-seq 数据集,而大多数网络服务器不具备此功能。
第四,ezSingleCell 可以通过几何素描技术扩展到大型数据集。
几何素描技术可以在保留罕见细胞状态的同时对包含一百万或更多细胞的大规模 scRNA-seq 数据集进行子采样。
这项技术有助于加速大规模数据集的聚类、可视化和整合分析。
也观察到几何素描技术在通过聚类区分生物细胞类型方面一直有效。
最后,ezSingleCell 允许不同分析模块之间的交互。
例如,经过处理和分析并带有注释的单细胞 RNA-seq 数据可以用于解卷积空间数据中的细胞类型,或进行标签转移以注释 scATAC-seq 数据中的细胞类型。
目前还没有网络服务器具备这种在同一界面内将两种组学数据类型连接起来的能力。
Results
Overview of ezSingleCell and its advantages over other tools
ezSingleCell 概览及其相较于其他工具的优势
ezSingleCell 由五个模块组成,分别是单细胞 RNA 测序(scRNA-seq),单细胞数据整合(scIntegration),空间转录组学(ST),单细胞多组学(scMultiomics)和单细胞 ATAC 测序(scATAC-seq)。
每个模块提供了多种工具,涵盖了从数据预处理到交互式结果可视化的完整数据分析流程。
对于每个分析步骤,我们根据我们和其他基准研究选择了表现最佳的方法。
ezSingleCell 中提供的已发表和内部新型算法均列于补充表 2 中。
对于每个分析步骤,我们提供了适用于大多数分析的默认参数,但用户也可以调整它们以获得最佳结果。
在 scRNA-seq 分析模块中,用户可以执行基本分析如聚类和差异基因表达分析,以及使用我们的内部新型算法 CELLiD 或 CellTypist 进行高级分析如细胞类型识别,基因集富集分析(GSEA)和细胞间通讯。
我们还引入了 ‘clustree’ 包来帮助用户选择与其生物学问题相关的最优聚类数量。
scIntegration 模块提供了四种表现最佳的单细胞转录组数据整合算法,即 Seurat Integration,Harmony,scVI 和 fastMNN。
我们还包含了 iLISI 等定量指标供用户评估批处理整合性能。
空间转录组学(ST)模块配备了 Seurat 的空间转录组分析功能和我们的内部 GraphST 算法。
这些工具能够对通过不同技术平台如 10x Genomics Visium 和亚细胞技术如 10x Genomics Xenium 获取的空间数据进行空间聚类和细胞类型解卷积。
对于 scMultiomics 模块,我们评估了所有可用方法,并选择了 Seurat WNN 和 MOFA + 用于包含。
这些方法可以处理包括 CITE-seq(联合 scRNA-seq 和蛋白质)和 10x Multiome(联合 scRNA-seq 和 ATAC-seq)在内的多模态数据。
最后,scATAC-seq 模块提供了 Signac 的功能,用于单细胞染色质可及性数据的端到端分析,包括峰调用,量化,质量控制,维度降低,聚类,与单细胞基因表达数据集的整合,DNA 主题分析和交互式可视化。
Fig. 1: Overview of the ezSingleCell webserver.
ezSingleCell 包含五个模块,单细胞 RNA 测序(scRNA-seq),单细胞数据整合(scIntegration),空间转录组学,单细胞多组学(scMultiomics)和单细胞 ATAC 测序(scATAC-seq)
该图还显示了每个模块可以执行的主要任务以及每个模块中可用的工具
这里我们广泛比较了ezSingleCell与公开可用的网络服务器和商业服务的特点。
如表1和表2所示,大多数网络服务器(如SciAp、ASAP、alona、NASQAR、SCTK和Asc-Seurat)仅限于转录组学分析。
一些网络服务确实提供了额外的功能,例如数据整合(SCTK 2.0、ICARUS)、单细胞多组学(ICARUS、Cellar)、scATAC-seq(shinyArchR.UiO)和空间分析(Cellar),但它们没有提供一个综合分析的统一界面。
现有的网络服务器也不允许不同分析模块之间的交互,例如使用单细胞RNA-seq数据解析空间转录组学数据或使用单细胞RNA-seq数据进行scATAC-seq数据的细胞类型标签转移。
ezSingleCell还在其模块内提供了先进的下游分析功能。
此外,ezSingleCell支持scATAC-seq数据集分析,这是大多数网络服务器所缺乏的。
最后,ezSingleCell的界面告知用户哪些功能是可选的,哪些需要顺序运行,哪些可以并行运行。
Table 1 Comparison of ezSingleCell with existing single-cell academic web servers for a variety of tasks in each module (scRNA-seq, scIntegration, scMultiomics, scATAC-seq, and Spatial transcriptomics)
表 1 ezSingleCell 与现有单细胞学术网页服务器在各模块(scRNA-seq、scIntegration、scMultiomics、scATAC-seq 和空间转录组学)中多种任务的比较
image-20240902011837184
Table 2 Comparison of ezSingleCell with popular commercial services such as 10x Loupe Browser, Partek, and Bioturing for a variety of tasks in each module (scRNA-seq, scIntegration, scMultiomics, scATAC-seq, and Spatial transcriptomics)
表2 比较了 ezSingleCell 与流行商业服务(如 10x Loupe Browser、Partek 和 Bioturing)在各个模块(scRNA-seq、scIntegration、scMultiomics、scATAC-seq 和空间转录组学)中的多种任务
image-20240902011918443
ezSingleCell 有两种形式:一种是无需安装的网络应用程序(https://immunesinglecell.org/ezsc/),另一种是具有 Shiny 应用程序界面的软件包(https://github.com/JinmiaoChenLab/ezSingleCell2),可以在计算机上运行进行离线分析。
ezSingleCell 的源代码也在 Zenodo 上提供(https://doi.org/10.5281/zenodo.10785313)。
ezSingleCell’s scRNA-seq module streamlines the analysis of scRNA-seq data
ezSingleCell 的单细胞 RNA 测序模块简化了单细胞 RNA 测序数据的分析
ezSingleCell 的单细胞 RNA 测序分析模块依赖于 Seurat 进行基本分析,并使用其他软件包/内部算法进行高级分析,如细胞类型注释、基因集富集分析(GSEA)和细胞间通讯。
除了常用的功能外,ezSingleCell 还提供了其他功能,例如细胞周期评分和回归,以帮助用户减轻细胞周期异质性的影响。
在这里,我们展示了 ezSingleCell 在单细胞 RNA 测序分析中的实用性。
作为示例,我们使用了来自 Seurat 引导聚类教程中的 2700 个外周血单核细胞(PBMCs)的数据集。
ezSingleCell 允许用户通过设置参数如 min.genes 和 min.cells 来执行质量控制并过滤掉低质量细胞,并使用小提琴图、特征图和山脊图来可视化数据。
然后,用户可以使用对数标准化或 SCTransform 进行数据预处理,并选择所需的可变特征数量。
在这个例子中,我们使用了默认的参数值,min.genes 设置为 200,min.cells 设置为 3。
然后我们进行了对数标准化的数据预处理,选择了前 2000 个高变异基因进行可变特征选择,并进行了数据缩放。
使用前 10 个主成分维度进行了细胞聚类,k 最近邻值设为 10,聚类分辨率为 2,以获得 15 个聚类。
结果使用 UMAP 图进行了可视化,该图由主成分维度 1 到 10 生成。
Fig. 2: ezSingleCell scRNA-seq module.
单细胞RNA测序分析的工作流程;(B) 在ezSingleCell中进行的单细胞RNA测序UMAP和聚类可视化;(C) 使用CELLiD和CellTypist进行细胞类型鉴定。用户也可以在ezSingleCell中重命名聚类;(D) 使用‘wilcoxon’检验进行基于聚类的差异表达基因(DEG)分析;(E) 使用‘wilcoxon’检验对感兴趣的两种细胞类型之间的差异表达基因(DEG)进行成对分析。源数据以源数据文件的形式提供。
Fig. 3: Advanced analyses in ezSingleCell scRNA-seq module.
A 进行细胞类型相似性分析;(B) 使用加权柯尔莫哥洛夫-斯米尔诺夫统计量进行基因集富集分析(GSEA);(C) 使用 CellphoneDB 进行细胞间通讯分析。源数据以源数据文件的形式提供。
我们接下来使用我们的内部细胞识别算法CELLiD(https://www.immunesinglecell.org/cellpredictor)和‘血液’细胞类型参考以及CellTypist(https://www.celltypist.org/)对聚类进行了注释。
CELLiD分配了以下标签:记忆CD4 T细胞、CD14单核细胞、记忆B细胞、初始CD4 T细胞、初始B细胞、CD16单核细胞、GZMB CD8 T细胞、CD16 NK细胞、GZMK CD8 T细胞、树突细胞和巨核细胞(图2C和补充图3B)。
使用CellTypist,我们鉴定了11种细胞类型,分别是MAIT细胞、B细胞、Tcm/初始辅助T细胞、非经典单核细胞、CD16 NK细胞、Tem/Trm细胞毒性T细胞、Tem/效应辅助T细胞、经典单核细胞、Tcm/初始细胞毒性T细胞、DC细胞和巨核细胞/血小板。
两种细胞类型注释方法重现了Seurat教程中提供的原始注释。
我们注意到B细胞可以分为初始和记忆B细胞亚群,CD8 T细胞可以分为GZMK和GZMB CD8 T细胞亚群,从而提供了更高分辨率的细胞类型标记。
然后我们通过检查标志基因表达来确认注释的正确性(补充图3F,G)。
ezSingleCell还为用户提供根据个人偏好重命名聚类或合并不同聚类的功能。
此外,用户可以根据自定义参数细分感兴趣的聚类,这有助于定义细胞类型亚群。
然后我们计算了差异表达基因,并发现了B细胞亚群中的标志物如CD79A、CD79B和MS4A1,以及CD14单核细胞中的S100A8、S100A9和LYZ(图2D)。
使用小提琴图、特征图和山脊图可视化这些基因,证实了它们在各自细胞类型聚类中的高表达(补充图3C–E)。
用户还可以计算两个指定细胞类型之间的差异表达基因,并使用火山图可视化差异表达基因,突出显示差异表达最高的显著基因(图2E)。
例如,我们观察到FCGR3A、S100A8和LYZ在CD16单核细胞中相比CD14单核细胞显著上调表达。
然后我们计算了细胞类型相似性(图3A),这与UMAP图中观察到的聚类一致。
最大的聚类中的细胞类型(主要由T细胞和NK细胞组成)与其他同一聚类中的细胞类型显示出较高的相似性得分,而孤立的聚类(如巨核细胞)与其他所有细胞类型的相似性得分较低(图2C)。
这种细胞类型相似性分析在用户识别出未知细胞群并希望估计其与已知细胞类型的相似性时非常有用。
ezSingleCell 还提供了 fgsea25 用于基因集富集分析(图 3B)。
用户可以从 MSigDB 数据库中选择任意基因集用于人类(Hallmark, C1-C8)和小鼠(MH, M1, M2, M3, M5 和 M8)样本。
在这里,我们使用了人类‘C7’免疫特征基因集对 Naïve CD4 T 细胞和 Memory CD4 T 细胞之间的差异表达基因进行了 GSEA 分析。
我们根据基因的对数倍变化进行排序,并计算了最富集的通路。
正如预期的那样,我们观察到 GSE11057 NAÏVE VS MEMORY CD4 TCELL UP、GSE11057 NAIVE VS EFF MEMORY CD4 TCELL UP 和 GSE11057 NAIVE VS CENT MEMORY CD4 TCELL UP 基因集在 Naïve CD4 细胞中相比于 Memory CD4 细胞显著富集。
最后,ezSingleCell 集成了广泛采用的 CellPhoneDB 包以及各种配体-受体对数据库,用于分析细胞间通讯。
使用 CellPhoneDB,预测 cDC 和 CD16 单核细胞之间具有最多的潜在相互作用(图 3C 左侧)。
然后,我们使用 p 值截止 <0.05 过滤了 cDCs 和 CD16 单核细胞之间的显著配体-受体对(图 3C 右侧)。
最后,scRNA-seq 模块的注释输出可以在其他模块中使用。例如,用户可以导航到空间转录组学模块,并使用单细胞注释进行细胞类型/表型解卷积。
ezSingleCell’s scIntegration module performs batch correction of multiple scRNA-seq datasets
ezSingleCell 的 scIntegration 模块执行多个单细胞 RNA 测序数据集的批次校正
为了展示ezSingleCell中scRNA-seq数据的批次效应校正,我们使用了一个包含两个批次的人类PBMC数据集。
这两个数据集均来自10x Genomics,其中3’批次的数据包含8381个细胞,而5’批次的数据包含7726个细胞(补充表3;补充数据集1)。
对于批次效应校正,ezSingleCell接收带有批次信息的表达数据集和元数据。
细胞类型信息是可选的,但在下游进行细胞类型分离评估时是必需的。
我们首先进行了标准的质量控制和数据预处理步骤,包括对数归一化,找出前2000个高变异基因,并使用默认参数进行缩放。
聚类使用了前10个主成分,k最近邻值为10,并且在分辨率为0.6的情况下进行Louvain聚类。
在批处理校正之前的UMAP图中,我们可以明显观察到批次效应的存在。
目前ezSingleCell中有四种可用的批次校正方法,分别是Seurat、Harmony、scVI和fastMNN。
我们用2000个集成特征运行了这四种方法,并使用默认参数进行聚类和UMAP可视化以查看其结果。
为了基准测试批次混合效果,我们在ezSingleCell中计算了中位iLISI得分。
iLISI指标测量局部区域内批次的数量,因此得分与批次数量相匹配表示良好的混合。
Harmony排名第一(iLISI = 1.70),其次是fastMNN(1.54)、Seurat(1.43)和scVI(1.39)。
在批次整合之后,可以进行其他下游分析,如聚类、使用CELLiD算法识别细胞类型、差异基因表达分析和标记基因可视化(补充图4)
Fig. 4: ezSingleCell scIntegration module.
该模块的主要功能包括质量控制、标准化、在批效应校正前后的UMAP可视化以及使用Seurat、Harmony或scVI进行批效应校正后的情况,并通过iLISI评分评估整合效果
如同单细胞RNA测序模块一样,单细胞整合模块的注释输出可以用于空间转录组学模块中的细胞类型/表型解卷积。
分析完成后,用户可以导航到空间转录组学模块并使用单细胞输出结果。
ezSingleCell’s ST module performs clustering, integration, and deconvolution of spatial transcriptomics
ezSingleCell 的 ST 模块执行聚类、整合和空间转录组的去卷积
在本模块中,我们结合使用了 Seurat 和 GraphST 来处理和分析空间转录组学数据。
Seurat 提供了数据预处理和聚类的关键功能,而 GraphST 则执行基于空间信息的空间聚类、多样本整合和细胞类型解卷积。
GraphST 是一种最先进的图自监督对比学习方法,在与竞争方法的基准测试中表现出色。
ST 模块可用于分析来自不同平台的数据,例如 10x Genomics 的 Visium 和 Xenium,后者提供了亚细胞分辨率。
类似于其他模块,用户可以使用多种统计检验方法计算集群差异表达基因(补充图 5D)和成对比较差异表达基因(补充图 5E),并使用 ‘fgsea’ 包进行空间数据的基因集富集分析(补充图 5F)。
在这次演示中,我们分析了使用 10x Genomics Visium 获取的小鼠脑矢状面前部数据集,并通过 Space Ranger v1.1.0 管道进行了处理(补充表 3;补充数据集 1)。
我们首先进行了质量控制,然后使用 SCTransform 进行标准化,选择了前 2000 个高变基因,并对数据进行了缩放。
用户可以首先检查组织切片上的基因表达值(图 5A)。
对于空间聚类,我们分别应用了 Seurat 和 GraphST 方法。
我们使用了前 10 个主成分,k-最近邻值为 10,Louvain 聚类分辨率为 0.6,然后使用 UMAP 进行降维以可视化找到的 15 个聚类(图 5B)。
我们还将 GraphST 的聚类数设置为 15,并观察到 GraphST 的聚类结果与手动注释更为一致(图 5B)。
Fig. 5: ezSingleCell spatial transcriptomics module.
使用 Seurat 和 GraphST 进行空间聚类,并与病理学家手动细胞类型注释进行比较;
使用 Seurat 和 GraphST 进行细胞类型解卷积,显示了与单细胞 RNA 测序参考数据解卷积的细胞类型比例;
亚细胞数据(Xenium)分析显示分子的聚类、分子表达谱的可视化以及细胞分割边界和单个分子的放大视图。
ezSingleCell 还提供了使用注释的单细胞参考来解卷积或注释空间点中的细胞类型的功能。为了实现这一目的,ezSingleCell 提供了模块间的互操作性,用户可以导航到单细胞模块,加载 scRNA-seq 数据集,进行数据处理和注释,然后再返回到 ST 模块进行细胞类型/表型解卷积。用户可以使用 Seurat 的‘标签转移’功能或 GraphST 的‘project_cell_to_spot’功能来进行解卷积,并且结果可以进行交互式可视化(图 5C)。
ezSingleCell 支持分析亚细胞分辨率的数据,例如来自 Xenium 平台的数据。
用户可以进行聚类分析并交互式地可视化亚细胞水平的表达模式。
此外,用户可以放大查看细胞组成和潜在的细胞间相互作用。
ezSingleCell’s scMultiomics module performs joint analysis of multiple modalities
ezSingleCell 的 scMultiomics 模块执行多种模态的联合分析
我们接下来展示了 ezSingleCell 在健康 PBMC 数据集上的多模态单细胞分析应用。
这些数据集包括基因表达和蛋白质表达(CITE-seq)数据,以及基因表达和染色质可及性(MultiOme)数据。
两个数据集均从 10x Genomics 下载(补充表 3;补充数据集 1),其中 CITE-seq 数据集包含 7865 个细胞,而 MultiOme 数据集包含 3012 个细胞。
CITE-seq 数据集使用标准对数归一化方法进行预处理,并采用默认参数,第二个 MultiOme 数据集则使用 SCTransform 归一化。
随后使用前 10 个主成分维度、10 的 k 近邻值和 0.6 的聚类分辨率进行了细胞聚类(图 6)。
对于 CITE-seq 数据的联合模态分析,使用 Seurat WNN,这是一种 RNA 和蛋白质相似性的加权组合,来计算用于聚类的 KNN 图。
在 1.0 的聚类分辨率下,无论是单独模态还是联合分析,都产生了 20 个聚类。
通过 CELLiD,我们确定了 16 种细胞类型,分别是 CD14 单核细胞、CD16 单核细胞、CD16 NK 细胞、循环 T/NK 细胞、树突状细胞、GZMB CD8 T 细胞、GZMK CD8 T 细胞、MAIT 细胞、记忆 CD4 T 细胞、幼稚 B 细胞、幼稚 CD4 T 细胞、幼稚 CD8 T 细胞、pDC、浆细胞和调节 T 细胞(图 6)。
接下来我们可视化了相关的标记物,例如 B 细胞中的 RNA 测序中的 MS4A1 和 ADT 测序中的 CD4,以验证细胞类型的注释(图 6)。
我们还利用差异表达基因分析进一步验证了细胞类型,通过检查每个聚类的顶级差异表达基因。
Fig. 6: ezSingleCell scMultiomics module.
工作流程包括数据质量控制、预处理、聚类、降维、跨组学整合、整合后分析和可视化。
目前,Seurat加权最近邻(WNN)和MOFA+用于跨组学整合。
整合后,可以通过RNA模态识别细胞类型,并使用Seurat WNN或MOFA+进行联合聚类。
在这里,我们在Seurat WNN和MOFA+的联合UMAP可视化中展示了B细胞标志基因MS4A1和CD4 T细胞蛋白标志CD4的表达水平。
我们使用MOFA+重新进行了相同的分析,并通过指定聚类数量(k参数)为10并使用MOFA+的所有潜在因子对数据进行聚类。
使用CELLiD,我们确定了10种细胞类型,分别是CD14单核细胞、CD16 NK细胞、增殖T/NK细胞、树突状细胞、MAIT细胞、巨核细胞、记忆CD4 T细胞、幼稚B细胞、幼稚CD4 T细胞和浆细胞样树突状细胞。
我们再次在RNA和ADT实验中可视化了标记基因,如B细胞中的MS4A1和CD4 T细胞中的CD4,以验证细胞类型注释(图6)。
ezSingleCell’s scATAC-Seq module performs scATAC-seq data analysis and integration
ezSingleCell 的 scATAC-Seq 模块执行单细胞 ATAC-Seq 数据分析和整合
在最后一次演示中,我们使用了ezSingleCell来处理一个来自健康捐赠者的10k PBMCs的scATAC-seq数据集(图7A)。
Cell Ranger ATAC的输出从10x Genomics下载(补充表3;补充数据集1)。
为了质量控制,用户可以计算诸如核小体条带模式、转录起始位点(TSS)富集分数、峰中的片段总数以及基因组黑名单区域中的读取比例等指标(图7B)。
我们首先使用词频-逆文档频率(TF-IDF)归一化对数据进行了归一化处理,随后进行了特征选择和维度降低。
然后使用前10个主成分维度、最近邻值为10和Louvain聚类分辨率为0.6进行细胞聚类。
接着计算UMAP以可视化找到的14个簇(图7C)。
结果使用小提琴图、特征图和覆盖图进行可视化(图7D,E)。
用户还可以使用广泛的统计测试在簇之间计算差异表达峰(DE峰)(图7G)。
Fig. 7: ezSingleCell scATAC-seq module.
单细胞ATAC测序(scATAC-seq)分析的工作流程;(B) 转录起始位点(TSS)富集;(C) 数据聚类和降维;(D) 数据可视化;(E) 覆盖率图;(F) 将峰与基因关联;(G) 在簇之间进行差异表达峰(DE峰)分析;(H) 整合单细胞RNA测序(scRNA-seq)和单细胞ATAC测序(scATAC-seq)数据以识别细胞类型。在这里,我们加载了一个处理过的人外周血单核细胞(scRNA-seq)数据集,并通过细胞类型标签转移在scATAC-seq数据集中识别出12种细胞类型;(I) 使用rGREAT和fgsea软件包对scATAC-seq数据进行基因集富集分析(GSEA)。我们使用了加权Kolmogorov-Smirnov统计量来进行GSEA分析。源数据作为源数据文件提供。
ezSingleCell 还提供了 scATAC-seq 和 scRNA-seq 模块之间的跨模块操作性。用户可以导航到 scRNA-seq 模块,加载并处理一个 scRNA-seq 数据集,然后返回 scATAC-seq 模块进行细胞类型标签转移以完成细胞类型注释。在这个例子中,我们加载了一个人类 PBMCs 的已处理 scRNA-seq 数据集,并用它来识别 scATAC-seq 数据中的 12 种细胞类型,分别是 CD4 初始细胞、CD4 记忆细胞、CD8 初始细胞、CD8 效应细胞、双阴性 T 细胞、NK 细胞、前 B 细胞、B 细胞祖细胞、pDC、树突细胞、CD14+ 单核细胞和 CD16+ 单核细胞。
用户可以将峰与基因关联,并可视化每个簇中特定感兴趣的基因信号(图7F),并使用rGREAT或fgsea进行基因集富集分析(图7I)。
在ezSingleCell中,rGREAT(基因注释区域富集工具)支持两种物种,人类和小鼠,并提供了多种基因集集合和不同的转录起始位点注释,如txdb:hg19、TxDb.Hsapiens.UCSC.hg19.knownGene、RefSeq:hg19、GREAT:hg19和Gencode_v19。
rGREAT使用两种细胞类型之间差异表达的基因组区域(或峰)作为输入,并将生物学功能与该区域相关联。
作为一个例子,我们计算了Naïve CD4 T细胞和Memory CD4 T细胞之间的差异表达基因,并使用rGREAT进行了基因集富集分析,观察到GSE11057 NAÏVE CD4 VS PBMC CD4 TCELL UP基因集在Naïve CD4 T细胞中相对于Memory CD4 T细胞上调。
类似于scRNA-seq模块,scATAC-seq模块也提供了fgsea包用于基因集富集分析,用户可以选择MSigDB数据库中的任何人或小鼠基因集。
例如,我们使用基因活性矩阵计算了Naïve CD4 T细胞和Memory CD4 T细胞之间的成对差异表达基因,并使用‘fgsea’函数和人类‘C7’免疫学特征基因集进行了GSEA分析,以获得在Naïve CD4细胞中相对于Memory CD4细胞过度表达的通路。
ezSingleCell allows interplay of different modules
ezSingleCell 允许不同模块之间的相互作用
ezSingleCell 允许模块间的互操作性,用户可以在一个模块中进行数据分析,并在另一个模块中使用所获得的结果。
为了展示这一功能,我们分析了一个使用 10x Genomics Visium 获取并通过 Space Ranger pipeline v1.1.0 处理的人类乳腺癌数据集(补充表 3;补充数据集 1)。
ezSingleCell 目前实现了四种类型的交互(图 8)。
在单细胞 RNA 测序模块的细胞类型识别步骤中,用户可以点击(1)"转到空间去卷积"按钮或(2)"为 ATAC 数据标注细胞类型"按钮。
第一个选项将引导用户进入空间转录组学模块的去卷积步骤,在这里,标注过的单细胞 RNA 测序数据将作为参考,使用 Seurat 或 GraphST 去卷积空间数据中的细胞类型比例。
第二个选项将带用户进入单细胞 ATAC 测序模块的细胞类型识别步骤,使用 Signac 将细胞类型标签转移到单细胞 ATAC 测序数据上。
在空间转录组学模块的去卷积步骤中,用户可以点击"加载和处理用户参考数据集"按钮,该按钮将引导用户进入单细胞 RNA 测序模块上传、分析和标注他们的参考单细胞 RNA 测序数据。
生成的标注数据随后可以在空间转录组学模块中用于细胞类型去卷积。
类似地,在单细胞 ATAC 测序模块的细胞类型识别步骤中,"加载和处理用户参考数据集"按钮将导航至单细胞 RNA 测序模块进行单细胞 RNA 测序数据的处理和分析。
处理后的单细胞 RNA 测序数据随后可供单细胞 ATAC 测序模块用于细胞标签转移。
Fig. 8: ezSingleCell cross-module interaction capabilities.
用户可以处理单细胞RNA测序数据,并使用单独的数据集或批次整合数据来解卷积空间组学数据中的细胞类型,或执行标签转移以完成单细胞ATAC测序数据的细胞类型注释。源数据以源数据文件的形式提供。
ezSingleCell can handle large datasets without compromising performance
ezSingleCell 可以在不牺牲性能的情况下处理大型数据集
为了处理大型数据集,ezSingleCell 使用了一种称为‘几何素描’的技术来子采样大型单细胞RNA测序数据集,同时保留稀有细胞类型和细胞状态。
通过在 ezSingleCell 中使用此功能,用户可以加速进行大规模数据集的数据分析,包括加速聚类、可视化和整合分析。
在一个包含 50,000 个细胞的数据用户测试场景中,用户可以在 5-6 分钟内完成基本和高级单细胞数据分析,包括聚类、降维和细胞类型识别,并且在 15 分钟内完成 100,000 个细胞的数据分析。
Discussion
尽管可用的分析工具越来越多,但这些工具所需的最低生物信息学技能要求限制了实验科学家的数据分析能力。
ezSingleCell 是一个集成的一站式单细胞和空间组学分析平台,具有直观的图形用户界面,专为没有生物信息学背景的用户设计。
ezSingleCell 包含了用于分析不同单细胞组学实验产生的数据的模块,包括 scRNA-seq、scIntegration、scMultiomics(CITE-seq、10x Multiome)、scATAC-Seq 和空间组学。
ezSingleCell 通过结合内部开发的新算法(如用于细胞类型识别的 CELLiD 和用于空间聚类和去卷积的 GraphST)以及其他成熟的算法来实现这一点,涵盖从基础到高级分析的各种需求,例如批次效应校正、基因集富集分析、细胞间通讯和空间去卷积。
该图形用户界面设计友好,便于互动式数据探索和分析。
ezSingleCell 还接受多种格式的输入,如文本文件或 Cell Ranger / Space Ranger / Cell Ranger-ATAC 输出,并生成可用于发表的图表和表格。
ezSingleCell 有两种形式:无需安装的网络应用程序(https://immunesinglecell.org/ezsc/),或带有 Shiny 应用程序界面的软件包(https://github.com/JinmiaoChenLab/ezSingleCell2),可以在计算机上运行进行离线分析。
ezSingleCell 的源代码也在 Zenodo 上提供(https://doi.org/10.5281/zenodo.10785313)。
未来,我们将继续维护和升级 ezSingleCell。
随着每个实验中细胞数量的迅速增加,这导致生成的数据集非常庞大,从而使得分析和整合这样的大数据既耗时又占用大量内存。
在未来的 ezSingleCell 版本中,我们将引入新的深度学习方法以实现更高效的降维、聚类和批次整合。
我们还将扩展当前的空间转录组学模块以分析空间蛋白质组学和空间多组学。
我们还会增加基于空间邻近性和配体-受体对表达推断细胞间相互作用的功能。
随着最新亚细胞空间技术如 Nanostring CosMX、StereoSeq、Vizgen MERSCOPE、PixelSeq 和 SeqScope 的出现,我们计划引入新算法以更好地进行细胞分割来处理此类数据集。
Methods
Data input
数据输入
ezSingleCell 接受来自多种技术(Smart-Seq2、10x、CITE-Seq、Multiome 和 Visium)的输入,支持多种格式:(i) 文本文件(txt、csv 或 tsv)或 10x Cell Ranger 输出用于单细胞 RNA 测序和数据整合分析,(ii) 10x CITE-Seq 计数输出用于 CITE-Seq,以及 10x Cell Ranger ARC 输出用于多组学分析,(iii) 10x Cell Ranger ATAC 输出用于单细胞 ATAC-Seq 分析,以及 (iv) 10x Space Ranger 输出用于空间转录组学(Visium)和 Xenium 输出用于 Xenium 数据分析。
Data pre-processing
数据预处理
对于单细胞RNA测序数据,ezSingleCell提供了Seurat的质量控制和数据标准化功能,支持log-normalization或SCTransform。
经过标准化的数据可以进行缩放和平降维处理,采用主成分分析(PCA)(图2A)。
对于单细胞数据整合模块,预处理步骤与单细胞RNA测序模块相同。
对于多组学单细胞数据,ezSingleCell提供了两种多模态分析方法:Seurat WNN和MOFA +。
对于Seurat WNN,两种检测(RNA和ADT用于CITE-seq数据;RNA和ATAC用于10x scMultiOme数据)首先独立进行预处理和平降维。
然后根据RNA和蛋白质相似性的加权组合计算每个细胞的最近邻。
对于MOFA +,每种模态的数据归一化和缩放等初始预处理步骤分别进行。
预处理后,MOFA+推断出数据的小维度表示形式,即少量(潜在)因子,捕捉全局变异性来源。
MOFA+采用了自动相关性确定(ARD),这是一种分层先验结构,有助于区分跨多个模态共享的变化与个体模态中存在的变异性(图6)。
对于scATAC-Seq数据,ezSingleCell使用Signac包进行词频-逆文档频率(TF-IDF)归一化。
这是一种两步归一化程序,既在细胞间归一化以修正细胞测序深度的差异,也在峰间归一化以赋予更罕见的峰更高的值。
接下来是特征选择,仅使用前n%的特征(峰)进行维度降低或移除出现在少于指定数量细胞中的特征。
然后对选定特征(峰)的TD-IDF矩阵执行奇异值分解(SVD),以返回一个降维表示。
用户可以可视化每个LSI组件与测序深度之间的相关性(图7A)。
对于空间转录组学数据,提供了针对10x Visium和Xenium数据的质量控制功能,并使用SCTransform进行标准化。
在空间数据中,每个点位的分子计数差异可能很大,这也取决于组织样本的性质,特别是在组织中的细胞密度存在差异的情况下。
例如,神经元缺乏的组织(如皮层白质)通常表现出较低的分子计数。
因此,诸如对数标准化等标准方法,强制所有细胞或点位具有相同的总计数,是不合适的。
因此,推荐使用SCTransform而不是对数标准化,因为它采用正则化的负二项式模型来描述基因表达,从而在保留生物变异的同时解释技术性伪影(图5)。
Clustering and dimension reduction
聚类和降维
对于单细胞RNA测序数据聚类,ezSingleCell使用了Seurat软件包中的函数,采用基于图的社区检测方法,其中在PCA空间中根据欧几里得距离构建k近邻(KNN)图,并根据两个细胞局部邻域的共享重叠(杰卡德相似性)来优化它们之间的边权重。
然后应用模组度优化技术,例如Louvain算法,迭代地将细胞聚类在一起以优化标准的模组度函数。
用户可以调整聚类分辨率以获得宽泛或细粒度的聚类,较高的值会导致更多的聚类。
为了可视化,提供了UMAP和tSNE降维方法,用户可以指定要使用的PCA维度数目(图2B)。
对于sc-multi-omics数据,每个细胞的最近邻是基于RNA和蛋白质相似性的加权组合计算得出。
使用Seurat分析选项,通过‘FindMultiModalNeighbors’函数计算特定于细胞的模态权重和多模态邻居。
然后使用共享最近邻(SNN)模块度优化技术(如Louvain算法)进行聚类。
对于MOFA+,使用‘cluster_samples’函数进行数据聚类,指定聚类数量和从运行‘run_mofa’函数后训练的模型中得到的潜在因素。
为了聚类空间数据,ezSingleCell 提供了两种方法,Seurat 和 GraphST。
Seurat 使用基于图的社区检测算法,例如 Louvain 或 Leiden 聚类。
GraphST 结合了图神经网络与自监督对比学习,从基因表达和空间信息中学习点的潜在表示,从而实现空间信息指导的聚类。
GraphST 目前提供了三种聚类方法,‘mclust’,Leiden 和 Louvain 聚类。
在我们的测试中,我们发现 mclust 在大多数情况下表现优于 Leiden 和 Louvain。
因此,我们建议在这个步骤中使用 mclust(图5)。