Basic Information
英文标题:The covariance environment defines cellular niches for spatial inference
中文标题:协方差环境定义了用于空间推断的细胞微环境
所属期刊:Nature Biotechnology
文章作者:Doron Haviv | Dana Pe’er
文章链接:https://www.nature.com/articles/s41587-024-02193-4
Abstract
Para_01
分析高分辨率空间谱型技术产生的数据的一个关键挑战是如何适当地表示细胞邻域或生态位的特征。
在此,我们引入了协方差环境(COVET),这是一种利用生态位中细胞之间的基因-基因协变量结构来捕捉细胞间相互作用的多变量性质的表示方法。
我们定义了一种基于最优传输的距离度量,用于衡量 COVET 生态位之间的距离,该度量可以扩展到数百万个细胞。
使用 COVET 编码空间背景,我们开发了环境变分推理(ENVI),这是一种条件变分自编码器,它将空间和单细胞 RNA 测序数据联合嵌入到潜在空间中。
ENVI 包含两个解码器:一个用于在空间模态中推断基因表达,另一个用于将空间信息投射到单细胞数据上。
ENVI 可以为来自单个解离细胞的基因组数据赋予空间背景,并在多种空间数据集上优于其他方法进行基因表达推断。
Main
Para_01
对细胞相互作用和组织环境的浓厚兴趣推动了多重空间转录组学和基于抗体的技术的发展,激发了识别组织内生物模式的计算方法的需求。
细胞的局部邻域或生态位是定义细胞相互作用的有用分辨率;它可能代表功能解剖亚单位(如干细胞生态位),并为识别更大的空间模式提供基础。
然而,能够保留数据全部丰富性并有效比较生态位的细胞微环境的有效表示尚缺乏。
同时,需要解决高分辨率空间谱型技术的分子复杂性有限的问题。
Para_02
大多数用于分析空间数据的方法通过统计给定区域内离散的细胞类型来表征每个生态位。
尽管这些方法已经产生了重要的发现,但它们是为低多重抗体成像方法设计的,其中大多数标记用于细胞分类。
空间转录组学方法,包括商业平台,现在可以分析数百个基因,这意味着在细胞类型水平上的分析会导致大量信息丢失。
在单细胞基因组学中,从离散的细胞分类转向连续的方法,如扩散图和伪时间,已经推动了显著的发现。
此外,为连续的细胞表型设定阈值是主观的,并且会引起不稳定性和偏差的问题。
即使在高度离散的细胞类型中,也常常存在巨大而有意义的变化,例如免疫细胞类型中的激活状态和代谢状态的谱系。
Para_03
因此,需要一种能够考虑完整测量表达及其连续性质的生态位表示方法,并且该方法能够实现稳健、高效的比较。
我们提出了一种超越细胞分型的表示方法,该方法保留了基因表达的复杂模式,包括细胞状态之间的基因共变。
具体来说,我们开发了协方差环境(COVET),这是一种紧凑的细胞生态位表示方法,假设细胞与其环境之间的相互作用在生态位细胞的基因表达中创造了生物学上有意义的协变量结构。
我们开发了相应的距离度量方法,这使得使用当前用于细胞表型的全套方法(包括降维、空间梯度分析和聚类)来比较和分析生态位成为可能。
Para_04
基于成像的空间转录组学技术面临实际问题,限制了其量化基因的数量在数百个左右。
一些方法可以通过整合匹配的单细胞RNA测序(scRNA-seq)数据来推断未在空间模式中测量的基因的空间信息。
然而,整合方法并未明确建模空间数据中的细胞微环境背景,从而限制了推理能力。
Para_05
为了实现转录组范围的空间推断,我们开发了环境变分推断(ENVI),这是一种条件变分自编码器(CVAE),可以同时将单细胞RNA测序(scRNA-seq)和空间数据嵌入到单一的表示中。
ENVI 利用 COVET 的协变量结构作为细胞微环境的表示,并通过将全基因组表达和空间上下文(重建 COVET 矩阵的能力)编码到其潜在嵌入中,实现了完全集成。
我们的方法在多种多重空间技术的数据上有效,并且在准确推测不同发育背景下基因表达方面优于其他方法。
ENVI 还可以用于将有价值的空间信息投射到分离的 scRNA-seq 数据上,并能够捕捉大而复杂的组织区域沿空间轴的连续变化。
Results
COVET defines spatial neighborhoods
COVET 定义了空间邻域
Para_01
为了超越细胞类型的分数,并以利用测量基因的方式表征生态位,从而实现定量比较,我们开发了 COVET 框架。
我们的核心假设是,一个细胞会影响其周围的细胞,同时也会被周围的细胞所影响,从而在相互作用的细胞之间产生共变的表达模式。
我们的框架包括三个组成部分:(1)COVET,一种基于生态位细胞中基因-基因协方差修改公式得出的稳健的单细胞邻域信息表示;(2)对于比较和解释生态位至关重要的距离度量;(3)高效计算该距离度量的算法。
与平均表达不同,基因-基因协方差捕捉到了由生态位内细胞相互作用塑造的基因和细胞状态之间的关系。
这些关系丰富、稳定且富含生物学信号;此外,它们包含了来自未测量基因的大量隐藏信息,为填补任务提供了优势。
Para_02
为了计算COVET,我们首先通过该细胞的k个空间最近邻来定义数据集中每个细胞的生态位,然后计算每个生态位的基因-基因移位协方差矩阵(图1a和方法)。
移位协方差修改了经典协方差公式,使用整个数据集的平均表达量而不是局部平均表达量作为参考。
这构建了每个细胞相对于整个群体的协方差矩阵,并且关键在于能够直接比较不同生态位,突出它们的共有和独特特征。
基因-基因协方差提供了额外的好处,即对技术性伪影更具鲁棒性,有助于跨技术整合。
Fig. 1: A covariance-based framework characterizes spatial niches and powers single-cell and spatial data integration for robust transcriptome-wide spatial inference.
- 图片说明
- 示意图表示了空间协方差计算和ENVI操作的步骤。每个COVET矩阵表征一个细胞的生态位,包括基于基因表达的生态位内k个最近的空间邻居的偏移协方差。偏移协方差是相对于样本中的平均表达量计算的,从而可以对不同生态位进行有意义的比较。生态位之间的距离通过最优传输的有效近似来确定。基于AOT作为空间相似性度量的COVET邻接矩阵可以直接用于其他下游空间分析,如降维和聚类,其中细胞根据相似的环境而不是表达量被分组在一起。
- ENVI是一个条件自编码器,它同时将单细胞RNA测序和多重空间转录组数据嵌入到统一的潜在嵌入中。ENVI模型包含所有基因(包括那些未通过空间转录组学成像的基因),并使用COVET框架表示细胞环境信息。环境解码器使ENVI能够将空间信息投影到单细胞数据上,而表达解码器(还包括仅在单细胞数据中捕获的基因)则实现了全转录组范围内的空间表达推断。
Para_03
尽管 COVET 是一种紧凑且强大的生态位表示方法,但需要一个度量标准来进行比较。
不能简单地通过减去两个生态位的细胞-基因表达矩阵来确定生态位相似性,因为结果取决于细胞的顺序,而这种顺序是任意设定的(例如,如果图像旋转,顺序将发生变化)。
因此,我们寻求以排列不变的方式量化生态位相似性,弗雷歇距离为此提供了一个封闭形式的解决方案。
然而,计算弗雷歇距离在计算上是不可行的,因此我们开发了一种近似方法(近似最优传输 (AOT)),该方法将运行时间减少了超过一个数量级,并且比另一种常用度量——巴氏距离——快得多。
AOT 产生的结果与真实最优传输类似,GPU 实现可以在不到 1 分钟的时间内计算出 100,000 个细胞的细胞-细胞 AOT 距离矩阵。
Para_04
由于AOT可以通过欧几里得距离计算,而欧几里得距离是许多标准单细胞分析的基础,例如聚类、扩散成分和均匀流形近似与投影(UMAP),因此现在可以用相同的算法来分析表型的生态位。
聚类生态位可以表征典型的环境;可视化可用于观察它们之间的关系;轨迹分析可以捕捉连续趋势,从而实现轻松解释。
因此,COVET提供了一种丰富、稳健且计算高效的细胞生态位表示方法,该方法基于最优传输的数学原理。
The ENVI algorithm
ENVI算法
Para_01
ENVI 使用条件变分自编码器推断 scRNA-seq 数据中的空间背景,并通过将两种模式映射到一个共同的嵌入来填补空间数据中缺失的基因(图 1b 和方法)。
与仅建模两种模式中均测量的基因的其他用于空间推断的 CVAE 不同,ENVI 明确建模全基因组范围内的空间信息和基因表达。
更重要的是,它使用 COVET 矩阵表示空间信息,并同时在来自空间和单细胞数据集的样本上进行训练,优化单一潜在空间以解码两种模式的完整转录组和空间背景。
Para_02
ENVI架构包括一个用于空间和单细胞基因组数据的单一编码器以及两个解码网络:一个用于完整的转录组,另一个用于提供空间背景的COVET矩阵。
解码空间生态位的需求(以及使用第二个解码器)是ENVI的独特之处。
直观上,ENVI利用细胞中的基因表达及其生态位信息(COVET),学习一个‘环境’回归模型,该模型从基因表达输入中推断空间背景,并同时训练一个‘填补’回归模型,以从空间转录组学剖析的基因子集重现完整的单细胞RNA测序数据集。
这种非线性网络架构可以捕捉变量之间的复杂依赖关系。
Para_03
测序和空间技术测量不同的参数,产生不同的数据分布和动态范围。
ENVI 考虑了这一点,通过边缘化特定技术对表达的影响,并在每个模态的编码和解码网络的输入层添加一个辅助二元神经元来增强标准变分自编码器(VAE)。
此外,ENVI 使用不同的概率分布参数化每个模态,默认情况下使用负二项分布建模单细胞数据以考虑 dropout,使用泊松分布建模空间数据以反映基于荧光原位杂交(FISH)技术的高捕获率。
因此,ENVI 通过单一端到端模型集成了、填补并重建了空间背景,利用深度学习进行高维回归,并利用变分推断实现 scRNA-seq 和空间数据的最佳集成。
该方法可扩展到包含数百万个细胞的图谱规模数据集,并具有恒定时间计算复杂度,同时对特定技术伪影(如数据稀疏性)具有鲁棒性。
ENVI imputes spatial patterns underlying gastrulation
ENVI 推断 gastrulation 过程中的潜在空间模式
Para_01
我们使用 ENVI 分析了小鼠器官发生过程中胚胎第 8.75 天(E8.75)的 350 个基因顺序荧光原位杂交(seqFISH)数据,并与 E8.5 的单细胞 RNA 测序(scRNA-seq)数据集进行了匹配(图 2a)。
与当前空间转录组学数据集中占主导地位的成年人大脑组织离散层不同,发育中的胚胎细胞经历快速增殖、分化和移动,形成复杂的模式和空间梯度,这为性能评估带来了挑战。
任何基于嵌入的数据集成方法最基本的评估是跨技术数据的共嵌入程度,因为这对于模态间的信息成功传递至关重要。
ENVI 学习到的嵌入正确地将主要细胞类型映射到组合的潜在空间(图 2b),这是通过平均批次轮廓分数测量的(方法)。
Fig. 2: ENVI accurately recovers the expression of embryonic genes not imaged by multiplexed FISH.
- 图片说明
- E8.75小鼠胚胎矢状面的seqFISH37图像(左)和E8.5时匹配的单细胞RNA测序数据38的UMAP嵌入(右),两者均按主要细胞类型分区着色。
- 从鼠标胚胎数据中学习到的ENVI潜在嵌入的UMAP图。来自seqFISH(左)和scRNA-seq(右)数据的细胞按与a相同的颜色着色。平均批次轮廓分数bASW = 0.86(方法)。
- MSSI计算的示意图(方法)用于比较两个空间表达谱。每个谱使用细胞邻近图上的光谱池化进行迭代降采样,并在每个尺度上计算SSIM。MSSI是五个尺度上计算的SSIM的加权几何平均值,提供了一个从0到1的空间感知相似性度量。
- seqFISH测量值以对数计数表示(真实值)和ENVI对三个未保留基因的推断值,标记内胚层(Krt18)、神经干细胞(Sox2)和后段(Hoxb9)细胞。每个基因的MSSI值显示在括号中。
- seqFISH对数和五折交叉验证预测的所有基因的推断表达之间的皮尔逊相关性和MSSI评分,比较四种算法在默认参数下运行的结果(方法)。Novo表示NovoSpaRc;Tg表示Tangram;Unip表示uniPort。框和线分别表示四分位距(IQR)和中位数;须表示±1.5× IQR。按照顺序,MSSI/皮尔逊相关性的P值(单侧t检验,n = 351)为:4.45×10^-11 / 4.75×10^-9,3.45×10^-58 / 3.02×10^-94,1.44×10^-76 / 6.68×10^-93,4.83×10^-18 / 3.44×10^-50,4.12×10^-79 / 15.47×10^-85 和 6.48×10^-32 / 4.51×10^-69。
- ENVI对未通过seqFISH分析的器官标记基因的推断(底部):肺(Ripply3)、心脏(Nkx2-5)和肠道(Tlx2)。推断的表达与相关器官匹配,并通过全装HCR原位杂交验证(顶部)。AST表示前体节组织;B. 表示血液;C表示尾部;D. 表示确定性;Ex. 表示胚胎外;HEP表示造血内皮祖细胞;I. 表示中间;L.P. 表示侧板;Novo表示NovoSpaRc;P. 表示副轴;PGC表示原始生殖细胞;Ph. 表示咽;R.N. 表示前脑神经;S. Ectoderm表示表层外胚层;S. Mesoderm表示体节中胚层;Unip表示uniPort;V. 表示脏器。
Para_02
目前基于荧光原位杂交的技术只能量化数百个基因的表达,这促使了算法的发展,以推断未测量基因的空间模式。
以前的研究使用皮尔逊相关性和插补与真实表达之间的均方误差来评估插补质量。
然而,这两种度量都是基于每个细胞计算的,忽略了空间背景。
为了评估空间模式之间的一致性,我们开发了多尺度谱相似性指数(MSSI),这是一种可以捕捉空间模式相似性的度量方法,通过考虑细胞间的邻近关系(图2c和方法)。
MSSI借鉴了计算机视觉中广泛使用的多尺度结构相似性指数(MS-SSIM),该度量方法通过迭代下采样图像并在多个分辨率上评估相似性来衡量空间模式的相似性。
我们的MSSI度量方法使用基于空间邻近性的细胞-细胞邻接图,生成一系列逐渐降低分辨率的图像,通过聚合邻近细胞,然后应用SSIM在每个分辨率上比较相似性。
因此,MSSI是一种具有空间意识的相似性度量方法,它使用完整的计数矩阵,并结合细胞水平而不是像素水平的模式,具有多种应用场景,例如比较不同基因表达模式的相似性。
Para_03
我们使用五折交叉验证(方法)来比较 ENVI 插补与保留基因的测量结果,使用 MSSI 和皮尔逊相关性进行评估。
内胚层(Krt18)、神经干细胞(Sox2)和后段(Hoxb9)中具有明确空间表达的代表性基因的插补表达在视觉上与真实情况相似,并且表达在正确的器官中。
我们发现一些预测正确的器官特异性表达基因具有较高的 MSSI 分数但较低的皮尔逊相关性,这支持了空间感知度量的重要性。
Para_04
我们将 ENVI 与 Tangram、gimVI 和 uniPort 进行了比较,这些方法最近被证明优于其他集成方法;还与 NovoSpaRc 进行了比较,因为它使用融合最优传输来显式建模空间上下文;与 deepCOLOR 进行比较,因为它使用深度生成模型;以及与 Harmony 进行比较,因为其作为批处理校正方法的广泛应用。ENVI 在 MSSI 和 Pearson 相关性方面显著优于所有其他方法(图 2e)。
Para_05
最后,我们通过评估发育中的肺(Ripply3)、心脏(Nkx2-5)和肠(Tlx2)的经典标志物,评估了ENVI在350基因面板之外推断基因的能力。
所有三个基因的表达在E8.75时(器官形成之前)通过原位杂交链反应(HCR)成像验证为器官特异性,并且被ENVI正确推断(图2f)。
相比之下,Tangram和gimVI在相关区域预测的表达较弱,并且在器官外出现了异常表达(扩展数据图3b)。
ENVI ascribes spatial patterns to single-cell genomics data
ENVI将空间模式归因于单细胞基因组数据
Para_01
除了基因填补,ENVI还可以独特地将空间信息投影到通过单细胞RNA测序分析的解离细胞上,通过使用其第二个解码器从潜在空间重建COVET矩阵。
这种方法可以利用有限的空间谱型数据为单细胞图谱中的数百万个细胞赋予空间背景。
COVET表示相邻细胞之间的基因-基因共变;因此,除了推断邻近细胞的细胞类型外,它还可以推断它们的基因表达。
Para_02
为了展示这种能力,我们使用了小鼠胚胎数据集,并专注于形成胸腺、甲状腺、肺、肝、胰腺、小肠和结肠的前后有序序列的肠道管。
虽然 E8.75 的肠道管细胞在解剖学上无法区分,但空间限定表达显示这些前体细胞已经准备好分化为各自的器官。
我们计算了(测量的)seqFISH 数据的 COVET 矩阵,并使用 ENVI 推断 scRNA-seq 数据的 COVET 矩阵,然后应用 AOT 指标将两种模式的数据矩阵共同嵌入(图 3a)。
scRNA-seq 数据中的丰富转录信息有助于将内胚层器官身份分配给这些细胞,ENVI 的高度一致共同嵌入使得标签可以转移到用 seqFISH 测量的细胞,这通过解剖定位得到确认;胸腺和甲状腺细胞位于最前部的腹侧肠道管,其次是背侧和腹侧肺簇,最后是肠(图 3b)。
Fig. 3: ENVI confers spatial context to single-cell samples from mouse gut organogenesis.
- 图片说明
- a,肠道管细胞的 COVET UMAP。每个细胞由其直接测量(seqFISH)或 ENVI 推断(scRNA-seq)的 COVET 表示,并通过 UMAP 使用 AOT 度量嵌入到二维坐标中。细胞按正在形成的器官着色。
- b,seqFISH 内胚层细胞,按器官着色(基于从 scRNA-seq 转移的标签),划定了肠道管的空间区域,并显示了不同空间生态位中器官分配的一致性。
- c,来自 scRNA-seq(左)和 seqFISH(右)数据集的背侧(上)和腹侧(下)肺细胞的平均 ENVI 推断(scRNA-seq,左)或实测(seqFISH,右)COVET 矩阵。标记的基因模块(每个矩阵的顶行)唯一存在于背侧(紫色)或腹侧(青色)肺 COVET 表示中。
- d,c 中背侧(上)或腹侧(下)肺 COVET 矩阵中唯一共变基因的平均表达。只有围绕内胚层肠道管的中胚层细胞(但不包括其内部的细胞)被着色。
Para_03
仅使用内胚层单细胞 RNA 测序数据,我们绘制了背侧和腹侧肺的平均 COVET 矩阵,并观察到这些矩阵与从 seqFISH 数据计算的经验矩阵高度吻合。
这些 COVET 矩阵推断出微环境中共变异基因模块,值得注意的是,这些模块包括了相邻中胚层细胞表达的基因,已知这些基因向内胚层提供空间模式线索。
为了验证这些推断的基因模块,我们使用了靠近食管附近的中胚层细胞的 seqFISH 数据(忽略内胚层细胞),发现平均腹侧 COVET 基因表达在腹咽中胚层中富集,而平均背侧 COVET 基因表达在背脑和旁轴中胚层中富集。
我们的观察验证了食管内部预测的背侧和腹侧亚区,并证明 ENVI 可以识别来自未直接采样的细胞的重要生物学信号。
Para_04
使用空间协方差也可以显著改善更简单的任务,即为来自空间模态的细胞标记器官身份,因为 seqFISH 测量的基因和细胞比 scRNA-seq 少,因此更难以标记。
使用器官特异性基因集为肠道管的 scRNA-seq 细胞标记显示,器官前体与 COVET 聚类之间几乎是一对一的匹配,而没有 COVET 的 ENVI 未能生成准确的标签,其他方法则更加不准确。
基于 ENVI 的标签转移在计算 COVET 时对邻域大小的变化也具有鲁棒性。
ENVI learns spatial gradients from single-cell data
ENVI 从单细胞数据中学习空间梯度
Para_01
尽管肠道管由相对独立的原始器官定义,许多过程——例如脊髓细胞及其前体,神经中胚层祖细胞(NMPs)沿前后(AP)轴的特化——是由连续的空间梯度组织的。
为了突出 ENVI 模型梯度的能力,我们使用力导向布局(FDL)将经验性的 seqFISH COVET 矩阵与 ENVI 推断的 scRNA-seq COVET 矩阵共同嵌入 NMPs 和脊髓细胞,并计算它们的扩散分量(DCs)。
第一个 DC 与 AP 轴高度一致(Pearson 相关系数 = 0.86),这表明 COVET 可以捕捉逐渐的空间趋势。
由于 COVET DC 是从 seqFISH 和 scRNA-seq 数据集计算得出的,我们可以用它为来自 scRNA-seq 数据的 NMPs 和脊髓细胞分配 AP 伪坐标。
Fig. 4: ENVI maps continuous spatial gradients in spine development from single-cell and spatial data.
- 图片说明
- 基于 ENVI 预测的 scRNA-seq 脊髓细胞及其 NMP 前体的 COVET 矩阵的 FDL,按照第一个 COVET 扩散分量(伪 AP)着色。FDL 和 DCs 是使用 seqFISH 和 scRNA-seq 的 COVET 矩阵计算的。
- seqFISH NMPs 和脊髓细胞按照第一个 COVET DC 着色,该 DC 沿 AP 轴分布。计算伪 AP 和真实 AP 之间的皮尔逊相关系数 (r)。
- scRNA-seq 和 seqFISH 数据中 NMPs 和脊髓细胞中 Hoxd4(前部)和 Hoxb9(后部)标记物的表达,重现了预期的 AP 定位。
- 与 c 相同,但按照 ENVI 推断的 Hoxb5os(后部)和 Hoxd3(前部)表达着色。这些标记物未进行成像。
- 根据不同的整合方法,按照伪 AP 轴排序的 NMPs 和脊髓细胞中经典 AP 轴标记物的 scRNA-seq 表达。SCNRMA,Scanorama。
Para_02
第一个 COVET DC 正确揭示了单细胞 RNA 测序细胞在其各自区域中富集了 Hoxd4(前部)和 Hoxb9(后部)标记,这与 NMP 和脊柱细胞中的 seqFISH 表达一致(图 4c)。
此外,ENVI 正确映射了 Hoxd3(前部)和 Hoxb5os61(后部)标记在单细胞 RNA 测序细胞中的高表达到其相应的前后轴域,表明 ENVI 空间建模扩展到了未成像的基因(图 4d)。
相反,ENVI 推断的 Hoxb5os 和 Hoxd3 在 seqFISH 数据中的表达反映了 scRNA-seq 数据预测的空间背景。
Para_03
我们发现,反映生态位的 COVET 矩阵之间的主要变化轴(第一个主成分)反映了组织的空间结构;按照主成分 1 对 NMPs 和脊髓细胞进行排序可以恢复一个伪前后轴,该轴可用于可视化预测的表达趋势。
使用 gimVI 潜在空间和 Scanorama 整合方法进行类似分析(方法)导致与真实前后轴对齐较差(扩展数据图 6b),尽管选择了与真实前后极性最相关的 gimVI 和 Scanorama 主成分(相关系数分别为 r = 0.76 和 r = 0.7070)。
这种略低的相关性导致表达模式中出现更明显的不准确性;只有 ENVI 正确推导出了 Rfx4、Hoxaas3 和 Hoxb7 的预期前后趋势(图 4e)。
总体而言,前部和后部的经典标记物与 ENVI COVET 伪前后轴的相关性(或反相关性)高于由 gimVI 和 Scanorama 定义的轴(扩展数据图 6c)。
因此,ENVI 可以正确揭示单细胞 NMPs 和脊髓细胞内的前后极性,并将它们正确放置在这个空间轴上。
ENVI delineates tissue-scale patterning in the motor cortex
ENVI 在运动皮层中描绘了组织尺度的模式
Para_01
尽管数据整合通常是在大量主导空间区域的神经细胞类型上进行评估的,但我们挑战 ENVI 恢复稀有细胞类型。
表达生长抑素 (Sst) 的中间神经元是皮层中一类主要的抑制性神经元,与阿尔茨海默病和抑郁症有关,并且包含显著的多样性。
虽然我们知道 Sst 中间神经元会影响其环境,但它们的定位及其与功能和转录状态的关系尚未完全探索。
Para_02
为了定位 Sst 中间神经元,我们分析了脑细胞普查网络(BICCN)运动皮层的单细胞 RNA 测序(71,183 个细胞)和 252 基因 MERFISH(276,556 个细胞)图谱。
ENVI 在速度(在这张大型图谱上进行分钟级别的训练)和填补(扩展数据图 2b 和 7)方面均优于所有其他测试方法,并成功共同嵌入了 22 种 BICCN 标注的粗略细胞类型(图 5a)。
值得注意的是,只有单细胞 RNA 测序数据能够区分九种不同的 Sst 亚群,因为 MERFISH 面板缺乏必要的标记基因(图 5b 和方法)。
Fig. 5: ENVI predicts the cortical localization of Sst interneuron subtypes.
- 图片说明
- ENVI潜在嵌入表示运动皮层MERFISH(左侧)和scRNA-seq(右侧)数据,根据Zhang等人和Yao等人的细胞类型进行标记,并突出显示Sst中间神经元。隐式整合bASW = 0.78。OPC,少突胶质前体细胞。
- MERFISH和scRNA-seq数据集中Sst中间神经元的亚型特异性基因集之间的相关性。条形图标记每个亚组的重叠熵(较高值表示区分成不同亚型的效果较差)。
- 来自MERFISH数据的Sst中间神经元,按第一个COVET DC代表伪深度进行着色。L2/3到L6表示皮层各层的大致位置。
- 所有Sst中间神经元的scRNA-seq COVET FDL,按第一个COVET DC着色。COVET FDL和DC是基于scRNA-seq和MERFISH数据集计算的。特定亚型由Yao等人标记。
- scRNA-seq Sst中间神经元的COVET DC预测皮层深度,按标记的亚型分组。*,在Wu等人中成像的细胞类型;所有实测深度与ENVI预测相符。在箱线图中,线条表示中位数;第一个框包含第50百分位;每对向外扩展的框包含剩余数据的一半。
Para_03
使用 ENVI 推测的 COVET 矩阵,我们将 scRNA-seq 数据集中标记的 Sst 中间神经元映射到它们在大脑皮层中的位置。
我们发现,尽管这些细胞类型(如兴奋性神经元)在整个皮层中占据主导地位,COVET 矩阵的第一个主成分与皮层深度高度相关,从而定义了一个‘伪深度’轴(图 5c,d),并且预测 Sst 亚型会按深度分层(图 5e)。
通过针对 Sst 亚型的基因策略进行分子成像验证了我们的多个预测,包括 Calb2 中间神经元定位在 L2/3 层和 Crh 中间神经元定位在 L6 层。
除此之外,ENVI 预测了许多在 scRNA-seq 图谱中识别但未知定位的亚型的皮层深度。
例如,它将表达高水平神经递质代谢基因酪氨酸羟化酶的 Sst 中间神经元放置在深层 L6 层,正如预期的那样,这表明 ENVI 可以阐明转录状态与微环境之间的相互作用。
Para_04
ENVI 还可以从仅包含少数成像基因的数据集中捕捉皮层内的空间模式。
应用于包含 33 个基因的 osmFISH 和匹配的 scRNA-seq 数据集(体感皮层),ENVI 成功将小数据集(总计不到 10,000 个细胞)整合到一个统一的嵌入中,并在细胞类型分辨率和空间基因推测方面优于其他方法。
为了确定 ENVI 是否可以推测未成像的基因,我们利用了 Allen Brain Atlas 的小鼠脑皮层真实数据,并确认 ENVI 正确推测了 L2/3、L5/6 和 CA1 区域中 Dti4l、Rprm 和 Ntst4 的层特异性空间表达。
ENVI integrates Xenium data on brain metastasis
ENVI整合了关于脑转移的Xenium数据
Para_01
软脑膜转移(LM)是一种致命的病症,其中远处的肿瘤细胞扩散到中枢神经系统周围的液体空间。
对肿瘤细胞、免疫细胞和脑实质细胞之间相互作用的了解不足限制了治疗药物的发现。
我们使用 Xenium 平台(10x Genomics)对小鼠黑色素瘤 LM 模型中的 243 个基因进行了原位杂交(ISH),并使用我们开发的定制单核 RNA 测序(snRNA-seq)协议(方法)对相邻切片的细胞进行了测序,该协议通过优化福尔马林固定石蜡包埋(FFPE)样本的 RNA 提取,并采用 10x Genomics Flex 探针库制备方法完成。
我们分别根据标记基因将空间和单细胞样本聚类并注释为主要细胞类型(图 6a 和扩展数据图 9a)。
即使在这种病理背景下,默认参数下的 ENVI 性能在基因推断方面与竞争方法相匹配或超过,并将两个数据集统一到一个潜在空间中(图 6b 和扩展数据图 9c)。
Fig. 6: ENVI integrates Xenium and snRNA-seq data to localize neuroimmune cell types during metastasis.
- 图片说明
- a,Xenium 图像和小鼠脑中黑色素瘤转移的 snRNA-seq 数据的 UMAP 嵌入图,按主要细胞类型着色。
- b,ENVI 潜在空间的 UMAP 嵌入图显示了来自空间(左)和 snRNA-seq(右)数据集的细胞。相似的细胞类型,包括恶性细胞,在不同模式下共同嵌入。bASW = 0.87。
- c,Xenium 数据中每种细胞类型及其环境的技术重复平均一致性,通过 k-means 聚类的基因表达和 COVET 表示之间的 ARI 测量。误差线表示 95% 置信区间。
- d,微胶质细胞和巨噬细胞细胞特征表达在 Xenium(上)和 snRNA-seq(下)数据集中免疫标记细胞中的密度图。只有 snRNA-seq 数据测量了足够的基因以分离细胞类型。
- e,snRNA-seq 免疫细胞的 ENVI 预测 COVET 表示的 UMAP 嵌入图,按亚型着色。
- f,Xenium 免疫细胞的 COVET UMAP(左)和空间坐标(右),按代表主要免疫细胞微环境的 COVET 聚类着色:皮层(C0)、基底神经节(C1)和肿瘤(C2)。COVET UMAP 和聚类是根据 snRNA-seq 和 Xenium 数据集计算的。绝大多数(85%)的 snRNA-seq 巨噬细胞被分配到 C2,预测其定位于肿瘤。
- g,ENVI 预测环境中 snRNA-seq 巨噬细胞和微胶质细胞的细胞类型比例,如 a 中所示,分别突出其主要的肿瘤和抑制性神经元环境。
- h,ENVI 推断的巨噬细胞浸润标志基因在 Xenium 免疫细胞类型中在转移性肿瘤内显著富集。Astro,星形胶质细胞;Endo,内胚层;Fibro,成纤维细胞;OD,少突胶质细胞;N.,神经元。
Para_02
我们的方法提供了 Xenium 数据的两种表示;我们可以根据细胞的基因表达或其 COVET 矩阵(代表局部微环境)来可视化和聚类每个细胞。
测量这两种表示之间聚类的一致性揭示了,正如预期的那样,兴奋性神经元的表达强烈依赖于空间背景,这是由于不同的皮层层与分子标记之间的关联,而肿瘤和免疫细胞类型在表达和环境背景之间显示出很少的一致性(图 6c)。
Para_03
黑色素瘤 LM 与两种关键的免疫细胞群体相互作用:一种是称为小胶质细胞的脑驻留巨噬细胞,另一种是从外周招募并定植于肿瘤病灶的单核细胞衍生巨噬细胞。
单细胞 RNA 测序(snRNA-seq)数据根据精心策划的基因集清楚地区分了这些髓系亚型,而 Xenium 脑面板缺乏区分巨噬细胞和小胶质细胞的标志物。
为了确定这些亚型的位置,我们将 ENVI 推断的 snRNA-seq COVET 矩阵与观察到的 Xenium COVET 矩阵共同嵌入并聚类数据,揭示了由皮层、基底神经节或肿瘤细胞组成的三个不同的免疫微环境。
snRNA-seq 数据使我们能够将簇 2 标记为非驻留巨噬细胞,而 Xenium 数据使我们能够可视化该 COVET 簇中细胞的位置。
确认已知的神经免疫细胞类型模式,大多数小胶质细胞被分配到基底神经节和皮层,而大多数巨噬细胞则定位于肿瘤及其边界。
COVET 使我们能够推断 snRNA-seq 数据中每个免疫细胞的生态位组成,这证实了巨噬细胞主要位于肿瘤细胞附近,而小胶质细胞主要位于神经元和其他胶质细胞附近。
Para_04
除了定位巨噬细胞和小胶质细胞外,ENVI 还可以通过在 Xenium 数据中推断基因表达来区分肿瘤浸润巨噬细胞与边界巨噬细胞的转录模式(图 6h)。
例如,Ccr2 的推断表达富集在肿瘤内部及其邻近区域的免疫细胞中,Ccr2 是一种招募单核细胞到肿瘤并促进其分化为肿瘤相关巨噬细胞的趋化因子受体。
相比之下,基于聚类分析的 gimVI 潜变量无法明确将巨噬细胞分配到恶性微环境中,其基因推断也不准确,预测肿瘤浸润基因广泛表达于整个大脑(扩展数据图 9d,e)。
Harmony 和 gimVI 也无法将浸润标志物的表达定位到肿瘤内的免疫细胞(扩展数据图 10)。
Discussion
Para_01
ENVI 强大地整合了单细胞 RNA 测序和空间转录组学数据,克服了技术偏差,同时保留了生物学信息。
该算法在填补空间模态中缺失的基因表达方面表现出卓越性能;它可以扩展到数百万个细胞;并且它具有独特的推断解离细胞空间背景的能力,即使在复杂组织中的多种细胞类型之间也是如此。
Para_02
ENVI的功能依赖于COVET作为空间生态位的表示方法。
尽管大多数空间表示方法基于离散的细胞类型,COVET充分利用了基因表达数据的定量性质。
COVET矩阵捕捉细胞生态位中标志物之间的共变,并使用最优传输推导出一个有原则且定量的细胞邻域模型。
COVET推动了从离散细胞类型到连续细胞状态范式的转变,并发现了空间微环境中连续的趋势。
Para_03
ENVI 的性能主要由三个因素驱动:(1)深度贝叶斯推理,用于在学习基因和生态位之间的非线性关系时回归出与模式相关的混淆因素;(2)从单细胞 RNA 测序数据中显式建模整个转录组;(3)通过 COVET 直接结合空间上下文。
目前的方法仅学习单细胞 RNA 测序和空间数据集之间重叠的基因,而 ENVI 模型利用所有可用信息,并不依赖事后推理。
这证明了其价值,因为 ENVI 模型既包含空间上下文,又包含完整的转录组信息,从而可以在不同模式之间可靠地传递信息。
Para_04
ENVI COVET 空间可以从小鼠原肠胚形成阶段的 seqFISH 和单细胞 RNA 测序数据中正确预测原始器官生态位,基于 COVET 的 DC 分析可以突出发育中的脊椎动物在表达和环境方面的连续前后趋势。
ENVI 的关键能力在于能够为分离的单细胞提供空间背景,从而推断出运动皮层中 Sst 中间神经元亚型的电路。
此外,它在健康和病理组织环境中提供了对离散和弥散信号的准确表示,使得能够在整个转录组范围内进行空间推理,包括在转移性组织中对细微不同的肿瘤相关和非肿瘤相关的巨噬细胞状态进行空间区分。
Para_05
需要注意的是,空间因素的范围可以有所不同,而 COVET 目前是在由邻域大小 k 决定的单一尺度上定义的。虽然 COVET 对 k 的小变化相对稳健,但较大的差异可能导致不同的结果,其值应根据感兴趣的空间问题进行调整。
Methods
Computational methods
计算方法
MSSI
多源卫星影像
Para_01
在比较组织中基因或标记的空间分布时,必须有一个考虑空间结构的稳健度量。
虽然普遍使用的度量如皮尔逊相关系数、SSIM 和均方根误差可以提供一些见解,但它们缺乏空间背景(例如,细胞-细胞邻近性或空间模式),并且仅测量每个细胞的差异。
Para_02
为了设计空间数据的度量标准,我们借鉴了计算机视觉中广泛使用的图像重建质量度量标准MS-SSIM。
给定两张图像,MS-SSIM 会迭代地对每张图像进行下采样,创建一个图像金字塔——即由同一图像在多个分辨率下的表示组成的多尺度信号表示。
MS-SSIM 返回两个图像在金字塔每个尺度上的标准 SSIM 分数的加权几何平均值。
Para_03
Para_04
M 表示 x 和 y 之间的最大值;μx 和 μy 是它们的平均值;σx 和 σy 衡量各自的变化程度;σxy 表示它们的共变程度。
l(x,y)、c(x,y) 和 s(x,y) 分别是亮度(信号亮度)、对比度和结构的度量。
尽管 SSIM 是为图像设计的,但它也可以计算任何两个相似大小的向量之间的值。
Para_05
我们引入了MSSI,这是MS-SSIM在空间转录组学中的适应性改进,它通过比较分割细胞的计数矩阵而不是像素,使用空间邻近细胞的邻接图来捕捉结构。
直观上,MSSI是MS-SSIM的谱系类比;通过将图像粗化重新表述为其基于图的对应物,我们可以将其应用于分割细胞,并生成一个多层次、由空间驱动的表达重构质量评分。
错误!!! - 待补充
错误!!! - 待补充
Para_08
在计算 MS-SSIM 之后,我们计算每个尺度上的表达谱之间的 MSSI,并返回它们的加权几何平均值。
具体来说,我们在每个尺度上计算与 SSIM 相关的 l、c 和 s 值,并基于它们的加权乘积导出 MSSI,这与 MS-SSIM 的计算方式相同。
Para_09
当 Xi 和 Yi 呈反相关(σxy < 0)时,s 是负值,这会阻止计算加权几何平均数;因此,我们将负值截断为 0。
这意味着如果在任何尺度上 Xs 和 Ys 呈反相关,MSSI 将为 0,这是其可能的最低值。
我们还将原始尺度上的基因表达归一化到 0 和 1 之间,但在每个粗化尺度上不重新归一化。
Spatial covariance representation
空间协方差表示
Para_01
我们的空间协方差框架包括三个组成部分:COVET 统计量、一个相似性度量和一种稳健高效计算 COVET 度量的算法。
COVET 框架假设细胞与其环境之间的相互作用会在细胞及其生态位之间产生共变表达模式,这可以通过生态位细胞的基因-基因协方差矩阵来描述。
COVET 统计量构建了一个移位协方差矩阵(该矩阵保留了协方差矩阵的代数性质),因此可以使用任何协方差之间的统计差异度量来定义一个有原则的定量相似性度量以比较生态位。
关键是构建 COVET 统计量,使得两个 COVET 矩阵可以进行比较,并设计一种计算效率高的算法来量化它们之间的统计差异。
COVET
渴望
错误!!! - 待补充
Para_02
COVET的基本目标是将这些小生境矩阵转换为细胞小生境的有效表示。为此,我们计算每个小生境矩阵中细胞之间的‘偏移’基因-基因协方差矩阵,在这种情况下,我们没有使用经典公式
而是采用了一种新的计算方法
错误!!! - 待补充
Para_04
这创建了一个相对于整个种群的表示,可以更好地突出每个小生境的独特特征,同时保持标准协方差矩阵的代数属性,即半正定(PSD)。
因此,我们可以利用统计散度的度量来推导 COVET 矩阵上的度量,并量化不同小生境之间的差异和相似性。
虽然我们概念上可以使用任何统计散度度量,但像 Kullback–Leibler 散度和 Bhattacharyya 距离这样的指标计算过于复杂且缺乏可解释性。
Distance between COVET matrices
COVET矩阵之间的距离
Para_01
为了有意义地比较不同生态位,我们不能简单地使用两个生态位矩阵 Ei 和 Ej 之间的总差异,因为改变单元格的顺序会改变结果(而任何给定顺序本身没有意义)。
一种直观的量化生态位相似性的方法是通过解决指派问题找到生态位矩阵之间最佳匹配的单元格。
最优传输 (OT) 是指派问题的放松版本,在这种情况下,不是一对一匹配单元格,OT 找到单元格之间的最佳‘软匹配’。
然而,由于这种方法没有闭式解并且无法扩展到大型数据集,我们可以使用协方差矩阵之间 OT 的闭式解,即弗雷歇距离。
Para_02
Fréchet距离的时间复杂度为O(k^3),因此对于大规模数据集来说,在所有生态位之间进行数十亿次成对计算是计算上不可行的。
为了加快计算速度,我们在Fréchet距离的最后一项中交换矩阵平方根(MSQR)和乘法操作,并定义AOT距离为:
Para_03
如果 Σi 和 Σj 是可交换的,这就不再是近似值,且 ΔAOT = ΔFréchet。
近似的和真实的 Fréchet 距离都需要每对生态位之间进行 O(k³) 操作,并需要 O(n² k³) 来计算完整的距离矩阵;然而,利用对称矩阵的恒等式 Tr(AB) = ∑γ,δ Aγδ · Bγδ,我们得出:
Para_04
因此,在平方根空间工作时,我们不需要任何计算上多余的矩阵乘法和许多 MSQR 的计算。
相反,我们首先计算每个 COVET 矩阵的 MSQR,其复杂度为 O(nk^3),然后只需计算成对的(平方)欧几里得距离,总时间复杂度为 O(nk^3 + n^2k^2),这比 O(n^2k^3) 对于大的 n 更加高效。
对于给定的半正定矩阵 A,可能存在许多满足方程 B^2 = A 的可能解 B。
虽然这种不确定性是个问题,但对于 MSQR 存在一个唯一的对称半正定解。
这个解可以通过谱分解并用矩阵特征值的标准平方根重建得到。
Para_05
Para_06
由于AOT可以形式化为COVET矩阵的MSQR之间的平方欧几里得距离,这使得可以直接使用基于平方欧几里得距离的任何算法,例如UMAP、tSNE和FDL、聚类分析和DC分析。
我们只需计算COVET矩阵的MSQR,将结果矩阵展平为一维(1D)向量,并应用所有上述算法的默认实现。
我们还可以利用AOT度量的平方欧几里得距离表示,并使用设计用于计算经典成对距离的计算加速器以获得额外的速度提升。
Para_07
我们通过与真实的弗雷歇距离和巴塔查里亚距离(另一种常见的协方差矩阵距离度量)进行基准测试,证明了AOT是一个良好的近似。
在各种大小的64 × 64协方差矩阵随机集合中,我们测试了计算协方差空间中10个最近邻矩阵的运行时间。
由于协方差矩阵是正半定的,为了随机生成n个64 × 64元素的协方差矩阵,我们首先采样n个随机的64 × 64矩阵(使用标准正态分布),然后将每个矩阵与其转置相乘,因为矩阵格拉姆总是正半定的。
Para_08
我们发现,虽然 AOT 产生的相似性准确,但其运行时间至少比其他度量标准小一个数量级,Fréchet 和 Bhattacharyya 在样本大小超过 3,000 个矩阵时由于内存不足错误而失败。
使用为欧几里得度量构建的 kNN 距离的 GPU 实现,该实现可以轻松适应 AOT,空间协方差度量确实可以扩展到大规模数据集,在不到 1 分钟的时间内计算出 100,000 个样本之间的 kNN 矩阵(扩展数据图 1a)。
Para_09
我们在实际的 COVET 矩阵上观察到精确的近似,这些矩阵是通过 seqFISH 测定中来自咽中胚层细胞的八个最近邻计算得出的,使用了成像的 350 个基因中变异最大的 64 个基因。
尽管 AOT 效率很高,但它并不牺牲准确性,并且与 Fréchet 高度一致。
我们根据 Fréchet、AOT、Bhattacharyya 和矩阵之间的朴素 L2 计算了咽中胚层 COVET 矩阵之间的成对距离。
对于每个咽中胚层细胞,我们为每个度量找到其 k 个最近邻,并计算它们与 Fréchet 最近邻的 Jaccard 指数。
在广泛的 k 范围内,基于 AOT 的 kNN 与 Fréchet kNN 高度一致,而 Bhattacharyya 和朴素 L2 距离则不是。
定性地,使用 Fréchet、AOT 和 Bhattacharyya 成对距离计算 COVET 矩阵的二维(2D)嵌入和 PhenoGraph 聚类返回了类似的结果。
Choice of k
k 的选择
Para_01
默认情况下,我们选择 k = 8 个邻居来构建 COVET,这通常能捕捉到细胞的直接微环境,但 k 的确切选择应该反映数据的特点。
对于本研究中分析的所有数据集,我们将 k 的值保持在默认值,这表明无需找到最优的 k 即可从 ENVI 和 COVET 中获得见解。
尽管如此,鉴于这两种算法的计算效率,我们建议用户尝试不同尺度的 k 值范围,例如 8、20 和 50。
用户可以使用 AOT 可视化 ENVI 学习到的 COVET 表示,并选择最适合他们生物学问题的尺度。
我们还实现了一个选项,使 COVET 可以在给定半径内的所有细胞上进行计算,而不是固定数量的邻居,以考虑组织内细胞密度的差异。
ENVI algorithm
ENVI算法
Para_01
ENVI算法将单细胞RNA测序(scRNA-seq)和空间转录组学数据整合到一个共同的潜在嵌入中,可以推断scRNA-seq的空间背景以及空间数据中缺失的基因。
ENVI的核心假设是,细胞表型与其微环境之间的相互作用,如由COVET矩阵捕捉到的,能够增强数据整合的效果。
Para_02
ENVI 基于自编码变分推断,但与之前的工作有所不同。
虽然当前的方法仅建模包含在单细胞和空间数据集中的基因表达,ENVI 明确结合了空间数据的微环境背景以及 scRNA-seq 数据的完整转录组表达。
此外,ENVI 包含两个解码器:一个用于表达,其中包括从 scRNA-seq 数据中学习基因表达的额外神经元;另一个用于预测空间背景。
通过这些解码器,ENVI 训练 VAE 以从部分转录组样本中重建完整的转录组表达和空间背景。
Para_03
为了整合单细胞 RNA 测序 (scRNA-seq) 和空间数据,ENVI 通过边际化每种技术对表达的影响,学习这两种数据模式的共同潜在空间,使用的是 CVAE。
它通过在编码和解码网络的输入层中添加一个辅助二进制神经元来增强标准 VAE,以表示每种数据模式。
整合是至关重要的,因为每种模式都包含特定于技术的伪影。
ENVI 接受 scRNA-seq 计数矩阵 Xsc 作为输入,该矩阵包含 nsc 个细胞及其完整的 gsc 个基因转录组,以及来自空间转录组学矩阵 Xst 的 nst 个细胞的 gst 个成像基因的分割细胞计数。
它使用空间数据为每个细胞计算 COVET 矩阵及其 MSQR,以与 AOT 距离公式对齐。
Para_04
接下来,ENVI的条件自编码器为两种数据模式构建了一个共享的潜在空间。
由于组合嵌入必须包含空间上下文和完整的转录组信息,并且必须去除与模式相关的混淆因素,我们将潜在维度设置为512,这比单细胞基因组学中标准的变分自编码器(VAE)大得多,后者通常包含大约10个神经元。
作为编码器的输入,ENVI接受空间数据或scRNA-seq样本(后者减少到已成像的基因子集),以及辅助神经元c,该神经元对于空间数据值为0,对于scRNA-seq值为1。
表达谱和辅助神经元使用相同的编码神经网络转换为潜在变量l,无论数据模式如何。
Para_05
其中编码器返回两个向量,μl 和 σl,它们参数化了一个对角协方差的高斯分布,描述了潜在变量的后验分布。为了通过随机样本计算梯度,我们使用重参数化技巧,该技巧涉及从标准正态分布 ε ~ N(0,1) 中生成一个样本,并通过 ε、μl 和 σl 的函数来描述潜在变量,同时将 ε 视为常数:
Para_06
通过训练过程,我们的目标是使潜在编码不仅包含基因表达,还包含给定细胞的空间上下文信息,同时去除混淆效应,以实现不同模态之间的迁移学习。
这是通过优化单一潜在空间来准确解码完整的转录组和COVET矩阵来实现的,每种数据模态中都缺少其中一个组件。
要求潜在空间能够解码空间生态位,这在训练过程中赋予了潜在空间足够的空间信息。
Para_07
任一模态的潜在变量及其相应的辅助神经元被输入到‘表达’解码器网络 DecExp。
损失函数通过比较输出层的激活与真实的表达谱来计算,需要反映每个数据模态的底层分布。
我们使用负二项分布来建模单细胞 RNA 测序数据,类似于之前的工作,因为它存在过度离散和 dropout 现象。
在训练过程中,scRNA-seq 数据提供全转录组表达;因此,我们可以将未提供给编码器的基因表达包含在损失函数中,使我们的编码器能够建模全基因组表达。
错误!!! - 待补充
Para_09
我们使用泊松分布来建模基于 FISH 的多重成像数据,因为其高分子捕获率,并让输出层中的第一个 gst 神经元使用 ‘softplus’ 非线性参数化每个基因的速率参数 λ,以确保它是一个有效的速率值。
在标准的CVAE中,除了辅助神经元外,所有神经参数都是共享的,这足以简单地整合scRNA-seq批次之间的数据,如在scArches中所展示的那样。
然而,为了成功整合scRNA-seq和多重FISH技术,仅靠一个辅助神经元不足以消除所有偏差。
在ENVI中,输出层的前gst个神经元由两种数据模式共享,而其余的神经元则仅在scRNA-seq数据上进行训练。
这些额外的技术特定参数提高了ENVI从潜在嵌入中回归出混淆因素的能力,超出了辅助神经元的作用。
错误!!! - 待补充
错误!!! - 待补充
环境解码器的输出是COVET矩阵的MSQR,该MSQR训练以最小化与真实COVET矩阵的MSQR之间的L2平方误差。
以这种方式使用AOT度量涉及在训练期间计算COVET样本的MSQR,这在计算上可能是难以承受的。
相反,我们首先计算所有COVET矩阵的MSQR,ENVI直接训练以重建这些MSQR。
我们同时在空间和单细胞数据集的样本上训练ENVI,使用小批量梯度下降来优化变分推断损失。
通过学习到的ENVI模型,我们通过将空间数据的潜在嵌入视为来自单细胞数据,利用单细胞辅助变量并以负二项分布而非泊松分布进行参数化,来填补空间数据中缺失的基因。
相反地,我们通过将‘环境’解码器应用于其潜在表示(仿佛它是空间数据的潜在表示)来重建单细胞数据的空间背景。
错误!!! - 待补充
为了训练 ENVI 以填补空间数据中缺失的基因,我们通过将 Xst 传递给编码器生成潜在嵌入 lst,并将潜在层通过‘表达’解码器运行,但使用逆辅助神经元,就像嵌入来自 scRNA-seq 数据一样:
同样,我们通过将scRNA-seq潜在嵌入lsc传递给‘环境’解码器,来重建解离的scRNA-seq样本的空间背景:
为了在建模时具有灵活性,以适应不同计数分布和分子捕获率的技术,我们实现了正态分布、泊松分布、负二项分布和零膨胀负二项分布(ZINB),这些分布可以选择用于任一模式,以反映预处理步骤或不同的噪声或dropout水平。
泊松分布的速率或均值参数(λ)、负二项分布和零膨胀负二项分布的参数(r)以及正态分布的参数(μ)必须为每个细胞和每个基因定义,并且在单细胞数据和空间数据之间共享。
然而,所有其他参数可以选择为每个细胞和每个基因定义,或者仅按基因定义,并且可以在技术之间共享或独立设置。
默认情况下,编码器和两个解码器网络由三个隐藏层组成,每层包含1,024个神经元。
潜在嵌入层包含512个神经元,先验系数设置为β = 0.3。
对于总样本数少于10,000个细胞的小型数据集,我们建议增加对先验的依赖并将β设置为1.0。
我们使用ADAM优化器以10^-3的学习率(在最后四分之一训练步骤中降低到10^-4)对ENVI进行两次梯度下降步骤的训练,每个批次包含1,024个样本,其中一半来自单细胞RNA测序数据,另一半来自空间数据。
为了减少计算复杂性,我们将单细胞RNA测序数据集子集化为2,048个高变基因和所有包含在空间数据集中的基因的并集,而不是完整的转录组。
ENVI训练在时间和内存上都是恒定的,而像Tangram和NovoSpaRc这样的方法随着数据集大小呈二次方增长,并且在超过几千个细胞的数据集上无法通过GPU加速。
我们对ENVI、Tangram、NovoSpaRc、gimVI、uniPort、deepCOLOR和Harmony在不同大小的单细胞RNA测序数据集以及osmFISH、seqFISH、Xenium和MERFISH数据集上的运行时间进行了基准测试。
所有模型都使用默认参数和单个12 GB GeForce RTX 2080 GPU进行训练,除了Tangram,在超过10,000个细胞时出现内存不足错误,因此使用CPU进行训练。
如预期的那样,ENVI 的训练时间始终在 10 分钟左右,与数据集大小无关(扩展数据图 2b),Harmony 的训练时间也保持不变。
gimVI 的运行时间随着数据集大小线性增长(模型在数据集上进行预定义数量的 epoch 训练),而 NovoSpaRc 和 Tangram 在较大的空间和 scRNA-seq 数据集上非常缓慢(它们学习空间数据集和单细胞数据集之间的细胞到细胞映射)。
我们发现 Tangram 无法使用 GPU 加速。
deepCOLOR 和 uniPort 在较大细胞数量的情况下也明显比 ENVI 慢。
Evaluation of integration quality
集成质量评估
Para_01
批量平均轮廓宽度(bASW)是在最近对批量整合方法的基准测试中引入的,用于评估单细胞RNA测序图谱的潜在整合效果,具体是基于批次之间的混合以及相似细胞类型的共定位情况。
简而言之,bASW 为每种细胞类型计算其批次标签的混合程度,使用轮廓系数进行评估,并返回所有细胞类型的平均值。
通过将每个模态视为不同的批次,我们可以使用 bASW 分数来衡量 ENVI 学习到的潜在空间的质量。
ENVI 的潜在空间较大,由512个神经元组成;由于轮廓系数受维度诅咒的影响,我们首先将 ENVI 的潜在空间压缩到前10个主成分,并在这些主成分上计算 bASW。
Benchmarking imputation
基准测试填补方法
Para_01
我们根据先前的方法,使用交叉验证生成了一组保留基因的测试集,并通过皮尔逊相关性和我们的空间感知MSSI指标比较了推算表达和真实表达。我们评估了对数表达和推算谱型,伪计数为0.1。
Para_02
许多算法使用单细胞 RNA 测序数据来推断空间转录组学数据中缺失的基因。
我们将 ENVI 与 gimVI、Tangram 和 uniPort 进行了比较,以评估它们的竞争性能,还与 NovoSpaRc 比较了其对空间背景和最优传输在数据整合中的应用,与 deepCOLOR 比较了其对深度生成模型的应用,以及与 Harmony 比较了其作为批次校正方法的普遍性。
Para_03
在包含仅33个基因的osmFISH数据集上,我们通过逐一隐藏成像面板中的每个基因并预测其表达,进行了完整的留一法交叉验证。
在包含数百个基因的seqFISH、MERFISH和Xenium数据集上,我们使用了五折交叉验证,即将成像的基因集随机分为五组,每个模型在训练四组后对保留的一组进行测试。
为了评估性能,我们使用了一种‘相对’单侧t检验,因为分数在基因之间是配对的。
Para_04
我们使用所有数据集对所有模型进行了基准测试,采用的是它们的默认参数和指令:
[ul]- gimVI: We trained for 200 epochs with a batch size of 128 and latent dimension, per author recommendations (https://docs.scvi-tools.org/en/stable/), and parameterized spatial and scRNA-seq datasets with NB and ZINB distributions, respectively. To impute genes with the trained model, we followed manuscript instructions and trained a kNN regression model on the scRNA-seq latent and full transcriptome expression, setting k as 5% of cells in the single-cell dataset. We then applied the regression model on the spatial data latent to predict the expression of unimaged genes. - Tangram: We trained for 1,000 epochs using default parameters (https://github.com/broadinstitute/Tangram). For osmFISH, seqFISH and Xenium datasets, we used the default ‘cells’ mode, and, for the much larger MERFISH atlas, we used the ‘cell-type’ mode, per the tutorial. We set the density prior to be uniform, as our spatial benchmark datasets are single-cell resolution. With the learned mapping, we used the ‘project_genes’ function to impute genes from scRNA-seq onto the spatial dataset. - NovoSpaRc: We followed the repository instructions (https://github.com/rajewsky-lab/novosparc), using an ‘alpha’ coefficient on a spatial location prior of 0.25 and smoothness parameter ‘epsilon’ of 0.005. To compute the scRNA-seq pairwise distance matrix, we used the union of the 2,048 most variable genes and all genes in the spatial dataset. For spatial datasets consisting of multiple samples, we trained a different model on each sample. Because NovoSpaRc does not scale well to large datasets, we reduced the MERFISH-related scRNA-seq dataset to a tenth of its size, sampling uniformly across each cell type. We applied the learned mapping to impute missing genes using the ‘tissue.sdge’ function. - uniPort: We replicated tutorial instructions for integrating spatial and single-cell datasets (https://uniport.readthedocs.io/) by normalizing each dataset according to library size, log transforming counts, executing the ‘batch_scale’ function, training the model for 30,000 iterations with a ‘lambda_kl’ value of 5.0 and, finally, predicting the expression of hidden genes using the ‘predict’ function. - deepCOLOR: We trained for 500 epochs using default parameters from the tutorial (https://github.com/kojikoji/deepcolor). deepCOLOR does not directly impute unimaged genes, so we multiplied the resulting mapping matrix with the scRNA-seq expression of the hidden genes to predict their expression. - Harmony: We treated spatial and single-cell datasets as separate batches and integrated them using the default Harmony implementation in scanpy90 (https://scanpy.readthedocs.io/). We only included genes from the scRNA-seq data that were also in the spatial data (and removed test genes) to produce Harmony embeddings from the principal components of the concatenated dataset. Mirroring gimVI’s imputation procedure, we performed kNN regression on the Harmony embeddings to reconstruct expression of the manually hidden genes.