Basic Information
英文标题:Integrative mapping of human CD8+ T cells in inflammation and cancer
中文标题:整合性地绘制人类炎症和癌症中的CD8+ T细胞图谱
文章作者:Ziwei Xue | Linrong Lu
文章链接:https://www.nature.com/articles/s41592-024-02530-0
Abstract
Para_01
CD8+ T细胞在炎症和癌症中表现出显著的表型多样性。然而,对其克隆景观和动态的全面理解仍然难以捉摸。
在这里,我们介绍了scAtlasVAE,这是一种基于深度学习的模型,用于整合大规模单细胞RNA测序数据和跨图谱比较。
scAtlasVAE使我们能够构建一个广泛的人类CD8+ T细胞图谱,包括来自68项研究和42种疾病条件下的961个样本中的1,151,678个细胞,并附有配对的T细胞受体信息。
通过整合T细胞受体克隆扩增和共享的信息,我们成功地建立了不同细胞亚型之间的联系,并揭示了它们的表型和功能转变。
值得注意的是,我们的方法描述了三种不同的耗竭T细胞亚型,并揭示了自身免疫和免疫相关不良事件炎症中的多样化转录组和克隆共享模式。
此外,scAtlasVAE促进了查询单细胞RNA测序数据集中CD8+ T细胞亚型的自动注释,实现了无偏见和可扩展的分析。
总之,我们的工作为CD8+ T细胞研究提供了一个全面的单细胞参考和计算框架。
Main
Para_01
CD8+ T细胞在适应性免疫反应中起着关键作用,通过T细胞受体(TCR)识别抗原肽,并清除感染或恶性细胞。
在TCR介导的激活下,CD8+ T细胞经历克隆扩增,促进抗原特异性T细胞增殖并分化为效应细胞,以进行短期的细胞毒性功能和记忆细胞,以对抗未来再感染提供长期免疫力。
在慢性感染和癌症中,持续的抗原暴露以及微环境中的信号可以诱导抗原特异性CD8+ T细胞进入耗竭状态,其特征是抑制性受体的上调,这会削弱它们的效应功能和增殖能力。
同时,使用免疫检查点抑制剂(CPIs),如抗PD1和抗CTLA-4,可以在肿瘤微环境中逆转抗原特异性T细胞的耗竭状态,恢复它们的效应和增殖能力。
最近,人们对CD8+ T细胞在自身免疫疾病中的作用越来越关注,研究表明它们既参与了疾病的发病机制,也参与了保护机制。
Para_02
CD8+ T细胞在各种病理环境中的多方面作用使得单细胞免疫分析技术对于同时捕获其转录组和TCR库变得至关重要。
这种分析揭示了细胞异质性,识别了新的细胞亚型,分析了克隆扩增,并提供了对CD8+ T细胞动态功能变化的见解。
然而,全面表征CD8+ T细胞亚型及其克隆动力学仍然是一个挑战,因为现有研究主要集中在特定的生理和病理环境中。
Para_03
为了解决这一差距,我们利用了之前开发的人类抗原受体数据库(huARdb),这是一个经过整理的单细胞免疫谱型数据集存储库,并汇编了一个全面的人类T细胞数据集集合,其中包括超过一百万个具有配对转录组和全长TCR信息的CD8+ T细胞。
基于变分自编码器(VAE)的方法,例如scVI、scANVI、scPoli和SCALEX,在整合大型和异质数据集方面已被证明是有效的。
然而,在比较不同图谱中的细胞亚型时出现了挑战,因为细胞亚型注释标准的差异使得直接比较变得复杂。
此外,这些方法在使用来自多个图谱的不同细胞亚型注释进行半监督训练方面的能力有限。
Para_04
在这里,我们介绍了scAtlasVAE,这是一种基于VAE的模型,旨在整合跨研究的单细胞RNA测序(scRNA-seq)数据,实现跨图谱整合和细胞亚型对齐,并允许通过自动细胞亚型注释进行迁移学习。
基准分析表明,scAtlasVAE在单图谱整合、跨图谱整合和细胞亚型注释迁移方面具有竞争力。
利用scAtlasVAE,我们构建了一个全面的CD8+ T细胞图谱,并配以TCR信息,涵盖了不同疾病条件下循环、组织和肿瘤浸润淋巴细胞(TIL)样本。
通过基于克隆型的分析,我们识别了几种具有独特转录特征、不同的克隆共享模式以及与癌症、自身免疫和免疫相关不良事件(irAEs)有不同病理关联的CD8+ T细胞亚型。
最终,scAtlasVAE有助于使用我们的图谱作为参考,自动注释查询scRNA-seq数据中的CD8+ T细胞亚型,并帮助表征各种病理条件下CD8+ T细胞的异质性。
Results
Data collection and architecture of scAtlasVAE
scAtlasVAE的数据收集和架构
Para_01
基于我们之前建立的huARdb14,我们构建了一个全面的CD8+ T细胞图谱,涵盖了转录组和配对TCR信息。
这个图谱包括来自961个单细胞免疫分析样本的CD8+ T细胞,这些样本来源于外周血、组织和肿瘤等多种组织。
这些样本代表了42种不同的生理和病理条件,并进一步分为8种条件元类型(图1a及补充表1和2)。
Fig. 1: Pan-disease collection of human CD8+ T cells with transcriptome and TCR information and scAtlasVAE model for atlas-level integration.
- 图片说明
- a,生成包含配对转录组和TCR信息的泛疾病CD8+ T细胞图谱所用分析工作流程的示意图概述。该图谱整合了八种主要疾病类型,包含了使用原始研究中的10x免疫分析策略生成的循环、组织和肿瘤样本(TILs)。
- b,基于VAE框架构建的scAtlasVAE架构的概述。
- c,本研究中用于分析CD8+ T细胞的scAtlasVAE的关键模块和功能。CMV,巨细胞病毒;EM,游走性红斑;P. falciparum,恶性疟原虫;RA,类风湿性关节炎;PsA,银屑病关节炎;CP,慢性胰腺炎;AR,过敏性鼻炎;SCC,鳞状细胞癌;BCC,基底细胞癌;TET,胸腺上皮肿瘤;OC,卵巢癌;EMC,子宫内膜癌;PSC,前列腺癌;Met-CRC,转移性结直肠癌;Met-BC/OC,转移性乳腺癌或卵巢癌;AML,急性髓系白血病;B-ALL,B细胞急性淋巴细胞白血病;T-LGLL,T细胞大颗粒淋巴细胞白血病。
Benchmarking for data integration and cell subtype annotation
数据整合和细胞亚型注释的基准测试
Para_01
为了评估scAtlasVAE的性能,我们使用两个先前建立的T细胞图谱进行了广泛的基准分析:泛癌CD8+ T细胞景观(TCellLandscape)和泛癌CD8+ T细胞图(TCellMap)(扩展数据图1a-c)。
我们针对三个特定任务对scAtlasVAE与其他方法进行了基准测试:单一图谱整合、跨图谱整合和细胞亚型注释转移,利用了已建立的评估指标(扩展数据图1-3和补充表3)。
对于单一图谱整合,scAtlasVAE与其他基于VAE的方法包括scVI、scANVI、scPoli和SCALEX进行了比较,并与基于图和回归的机器学习方法如Scanorama、Harmony和Seurat进行了比较(扩展数据图1d-h)。
scAtlasVAE和scPoli可以在监督或无监督模式下进行训练(有或没有细胞亚型注释),我们在基准测试中包含了这两种训练模式。
我们证明了scAtlasVAE的无监督模式的性能与其他方法包括scVI相当(扩展数据图1i,j)。
值得注意的是,我们的基准测试结果表明,在监督模式下,scAtlasVAE在潜在表示学习方面表现出色,显示出在TCellLandscape和TCellMap图谱中增强了批次校正并保留了生物方差(扩展数据图2a-f)。
我们展示了scAtlasVAE在无监督模式下的性能与其他方法包括scVI相当(扩展数据图1i,j)。
我们的基准测试结果揭示了scAtlasVAE在监督模式下在潜在表示学习方面的优越性,显示出增强的批次校正和生物方差的保留(扩展数据图2a-f)。
Para_02
为了评估 scAtlasVAE 在转移细胞潜在表示方面的有效性,我们对其在查询数据集上进行自动细胞亚型注释的能力进行了基准测试。
这项分析包括与使用 TCellLandscape 和 TCellMap 图谱的 scPoli、scANVI 和 cellTypist26 的比较(扩展数据图 1d)。
值得注意的是,scPoli 和 cellTypist 被归类为零样本模型,在迁移学习过程中不需要进一步微调原始模型参数。
相比之下,作为全样本模型的 scANVI 需要在参考和查询数据集上进行训练,以实现细胞亚型注释的迁移。
scAtlasVAE 为此任务提供了零样本和全样本两种模式。
在我们的基准测试中,我们从每个图谱中随机抽取了 5% 的细胞或选择了一个研究作为查询数据集。
与其他方法相比,scAtlasVAE 在零样本和全样本迁移学习模式下都表现出有效性(扩展数据图 2g,h)。
Para_03
此外,scAtlasVAE的设计特别纳入了独立的细胞类型预测器,用于从不同图谱中对不同细胞亚型进行注释。虽然其他基于VAE的方法如scVI、scPoli、scANVI和SCALEX也能执行跨图谱整合,但scAtlasVAE这一独特的功能允许在不同图谱之间并行对齐细胞亚型注释。
因此,我们进行了基准测试以确定scAtlasVAE在跨图谱整合方面的性能。我们展示了scAtlasVAE在从多个图谱中捕捉细胞亚型信息方面优于其他方法,并实现了更好的批次校正。
在跨图谱整合过程中,我们对模型进行了额外的超参数网格搜索,包括数据标准化方法、编码器架构、潜在表示和批次嵌入维度。
我们发现,通过总基因计数对每个细胞进行标准化,对计数矩阵应用对数转换或结合这两种策略,对于使用scAtlasVAE去除批次效应都是有效的。
通过超参数网格搜索,当调整其他超参数(包括编码器隐藏层和维度)时,将潜在维度设置为10或20时,scAtlasVAE的性能是稳定的。
值得注意的是,scAtlasVAE的时间消耗和内存使用都与细胞数量成线性关系,并且与其他基于深度自编码器的方法相比具有竞争力,证明了其在大规模图谱整合中的可扩展性。
Establishment of a comprehensive human CD8+ T cell atlas
建立一个全面的人类CD8+ T细胞图谱
Para_01
利用scAtlasVAE的无监督模式,我们整合了来自不同来源的CD8+ T细胞,将总共1,151,678个细胞聚类为18种不同的细胞亚型(图2a和扩展数据图5a)。
随后,在基于知识的标记基因指导下进行的手动注释,将这些簇分类为八种主要的CD8+ T细胞簇:幼稚T(Tn)细胞;中央记忆或效应记忆T(Tcm或Tem)细胞;最近激活的效应记忆或效应T(Temra或Teff)细胞;黏膜相关不变T(MAIT)细胞;具有高细胞毒性潜力的先天样T细胞(ILTCK-LCs);组织驻留记忆T(Trm)细胞;耗竭T(Tex)细胞;以及处于细胞周期中的细胞(图2a,b和补充表4)。
进一步在这些簇内的分类是基于标记基因的表达模式,例如Tcm/Tem细胞中的GZMK+ Tem细胞亚型,Temra细胞中的GNLY+和CMC1+亚型,Trm细胞中的ITGAE+、ITGB2+和CREM+亚型,以及Tex细胞中的SELL+ 前体耗竭T(Tpex)细胞、GZMK+、ITGAE+和XBP1+亚型。
Fig. 2: Establishment of a comprehensive human CD8+ T cell atlas.
- 图片说明
- a,CD8+ T细胞图谱中1,151,678个细胞的UMAP表示,按本研究中标注的18种CD8+ T细胞亚型着色。
- b,一个点图显示每个CD8+ T细胞亚型中标记基因的表达水平。点的颜色表示平均缩放表达水平,点的大小表示每个亚型中表达该基因的细胞百分比。
- c,按组织来源对CD8+ T细胞图谱进行UMAP表示。
- d,组织来源组成的饼图。外圈显示主要来源,包括循环、组织、TILs和其他来源,内圈显示详细的细胞来源。
- e,热图显示每种细胞亚型在循环、组织或TIL起源中的OR值。
- f,按每个细胞亚型的TCR库多样性D50指数对图谱进行UMAP表示。
- g,箱线图显示不同条件下每个个体的D50指数。中间线代表中位数;箱子代表第25(底部)和第75(顶部)百分位数;须代表在1.5倍四分位距内的最小和最大点。通过使用双侧Mann–Whitney U检验将每种疾病条件与健康条件进行比较来评估统计显著性。
P < 0.05,
P < 0.01,
P < 0.001,****P < 0.0001。
- h,一个Circos图表示具有循环和组织/TIL样本的个体中每种CD8+ T细胞亚型之间的TCR共享。排除了少于五个克隆型的共享事件。内圈颜色条表示源细胞亚型。中间条表示主要克隆共享细胞亚型。外圈表示次要克隆共享细胞类型。原始数据
Para_02
与之前建立的两个泛癌图谱 TcellLandscape21 和 TCellMap22 的跨图谱整合确认了图谱之间细胞亚型注释的整体一致性(扩展数据图 5b,c)。同时,我们的图谱中的几个细胞亚型,例如 ILTCK-LCs,在这两个已建立的图谱中都没有表示,这表明我们的图谱捕捉到了以前未发现的细胞亚型(扩展数据图 5b,c)。
Para_03
我们CD8+ T细胞图谱中的细胞来源被分为九种不同的来源类型,并汇总为四种元来源:循环(66%)、组织(10%)、肿瘤浸润淋巴细胞(TILs)(22%)和其他来源(2%)(图2c,d)。
均匀流形近似和投影(UMAP)可视化显示,基于其元来源,细胞亚型有明显的分离(图2a,c)。
比值比(OR)分析表明,Tn细胞、Tcm/Tem细胞、Temra细胞、MAIT细胞、ILTCK-LCs和SELL+ Tpex细胞主要富集在循环细胞中;ITGAE+ Trm细胞和ITGB2+ Trm细胞富集在组织来源的细胞中;ZNF683+ Teff细胞、CREM+ Trm细胞和Tex细胞富集在肿瘤浸润淋巴细胞中(图2e)。
图谱中的大多数细胞是未分类的CD8+ T细胞,其中一部分通过特定表面蛋白或四聚体进行分类(扩展数据图6a,b)。
我们发现,通过基于四聚体的分类获得的具有抗原特异性的CD8+ T细胞,在ZNF683+ Teff和XBP1+ Tex细胞中表现出富集(扩展数据图6a-c)。
我们的图谱显示了生理和病理条件下不同的细胞亚型组成(扩展数据图6d-f)。
例如,在健康状态下,包括Tn、Tcm、Tem和Trm细胞在内的静息状态的CD8+ T细胞占主导地位,而在疾病状态下,如Temra、Teff和Tex细胞等激活的T细胞表现出增加的丰度(扩展数据图6f)。
Para_04
我们的图谱中的配对TCR信息使得能够对TCR库进行全面分析。我们观察到不同细胞亚型的TCR库多样性和不平等性的不同模式。
正如预期的那样,Tn细胞显示出最高的TCR库多样性(D50)和最低的不平等性(基尼指数),而终末分化亚型如Temra和Tex细胞则表现出最低的TCR库多样性和最高的不平等性(图2f和扩展数据图6g,h)。
在循环细胞中,健康个体与炎症患者的TCR多样性水平相似,这与先前关于器官特异性自身免疫性炎症(如溃疡性结肠炎)中外周TCR库多样性有限改变的观察结果一致(图2g和扩展数据图6i)
Para_05
然而,在其他疾病条件下,循环T细胞的多样性显著减少,不平等性增加,表明存在选择性克隆扩增(图2g和扩展数据图6i)。
在肿瘤浸润淋巴细胞中,检测到TCR库的多样性较低且不平等性较高,反映了肿瘤浸润CD8+ T细胞的优先克隆扩增(图2g和扩展数据图6i)。
不同细胞亚型之间的大量克隆型共享表明CD8+ T细胞具有动态和多方面的表型(图2h)。
Tex cell subtypes with distinct transcriptomic and clonal features
具有不同转录组和克隆特征的 Tex 细胞亚型
Para_01
我们表征了三种Tex细胞亚型——GZMK+、ITGAE+和XBP1+ Tex细胞——每种亚型都有独特的转录组谱,但都表现出与耗竭相关的基因(包括PDCD1、LAG3和TIGIT)的高表达(图2b和3a,b)。
这些Tex细胞亚型在实体瘤中富集,并表现出CXCL13的高表达,这是肿瘤特异性T细胞的标志物,表明它们可能具有潜在的肿瘤反应性特征(图3a和扩展数据图7a)。
Fig. 3: Transcriptomic and clonal features of the three distinct Tex cell subtypes.
- 图片说明
- a, UMAP图表示了该图谱,突出了按疾病条件着色的GZMK+、ITGAE+和XBP1+ Tex细胞亚型。饼图代表了这三种Tex细胞亚型的疾病条件组成。
- b, 散点图显示了GZMK+、ITGAE+和XBP1+ Tex细胞中的差异表达基因(DEGs)。在每种Tex细胞亚型中,log2(fold change)>0.25且错误发现率(FDR)<0.05的基因被着色。点的大小表示每个亚型中表达该基因的细胞百分比。EC,内皮细胞。
- c, 点图显示了GZMK+、ITGAE+和XBP1+ Tex细胞上调DEGs的顶级富集GO术语。
- d, Sankey图显示了使用实体瘤个体样本的GZMK+、ITGAE+和XBP1+ Tex细胞与其他细胞亚型之间共享的扩增克隆型的比例。
- e, 由STARTRAC32计算的GZMK+、ITGAE+和XBP1+ Tex细胞与其他细胞亚型之间的成对转换指数(pTrans)热图。
- f, GZMK+(左)、ITGAE+(中)和XBP1+(右)Tex细胞的代表性扩增克隆型。
- g, 当前图谱(huARdb)和Zheng等人的TCellLandscape中Tex细胞亚型的跨图谱整合UMAP表示,按两个图谱的细胞来源组成(左)、huARdb的细胞亚型注释(中)和TCellLandscape的细胞亚型注释(右)着色。为了视觉效果,GZMK+和ITGAE+ Tex细胞之间以及Tex.PDCD1和Tex.CXCL13之间的边界用虚线手动标记。
- h, huARdb和TCellLandscape之间Tex细胞亚型注释对齐的Sankey图。源数据
Para_02
差异表达基因(DEGs)和基因本体(GO)富集分析揭示了三种Tex细胞亚型中与干扰素-γ(IFNγ)、白细胞介素-1(IL-1)和肿瘤坏死因子(TNF)反应相关的通路在GZMK+ Tex细胞中的富集,以及与淋巴细胞迁移、细胞毒性及趋化因子如NKG7、CCL3、CCL4和CCL5相关的基因(图3b,c)。
ITGAE+ Tex细胞与细胞因子/1型IFN的产生、自然杀伤细胞介导的细胞毒性和TGFBR信号通路相关,并且GNLY、KLR和KIR基因上调(图3b,c)。
XBP1+ Tex细胞表现出内质网(ER)应激特征,XBP1基因上调(图3b,c)。
我们进一步研究了三种Tex细胞亚型与各种癌症类型之间的关联。
GZMK+ Tex细胞在透明细胞肾细胞癌中普遍存在,而ITGAE+ Tex细胞主要表现在食道鳞状细胞癌、皮肤癌、非小细胞肺癌、胃癌和胆管癌中。
XBP1+ Tex细胞在胰腺导管腺癌中富集,但样本主要由培养的TILs组成(扩展数据图7b,c)。
Para_03
我们的图谱中整理的TCR信息使我们能够探索这三种Tex细胞类型与其他细胞亚型的克隆关系。我们对克隆型共享的分析,结合STARTRAC32的过渡指数分析表明,GZMK+ Tex细胞主要与组织驻留的ITGB2+ Trm和CREM+ Trm细胞共享克隆型,并且还与循环细胞亚型如CMC1+ Temra细胞和GZMK+ Tem细胞共享(图3d-f)。
相比之下,ITGAE+ Tex和XBP1+ Tex细胞显示出更为受限的克隆共享模式,主要与组织/肿瘤浸润淋巴细胞起源的亚型共享。具体来说,ITGAE+ Tex细胞主要与ITGAE+ Trm细胞共享克隆型,而XBP1+ Tex细胞则主要与ZNF683+ Teff细胞表现出显著的克隆关联(图3d-f)。
在不同的Tex细胞亚型之间也观察到了共享的克隆型,尽管尚不清楚这是否反映了它们之间的转换或共同起源(扩展数据图7d)。
Para_04
为了比较我们图谱中的Tex细胞注释与之前图谱中的注释,我们使用scAtlasVAE对来自我们图谱和TCellLandscape21的Tex细胞子集进行了跨图谱整合(图3g)。这种比较揭示了Tex细胞亚型注释的相似性和差异。
两个图谱之间的细胞亚型对齐分析表明,大多数Tex.CXCL13亚型(TCellLandscape)的细胞与我们的GZMK+和ITGAE+ Tex细胞群体对齐,而Tex.PDCD1(TCellLandscape)亚型在GZMK+ Tex细胞中更为普遍(图3h)。
我们还观察到ISG.IFIT1/Tex.TCF7(TCellLandscape)与我们的三种Tex细胞亚型之间存在重叠(图3h)。
这些结果表明进一步细分Tex细胞以生成高分辨率注释的潜力。因此,我们专门针对我们图谱中的Tex细胞亚型重新训练了scAtlasVAE模型,以提高Tex细胞注释的分辨率(扩展数据图7e)。
在这个高分辨率的Tex细胞图谱中,同时表达IFN刺激基因(ISGs)的ITGAE+和GZMK+ Tex细胞亚群被分类为ISG+ Tex细胞。
此外,另一个高度表达DUSP1和激活蛋白1(AP-1)转录因子(JUN和FOS)成员的细胞亚群被归类为DUSP1+ Tex细胞。
另外,一个主要来自ITGAE+ Tex细胞的显著亚群,表现出TCF7和IL7R水平增加,被鉴定为TCF7+ Tpex细胞。
另一个来自GZMK+ Tex细胞且高表达TNFRSF9的亚群被注释为TNFRSF9+ Tex细胞(扩展数据图7f)。
对这些Tex细胞亚型的进一步基因调控网络(GRN)分析显示了预期的调控网络,验证了其潜在的生物学相关性(扩展数据图7g)。
使用scAtlasVAE的零样本迁移模式,我们将TCellLandscape的Tex细胞亚型投影到我们的高分辨率Tex细胞图谱上,确认了两个图谱中ISG+和TCF7+细胞亚型的一致性(扩展数据图7h,i)。
Association of CD8+ T cells in autoimmune and irAE inflammation
CD8+ T 细胞在自身免疫和 irAE 炎症中的关联
Para_01
最近发现的CPIs的副作用,irAE炎症,促使需要进一步的机制研究以优化未来的免疫疗法。在我们的研究中,我们对自身免疫和irAE炎症进行了比较分析。
为了减轻组织异质性的潜在影响,我们仅使用了来自健康条件、溃疡性结肠炎和与CPI治疗相关的结肠炎(CPI-colitis)的结肠组织的数据集。
此外,我们通过平行分析不同癌症类型的肿瘤浸润淋巴细胞(TILs),探索了肿瘤中的局部免疫反应与irAE炎症组织之间的潜在联系。
通过检查TCR库的克隆扩增状态,我们观察到健康和炎症组织中具有可比的扩增水平(图4a,b和扩展数据图8a)。
在健康的结肠组织中,ITGAE+ Trm细胞成为主要的扩增群体,而在自身免疫炎症中,ITGB2+ Trm细胞富集。
有趣的是,我们在irAE炎症组织中观察到GZMK+ Tex和ITGAE+ Tex细胞组成的增加,这标志着与自身免疫炎症的区别。
此外,循环T细胞的差异克隆扩增进一步强调了自身免疫和irAE炎症之间的差异。
值得注意的是,在irAE炎症组织中,耗竭T细胞,特别是ITGAE+ Tex细胞,成为主要的CD8+ T细胞亚型,类似于它们在TILs中的普遍性(图4a,b和扩展数据图8a)。
这种模式也在与CPI治疗相关的关节炎(CPI-arthritis)中观察到,表明CD8+ Tex细胞可能在各种CPI诱导的炎症条件下充当组织毒性亚型(扩展数据图8b,c)。
鉴于它们在自身免疫和irAE炎症组织中的主导地位,我们进行了DEG和GO术语分析,比较了ITGB2+ Trm细胞和ITGAE+ Tex细胞。
通常,ITGAE+ Tex细胞显示出更高的细胞毒性相关基因表达,包括PRF1、GZMB、GNLY和STAT1,并且富集了与TCR信号传导、TNF和NF-κB通路相关的GO术语(图4c,d)。
相反,ITGB2+ Trm细胞表现出细胞毒性相关基因的上调,包括GZMK、CXCR4和TNFSF9,以及关键转录因子EOMES。
GRN分析表明,ITGB2+ Trm细胞亚型可能富集EOMES调控子,而ITGAE+ Tex细胞可能受IRF和STAT1调节(扩展数据图8d)。
Fig. 4: Association of CD8+ T cells in autoimmune and irAE inflammation.
Fig__4__Association_of_CD8_+_T_cells_in_autoimmune_and_irAE_inflammation_
- 图片说明
- a,UMAP图谱表示,突出显示了组织/TIL Trm细胞和Tex细胞的克隆扩增(克隆型≥3个细胞),并根据其疾病条件进行着色。
- b,饼图显示了每种疾病条件下组织/TIL中扩增细胞的比例及其克隆扩增细胞的亚型组成。
- c,火山图展示了在溃疡性结肠炎(UC)和CPI-结肠炎的炎症组织中比较ITGAE+ Tex细胞与ITGB2+ Trm细胞的差异表达基因(DEGs)。
- d,点图显示了ITGAE+ Tex细胞上调基因的代表性富集GO术语。FDR,错误发现率。
- e,UMAP图谱表示,突出显示了不同疾病条件下循环Tcm、Tem和Temra细胞的克隆扩增。irAE炎症仅包括来自CPI-关节炎的样本,因为没有来自CPI-结肠炎的PBMC样本。
- f,饼图显示了每种疾病条件下外周血中不同扩增水平及扩增细胞亚型组成的比例。
- g,环形图显示了在自身免疫炎症中与其他细胞亚型共享的克隆型比例。
- h,桑基图显示了未治疗的实体瘤或irAE炎症中外周主要细胞亚型的比例。仅包括具有组织-外周共享的克隆型用于g和h分析。所有分析均使用未分选的CD8+ T细胞进行。
Para_02
我们进一步研究了外周CD8+ T细胞在自身免疫和irAE炎症中的参与(图4e,f)。
我们观察到,在irAE炎症和未经治疗的癌症中,克隆扩增的CD8+ T细胞的比例高于健康和自身免疫炎症(大约77%/50%对比30%/29%),这表明在CPI治疗之前,irAE炎症中已经存在克隆扩增(图4f)。
在外周,两种Temra细胞亚型,GNLY+和CMC1+ Temra细胞,在所有条件下都是主要扩增的CD8+ T细胞,其中CMC1+ Temra细胞在irAE炎症中特别富集(图4f和扩展数据图8e)。
比较来自自身免疫和irAE炎症的外周血单核细胞(PBMCs)中的GNLY+和CMC1+ Temra细胞,我们观察到在CMC1+ Temra细胞中STAT1和特定ISGs的表达增加,以及由1型/2型IFN、TNF和IL-12介导的信号通路的激活(扩展数据图8f,g)。
此外,与先天免疫相关的途径以及诸如CD160、KLRB1和KLRD1等特征基因在CMC1+ Temra细胞中上调(扩展数据图8f,g)。
Para_03
为了探索外周扩增细胞与局部免疫反应之间的潜在关系,我们分析了从外周血和组织中采集样本的个体中的循环-组织共享克隆型。在自身免疫炎症的背景下,GZMK+ Tem 细胞和 ITGB2+ Trm 细胞是循环-组织共享克隆型中最主要的亚型(图 4g)。
在未接受治疗的癌症患者中,外周 GZMK+ Tem 细胞代表了与肿瘤浸润淋巴细胞共享的主要亚型(图 4h)。
然而,在 irAE 炎症中,外周 GNLY+ 和 CMC1+ Temra 细胞是与发炎组织克隆共享的最丰富的亚型,表明外周激活与 irAE 炎症之间可能存在联系(图 4h)。
Para_04
上述证据表明TILs与irAE之间可能存在潜在关联。如果是这样的话,与循环细胞共享克隆型的TILs最有可能促成这种关联。因此,我们比较了同一受试者中循环共享和非循环共享TILs的转录组特征(扩展数据图8h)。
我们发现趋化因子(CCL4、CCL4L2和CCL5)、KLR和CD52在循环共享TILs中高度表达,而在非循环共享TILs中则富集了耗竭标志物(TOX、HAVCR2和PDCD1)和肿瘤反应性T细胞标记基因(CXCL13和ENTPD1)(扩展数据图8i-k)。
这些结果表明,非循环共享TILs表现出终末期耗竭状态,而循环共享TILs的耗竭程度较低,并且可能具有迁移和参与irAE炎症的潜力。
总的来说,这些发现揭示了不同CD8+ T细胞亚型在自身免疫和irAE炎症中的不同关联,提示这两种不同炎症背景下的发病机制存在分歧。
Detection of peripheral ILTCK-LCs
检测外周ILTCK-LCs
Para_01
最近描述的一种肿瘤局部先天样CD8+ T细胞亚型ILTCKs,其特征是表达TYROBP和FCER1G,在我们的图谱中也被观察到(扩展数据图9a)。
值得注意的是,我们在外周血中检测到了ILTCK-LCs,这与之前主要关注肿瘤组织中ILTCKs的研究相反(图2e)。
与其他条件相比,在irAE炎症中外周ILTCK-LCs的细胞毒性基因表达水平增加(扩展数据图9b)。
此外,在irAE炎症中,总ILTCK-LCs和克隆扩增的ILTCK-LCs的比例显著提高(扩展数据图9c,d)。
我们还注意到,在低级别胶质瘤患者中,扩增的ILTCK-LCs比例增加(扩展数据图9e)。
此外,我们分析了与ILTCK-LCs共享克隆型的细胞亚型。大多数ILTCK-LC克隆型与循环亚型如GNLY+和CMC1+ Temra细胞共享,而少数也与组织局部化的ITGAE+ Trm细胞共享,表明ILTCK-LCs具有多样性的表型转换(扩展数据图9f)。
有趣的是,我们还发现了ILTCK-LCs与MAIT细胞之间显著的克隆型共享,这促使我们将MAIT细胞和ILTCK-LCs重新训练scAtlasVAE模型。
先前注释的ILTCK-LCs和MAIT细胞仍然明显分为两个簇,消除了技术误分类的担忧(扩展数据图9g,h)。
此外,可变区和连接区(V/J)基因使用分析显示,这些与MAIT细胞共享克隆型的ILTCK-LCs使用TRAV1-2和TRAJ33,进一步证实了这两个亚型之间的潜在关联(扩展数据图9i)。
Query-to-reference transfer of CD8+ T cell annotations
将CD8+ T细胞注释从查询转移到参考
Para_01
通过使用 scAtlasVAE,我们进一步增强了 CD8+ T 细胞图谱的多功能性和适用性,使其能够自动将 CD8+ T 细胞注释转移到外部查询数据集。为了评估 scAtlasVAE 的查询到参考转移的有效性,我们建立了一个预训练模型,该模型基于本研究中定义的 CD8+ T 细胞图谱和注释(图 5a)。
然后我们将零样本迁移学习应用于八个 CD8+ T 细胞的查询 scRNA-seq 数据集,这些数据集包括有或没有 TCR 信息的数据集。
总共 574,911 个查询细胞被自动标注为细胞亚型,并投影到我们的 CD8+ T 细胞图谱的 UMAP 嵌入中(图 5b)。
查询细胞中的标记基因表达水平与参考图谱中的非常相似(图 5c),并且我们在投影的 UMAP 表示上观察到了来自 PBMC 或 TIL 的查询 CD8+ T 细胞的明显分离(图 5d,e)。
Fig. 5: Transfer learning of scAtlasVAE facilitates automatic annotation and analyses of human CD8+ T cells.
Fig__5__Transfer_learning_of_scAtlasVAE_facilitates_automatic_annotation_and_analyses_of_human_CD8_+_T_cells_
- 图片说明
- a,查询数据集上scAtlasVAE迁移学习的示意图概述。
- b,查询数据集中细胞的UMAP可视化。
- c,点图显示了查询数据集中每个转移细胞亚型的标记基因表达水平。
- d,按转移细胞亚型着色的查询数据集中转移细胞的UMAP可视化。虚线标记组织来源区域(图2c)。
- e,热图表示每种条件下参考和查询数据集中PBMCs(顶部)或TILs(底部)的细胞亚型组成。
- f,Sankey图显示了在查询数据集中GZMK+和ITGAE+ Tex细胞与其他实体瘤样本细胞亚型之间共享扩增克隆型的比例。
- g,条形图显示了参考数据与转移数据中GZMK+(左侧)或ITGAE+(右侧)Tex细胞与其他细胞亚型之间的共享比例。
- h,热图显示了查询数据集中GZMK+和ITGAE+ Tex细胞与其他细胞亚型的pTrans值。TNBC,三阴性乳腺癌;OCSCC,卵巢鳞状细胞癌;MELA,黑色素瘤;LUAD,肺腺癌;LUSC,肺鳞状细胞癌。源数据
Para_02
为了验证查询和参考之间细胞亚型注释的一致性,我们将查询数据集中定义的原始注释与通过转移过程获得的注释进行了比较。原始注释与转移后的注释很好地对齐,例如ITGAE+ CD8细胞与ITGAE+ Tex细胞匹配,CCR7+ CD8对应于Tn细胞,效应记忆细胞与GZMK+ Tem细胞对齐(扩展数据图10a-c)。这种对齐确认了scAtlasVAE在转移过程中保留细胞亚型信息的可靠性。
Para_03
scAtlasVAE 的迁移学习增强了 CD8+ T 细胞图谱的数据可扩展性,使新型数据集的比较成为可能,并允许验证我们从 CD8+ T 细胞图谱中得出的结论。
克隆型共享分析显示查询数据集中类似的克隆关系,在 GZMK+ Tex 细胞和 ITGB2+ Trm 细胞、CREM+ Trm 细胞和 GZMK+ Tem 细胞之间以及 ITGAE+ Tex 细胞和 ITGAE+ Trm 细胞之间存在显著共享(图 5f-h)。
在另一个例子中,我们将查询数据集中的结直肠癌(CRC)肿瘤浸润淋巴细胞(TILs)与我们图谱中的 CPI 结肠炎组织驻留 T 细胞进行了比较。
我们的分析显示,ITGAE+ Tex 细胞是 CRC 组织中主要的克隆扩增 CD8+ T 细胞,类似于 CPI 结肠炎中观察到的模式(扩展数据图 10d-f)。
我们还观察到在 CPI 结肠炎和 CRC 中细胞毒性和耗竭基因的表达增加,揭示了与健康和溃疡性结肠炎相比独特的 CD8+ T 细胞转录组特征(扩展数据图 10g)。
我们进一步利用 scAtlasVAE 将 Garner 等人发表的 MHC I 类相关蛋白(MR-1)分选的 MAIT 细胞转移到研究潜在的 MAIT 细胞与 ILTCK-LCs 之间的关联。
自动细胞类型注释显示总 MR-1 分选的 MAIT 细胞中有 0.35% 表达 FCER1G 和 TYROBP 的 ILTCK-LCs(扩展数据图 10h-j)。
对 Vorkas 等人发表的原始数据的进一步分析也表明有一群 MR-1 分选的 MAIT 细胞(占总细胞的 1.5%)表达 ILTCK-LC 标记基因(扩展数据图 10k-m)。
这些发现共同支持可能存在一小部分依赖于 MR-1 的 MAIT 细胞表达类似 ILTCK-LCs 的标记。
Discussion
Para_01
在这项研究中,我们提出了scAtlasVAE,这是一种用于单细胞RNA测序数据集的图谱级整合工具,能够实现跨图谱对齐和人类CD8+ T细胞的自动注释。
与其他为单细胞RNA测序整合开发的基于深度学习的方法类似,我们注意到scAtlasVAE在平衡批次校正和生物保守性方面的功能,并优化了计算速度和内存消耗。
我们对我们全面的人类CD8+ T细胞图谱进行了注释,包含18种不同的细胞亚型,并展示了scAtlasVAE揭示我们的CD8+ T细胞注释与先前建立的泛癌CD8+ T细胞图谱之间的一致性和差异的能力。
重要的是,在我们的图谱中包含了配对的TCR信息以及转录组模式,这阐明了炎症和癌症中CD8+ T细胞亚型的克隆扩增和转变。
Para_02
虽然 scAtlasVAE 采用了与 scPoli 类似的用于在各种批次条件下学习表示的方法,但条件应用于模型的解码器,这允许像 SCALEX 启发那样独立于批次条件学习细胞表示。
这一特性促进了快速迁移学习,而无需在查询数据集上进行训练,不像 scVI、scANVI 和 scPoli 需要额外的架构修改。
由于 scAtlasVAE 是专门设计用于跨图谱整合的,它结合了多个细胞类型预测器,这使得可以在具有不同细胞亚型注释的多个图谱上同时进行训练。
这一独特的特征使得能够对跨图谱细胞亚型进行对齐,同时减轻批次效应,为单细胞图谱不断增长的时代奠定了进步的基础。
Para_03
T细胞耗竭是免疫学领域的重点研究方向。在这项研究中,我们在人类CD8+ T细胞图谱中定义了三种T细胞耗竭(Tex)细胞亚型,涵盖了多种生理和病理条件。
先前的研究主要集中在人类和小鼠不同Tex细胞亚型的耗竭状态上,这通过转录组信息得以反映。
最近的研究还表明,来自同一克隆型的T细胞可能在转录组特征上表现出更大的相似性。
由于循环系统和组织之间存在大量的共享克隆型,我们的分析使我们能够揭示三种Tex细胞亚型的不同克隆关系。
我们的结果表明,GZMK+ Tex细胞可能在周围环境和组织之间进行补充或迁移,这与之前的发现一致。
相比之下,ITGAE+和XBP1+ Tex细胞与组织/TILs中的细胞亚型显示出有限的谱系关系,这表明Tex细胞群体具有多样化的耗竭轨迹。
Para_04
CPI疗法在多种癌症类型中显示出了希望,但管理irAE炎症(如结肠炎、关节炎和肝炎)带来了重大挑战。
虽然irAE的治疗方案与自身免疫性炎症相似,但尚不清楚irAE的根本机制是否与自身免疫性炎症相同,后者中自反应性CD4+ T细胞和抗体起主要作用。
Luoma等人报告称,在CPI结肠炎中,细胞毒性CD8+ T细胞增加,并伴随着Trm细胞的减少。
与之前的发现一致,我们的分析进一步说明了肿瘤微环境中的一个主要细胞亚型,ITGAE+ Tex细胞,在irAE中也富集。
尽管不能完全排除恶性肿瘤和宿主器官背景对CPI结肠炎中CD8+ T细胞克隆扩增的影响,但这一现象表明这些细胞在这两种环境中具有相似的功能状态。
总之,这些发现为irAE的机制提供了新的见解,这些机制不同于自身免疫性炎症。
Para_05
尽管先前的研究提出ILTCKs是组织驻留或肿瘤浸润的,我们的CD8+ T细胞图谱揭示了ILTCK-LCs的存在,它们表达FCER1G和TYROBP作为标志基因,并存在于循环环境中。
这些外周的FCER1G+细胞可能功能类似于在肿瘤浸润淋巴细胞中识别的ILTCKs,或者代表由这两个标记物标记的独特谱系。
虽然我们观察到在外周ILTCK-LCs在免疫相关不良事件中的富集,但它们的起源和功能仍需进一步探索。
有趣的是,我们的研究结果还表明可能存在一小部分依赖于MR-1的MAIT细胞,表达类似于ILTCK-LCs的标记物,而阐明它们的具体功能和激活机制需要通过湿实验进一步验证。
Para_06
首先,我们百万规模的CD8+ T细胞图谱的注释粒度平衡了生理和病理条件下的功能相关性和普遍性。
然而,捕捉低频细胞亚型需要用户定义的更精细的注释,正如我们高分辨率的Tex细胞图所例证的那样。
其次,虽然我们对人类CD8+ T细胞的分析表明scAtlasVAE可以作为强大的图谱级分析工具,但它在其他图谱和细胞亚型上的应用仍有待实现。
未来,我们计划建立更多的参考图谱,例如CD4+ T细胞,以提高其通用性和适用性。
最后,新定义的CD8+ T细胞亚型的生物学功能和意义有待进一步的实验验证。
我们预计,整合TCR数据的图谱以及scAtlasVAE将成为研究人类CD8+ T细胞异质性和动态性的宝贵资源。
此外,scAtlasVAE可能被用于整合多个单细胞图谱和各种生物环境中的共识细胞亚型注释,有可能提高跨数据集分析的准确性,并为不同生物系统提供有力的见解。
Methods
Data collection
数据收集
Para_01
在这项研究中,我们整理了一个全面的人类单细胞免疫谱数据集,这些数据集来自68项研究中的T细胞。
这些数据集整合了单细胞RNA和TCR测序数据,收集自多个不同的存储库,如欧洲基因组-表型档案、ArrayExpress、基因表达综合数据库和国家基因组数据中心数据库。
我们通过适当的权限和原始作者的同意获得了对受限数据的访问和使用。
为了基准分析和查询到参考转移,我们还获得了具有或不具有配对TCR信息的CD8+ T细胞单细胞转录组的处理数据集。
Data processing and quality control
数据处理和质量控制
Para_01
本研究中用于构建人类CD8+ T细胞图谱的原始数据是按照既定的协议进行处理和质量控制的。简而言之,原始单细胞RNA测序(scRNA-seq)和单细胞TCR测序数据使用CellRanger60(v6.1.2)与参考基因组组装GRCh38对齐和处理。
检测到少于200个基因或线粒体基因比例超过20%的细胞被丢弃。
使用带有默认参数的DoubletFinder61 R包(版本2.0.3)识别潜在的双细胞。
对于用于基准测试和查询到参考转移的处理数据集,如果原始研究中有细胞亚型注释,我们选择了CD8+ T细胞进行下游分析。
否则,基于CD4、CD8A和CD8B的表达选择CD8+ T细胞,使用与huARdb14相同的筛选标准。
Defining high-confidence T cells
定义高置信度T细胞
Para_01
基因表达唯一分子标识符计数矩阵和处理后的全长TCR信息被整合到scanpy62(版本1.8.2)和scirpy63(版本0.10.1)Python包中。
为了确保收集高可信度的T细胞,过滤掉了缺乏全长TCR信息的细胞。
此外,表达B细胞标志物(MS4A1和CD19)和髓系谱系标志物(单核细胞的LYZ和CD14,以及中性粒细胞的CSF3R和S100A8)的细胞也被排除。
为了表征TCR库,分析包括了具有TCRα和TCRβ链的T细胞,以及具有额外TCRα或TCRβ链的T细胞。
过滤掉了具有孤儿TCR链、超过三个TCR链或两个不成对TCR链(TCRαα或TCRββ)的细胞。
Overview of the scAtlasVAE model
scAtlasVAE模型概述
Para_02
scAtlasVAE 的批次不变编码器接受原始计数基因表达矩阵 ({{\mathbf{X"}}}) 作为输入,而不考虑每个细胞的批次来源。默认情况下,在输入编码器之前,通过基于 delta 方法的方差稳定变换对基因表达矩阵进行归一化处理,公式为 (\log \left(\frac{{x"}
{g,n"}}{{s"}
{n"}}+{x"}
{0}\right),g\in G),其中 ({x"}
{0}=1),({s"}
{n"}) 是细胞 (n) 的大小因子,({S"}
{n"}=\frac{{\sum }
{g"}^{G"}{x"}
{g,n"}}{\text{10,000}})。
这等同于在 scanpy.pp.normalize_total (目标总和 = 10,000)结合 scanpy.pp.log1p 中使用的变换方法。在这项研究中,我们仅应用了 Log1p 变换进行归一化处理,这足以捕捉基因表达的方差。
Para_07
其中({\lambda }_{{\mathrm{KL"}}})是用于Kullback–Leibler (KL)散度的超参数,在训练过程中逐渐增加。KL项的确定性预热可以防止模型过早地在潜在空间上施加严格的结构,从而可能避免收敛到次优解。
Semi-supervised training of scAtlasVAE for label prediction
用于标签预测的scAtlasVAE的半监督训练
Para_02
其中({C"}
{a"})表示类别(a)中的细胞亚型数量,({{f"}
{{\rm{celltype"}}}
{a"}}\left({x"}
{a,n"}\right)}
{c"})是细胞亚型(c)的预测logits,而({\hat{\mathbf{y"}}}
{a,n"})是类别(a)中细胞(n)的真实细胞亚型。
({{w"}
{\hat{y"}}}{a,n"})是细胞亚型({\hat{y"}}
{a,n"})的权重,与类别(a)中的细胞亚型数量成反比。({{\rm{ignore_index"}}}
{a,n"})表示细胞亚型(a)是否对细胞(n)可用。
在半监督训练过程中,总损失函数变为({{\mathcal{L"}}}
{{\rm{scAtlasVAE"}}}+{{\lambda }
{{\rm{celltype"}}}{\mathscr{\times }}{\mathcal{L"}}}
{{\rm{celltype"}}}),其中({\lambda }
{{\rm{celltype"}}})是一个超参数,用于平衡基因表达重建和细胞亚型预测,默认值为1。
Training and transfer learning of scAtlasVAE
scAtlasVAE的训练和迁移学习
Difference between scAtlasVAE and other VAE-based single-cell methods
scAtlasVAE与其他基于VAE的单细胞方法之间的区别
Para_01
之前提出的方法,包括scVI15、scANVI16、SCALEX18和scPoli17,使用变分自编码器(VAE)来建模单细胞RNA测序数据集的分布并进行批次校正。这些方法在模型设计中的关键概念差异总结如下。
[div_table]
Para_02
S 是每个细胞的总库大小,zl 是一个对数正态分布的潜在表示,代表特定于 scVI/scANVI 模型的库大小的比例因子。
(\widetilde{{\mathbf{X"}}}) 是通过二元交叉熵损失训练的重建基因表达矩阵,该矩阵特定于 SCALEX 模型。
与 SCALEX 类似,scAtlasVAE 使用了一个批次不变的编码器来进行快速查询到参考映射。
scVI、scANVI 和 scPoli 的概率编码器是批次变体的,并且潜在表示 z 受到批次信息 B 的条件限制。
scANVI 和 scPoli 不支持独立预测多个类别的细胞亚型注释,因此无法比较来自不同图谱的细胞亚型注释。
Benchmarking with other integration and cell subtype annotation methods
与其他整合和细胞亚型注释方法的基准测试
Para_01
我们系统地比较了scAtlasVAE与其他已建立的方法,在三个具有原始基因表达计数矩阵的CD8+ T细胞数据集上:(1) 本文描述的人类CD8+ T细胞图谱,包含来自68项研究的1,151,678个细胞,有18种细胞亚型注释,(2) 泛癌CD8+ T细胞景观,包含来自28项研究的110,218个细胞,有17种细胞亚型注释(数据可在https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE156728获取)和 (3) 泛癌CD8+ T细胞图谱(数据可在https://singlecell.mdanderson.org/TCM/获取),包含来自21项研究的205,166个细胞,有13种细胞亚型注释。所有数据集都选择了相同的4,000个高变基因。
Para_02
我们采用了单细胞整合基准测试(scIB)方法来评估上述方法的性能,使用的是scib Python包(版本1.1.4)。
我们使用平均轮廓宽度(ASW)、孤立标签得分ASW和孤立标签得分F1来评估生物保守性。
生物保守性和批次校正的平均分数分别使用上述指标计算。
Para_03
我们使用受试者操作特征曲线下面积作为评估细胞亚型注释性能的指标。
我们注意到CellTypist、scANVI和scPoli方法中使用的训练模式有所不同。
对于CellTypist,查询数据使用预训练模型进行细胞亚型注释,而无需对参考数据进行训练,这是一种零样本迁移方法。
相反,在scANVI和scPoli中,查询数据与参考数据一起进行训练,这被称为全样本方法。
scAtlasVAE采用两种训练模式:零样本迁移和全样本迁移。
在零样本迁移模式下,查询数据被投影到参考数据集上,而无需使用参考数据集进行模型微调。
全样本迁移模式涉及将查询数据集与参考数据集连接起来。
模型同时从两个数据集中学习潜在表示,而细胞亚型预测损失仅在参考数据集上计算。
我们通过从每个图谱中随机抽取5%的细胞,或从图谱中的单个研究中抽取细胞作为查询细胞,使用两个泛癌T细胞图谱(TcellLandscape和TcellMap)评估了这两种方法的细胞亚型预测性能。
Para_04
基准测试是在一台配备AMD EPYC 7K62 48核处理器(可寻址512 GB RAM(随机存取存储器))和NVIDIA A10图形处理单元(可寻址24 GB VRAM(视频随机存取存储器))的x86-64 Linux 3.10.0-1160.el7机器上进行的。所有基于VAE的模型都使用图形处理单元加速进行了基准测试。
Hyperparameters of scAtlasVAE