专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
生信宝典  ·  J. Adv. Res. | ... ·  2 天前  
生信宝典  ·  第三届山东省生物信息学学术大会 ... ·  2 天前  
BioArt  ·  Nat Genet | ... ·  3 天前  
生物学霸  ·  全球仅 12 位,中南杰出女性科学家获奖 ·  3 天前  
51好读  ›  专栏  ›  生信菜鸟团

生信程序 | 基因水平的单细胞轨迹对齐 | Nat.Methods |

生信菜鸟团  · 公众号  · 生物  · 2025-02-13 10:34

正文

Basic Information

  • 英文标题:Gene-level alignment of single-cell trajectories
  • 中文标题:基因水平的单细胞轨迹对齐
  • 发表日期:19 September 2024
  • 文章类型:Article
  • 所属期刊:Nature Methods
  • 文章作者:Dinithi Sumanaweera | Sarah A. Teichmann
  • 文章链接:https://www.nature.com/articles/s41592-024-02378-4

Abstract

Para_01
  1. 单细胞数据分析可以推断细胞群体的动态变化,例如在时间、空间上或对扰动的响应中,从而得出伪时间轨迹。
  2. 目前比较轨迹的方法通常使用动态规划,但受限于存在明确匹配等假设条件。
  3. 在此,我们描述了一种名为 Genes2Genes 的贝叶斯信息论动态规划框架,用于对齐单细胞轨迹。
  4. 该方法能够捕捉参考轨迹和查询轨迹之间单个基因的顺序匹配与不匹配,突出显示不同的对齐模式聚类。
  5. 在真实世界和模拟数据集中,它准确推断了对齐关系,并展示了其在疾病细胞状态轨迹分析中的实用性。
  6. 在一个概念验证应用中,Genes2Genes 显示,体外分化的 T 细胞与体内未成熟状态相匹配,但缺乏与 TNF 信号传导相关的基因表达。
  7. 这表明精确的轨迹对齐可以定位与体内系统之间的差异,从而指导优化体外培养条件。

Main

Para_01
  1. 单细胞技术,尤其是单细胞RNA测序(scRNA-seq),彻底改变了我们对生物学的理解,并开辟了新的研究方向。
  2. 它们能够同时观察每个细胞中的数千个基因,从而描述过渡性细胞状态和动态细胞过程(例如分化/发育;对干扰的响应)。
  3. 从动态过程中推导出‘时间线’(例如基于转录组相似性)的任务被称为‘伪时间轨迹推断’。
  4. 一个关键挑战是如何比较两条(或多条)轨迹,例如在对照组与药物处理组之间,或体外细胞分化与体内细胞发育之间(图1a),其中鉴定差异调控基因可以指导我们优化体外细胞分化。

Fig. 1: Computational alignment of single-cell transcriptomic trajectories.

Para_02
  1. 轨迹比较提出了一个时间序列对齐问题,这可以通过动态规划来解决。
  2. 一种流行的用于对齐两条单细胞轨迹的动态规划算法是动态时间规整(DTW)。
  3. 目标是找到最优映射(两组单细胞轨迹时间点之间的成对顺序对应关系),以捕捉匹配和不匹配的细胞状态。
  4. 包括广泛使用的CellAlign在内的多项研究采用了DTW来分析对应关系和时间差异。
  5. 当前的做法是首先对基因表达时间序列进行插值,然后通过最小化匹配时间点之间的表达欧几里得距离来找到它们的最佳对齐方式。
  6. 尽管DTW是一种强大的方法,但其主要限制包括:(1) 假设参考轨迹中的每个时间点至少与查询轨迹中的一个时间点匹配;(2) 无法识别以插入和/或删除形式出现的不匹配(未观察到的状态或两个序列之间的显著差异);(3) 距离度量仅评估基因表达的均值差异而非分布差异。
Para_03
  1. 形变和插入缺失本质上是不同的(图1b,c),正如在关于将动态时间规整(DTW)与序列比对中缺口概念整合的讨论中所强调的那样。
  2. 轨迹之间的匹配和不匹配有助于我们理解时间基因表达动力学,特别是诸如分歧和收敛等模式(图1d)。
  3. 不匹配可能意味着未观测到的状态或差异表达(DE),表明在一个系统中通过了不同的细胞状态,或者在某种条件下某些基因的表达分布显著不同。
  4. 另一方面,匹配意味着相似的细胞状态,而形变则表示它们相对转换速度的差异。
  5. 例如,分析沿伪时间分箱表达的相关性或互信息在检测形变/未观测状态时准确性有限,因为它仅假设一对一映射。
  6. 相比之下,比对可以正确识别轨迹之间的差异表达基因。
  7. Laidlaw等人还证明,轨迹比对成功捕获了无法通过非比对方法检测到的差异表达基因。
Para_04
  1. 在这里,我们提出了基因到基因(G2G;图2和方法),这是一个新的框架,用于在单基因分辨率下对齐参考系统和查询系统的单细胞伪时间轨迹。
  2. G2G 使用一种动态规划(DP)算法,通过结合经典的 Gotoh 算法与动态时间规整(DTW),并采用贝叶斯信息理论评分方案来量化基因表达分布的距离,从而以正式的方式处理匹配和不匹配的情况。
  3. 这克服了典型 DTW 输出中常用的任意阈值设定和/或事后处理(例如 TrAGEDy,这是基于 CellAlign 的最新改进成果)。
  4. G2G (1) 生成描述性基因对齐结果;(2) 识别具有相似对齐模式的基因簇;(3) 在所有或部分基因中推导出聚合的细胞水平对齐;(4) 识别具有差异动态表达的基因;以及 (5) 探索其相关的生物通路。

Fig. 2: Overview of the Genes2Genes alignment framework and workflow for comparing single-cell transcriptomic trajectories.

Para_05
  1. 我们在模拟数据集中验证了G2G准确捕捉不同对齐模式的能力,并与CellAlign和TrAGEDy(当前单细胞轨迹对齐的最先进方法)进行基准测试,同时在已发表的实际数据集中展示了两个条件之间的基因水平对齐。
  2. 我们进一步在特发性肺纤维化(IPF)的健康与疾病对比中应用G2G。
  3. 最后,我们展示了G2G如何对体外和体内T细胞发育进行对齐,发现体内T细胞成熟过程中的TNF信号传导在体外无法重现,并验证了G2G在优化体外细胞工程中的应用。

Results

Genes2Genes aligns trajectories using dynamic programming

Genes2Genes 使用动态规划对轨迹进行比对

  1. G2G 是一个全新的动态规划(DP)框架,用于推断和分析单细胞参考与查询之间的基因轨迹比对。给定一个参考序列 () 和一个查询序列 ()——这两者都是离散的时间点序列——通过计算比对,我们可以获知它们之间按时间顺序的一对一匹配、一对多匹配(扩展变形)、多对一匹配(压缩变形)以及插入删除(indels),分别用五种状态 M、V、W、I、D 表示(见图 1b)。其中,匹配表示 与 的转录组状态相似,而插入删除(也称为 gap)则表明二者存在不匹配(即转录组状态存在差异或未观测到)。标准的 DP 比对算法通过构建一个成对代价矩阵,并生成使总代价最小的路径来优化两个序列之间的映射(见图 1c)。该方法利用一个评分方案来量化 与 每一对时间点之间的对应关系。

  2. 不同于 DTW 和传统的生物序列比对方法,G2G 实现了一种既能同时处理匹配(包括变形)又能处理不匹配的 DP 算法,对每个基因进行查询。该方法扩展了 Gotoh 的三状态算法16(该算法在 M、I、D 状态下利用仿射 gap 模型22,23,24 定义了时间高效的 DP 递推过程),以容纳 V、W 两种变形状态(见图 1b),从而实现了 与 伪时间轴之间的非线性映射。图 1d 展示了由 G2G 生成的一个基因比对示例,其描述为一个由五种状态构成的字符串,按顺序(从左到右)定义了 与 时间点之间的匹配和不匹配,类似于 DNA–蛋白质成对比对的报告方式。

  3. 我们的 DP 评分方案结合了基于最小消息长度(MML)推断25,26,27的代价函数(见图 2 左上角及补充图 1)以及一个五状态机所定义的状态转移概率(见图 2 左中部)。MML 标准允许基于基因表达分布计算任意两点 与 之间的对称代价(称为 MML 距离),这既考虑了二者均值的差异,也考虑了方差的不同,从而承认任一轨迹可能存在较高的噪声。五状态机则定义了为 与 分配比对状态的对称代价。该机器已经在一个模拟数据集上经过了经验调优。每个代价项均按照相应事件的概率模型计算 Shannon 信息28,以“nits”为单位,即 = - nits(详见 Methods 部分)。

Overview of the G2G framework

G2G框架概述

Para_01
  1. G2G 由多个组件组成,包括输入预处理、DP 对齐、对齐聚类和下游分析(图2)。
Para_02
  1. G2G的输入是对数归一化处理过的(按细胞总原始转录本计数归一化到所有基因的常数,并转换为log(归一化计数+1))参考和查询系统的单细胞RNA测序矩阵,以及它们的伪时间估计值。
  2. G2G首先对每个基因表达轨迹进行插值计算。
  3. 这一步最初通过最小-最大归一化将伪时间轴转换到[0,1]范围,并在此范围内选取预定义数量的等间距插值时间点,类似于CellAlign的方法。
  4. 对于每个插值时间点,我们将基因表达量估计为高斯分布,考虑所有细胞,并根据它们与该插值时间点的伪时间距离进行核加权。
Para_03
  1. 使用我们的动态规划(DP)算法对参考和查询的插值基因轨迹进行对齐,生成最优的基因对齐结果,这些结果被描述为五状态字符串(图1d和图2右上角矩阵)。
  2. 一个基因的五状态字符串表示匹配调用的百分比(M,V,W),这被称为‘对齐相似性’。
  3. 需要注意的是,在对称成本下,无论哪个数据集作为参考,对齐字符串都是对称的,仅在对称状态 I-D、W-V 之间交换。
  4. 这些字符串之间的成对莱文斯坦距离矩阵可以用于揭示基因对齐的多样性(例如 100% 不匹配、100% 匹配、30% 前期匹配后期不匹配等),通过运行凝聚层次聚类(其中最佳分组是通过检查不同链接标准距离阈值下的平均轮廓系数来确定的)。
  5. G2G 通过对聚类中的基因水平对齐进行聚合,生成该聚类的代表性对齐(例如,100% 匹配的聚类由包含 M,V,W 的字符串表示;100% 不匹配的聚类由包含 I,D 的字符串表示)。
  6. 最后,G2G 将所有基因水平的对齐结果聚合为单一的细胞水平对齐,提供轨迹之间的平均映射关系。
  7. 当基因间的对齐模式异质时,基因水平和细胞水平的对齐都很有用。
  8. 总体而言,这些功能支持下游分析(例如基因集过度表达分析)。

G2G expands the capacity of DTW

G2G扩大了DTW的能力

Para_01
  1. G2G 推断参考和查询时间点之间统计上一致的匹配和不匹配情况。
  2. 这种输出在 DTW(例如 CellAlign)中是不可能实现的,因为它会映射所有时间点,包括那些存在转录组差异的时间点(图 3a)。
  3. 可以使用用户定义的阈值进行局部 DTW 或对 DTW 对齐结果进行事后处理(如 TrAGEDy 中的方法)以取消映射不相似的时间点,但其基本假设仍然是存在明确的匹配关系。
  4. 对于没有共享过程的数据集而言,这一点尤其成问题。
  5. 相比之下,G2G 系统性地断开不匹配的时间点,无需阈值设定或后处理(参见图 3a、b 和补充表 1,了解与 CellAlign 和 TrAGEDy 的核心区别总结)。

Fig. 3: Genes2Genes outperforms the current state-of-the-art of trajectory alignment.

G2G captures different alignment patterns in simulated data

G2G 在模拟数据中捕获了不同的对齐模式

Para_01
  1. 为了将G2G与CellAlign和TrAGEDy进行基准对比,我们在以下三个数据集上进行了实验:(1)包含七种对齐模式的数据集;(2)带有人工扰动的真实数据集;以及(3)阴性对照数据集。
  2. 在比较之前,CellAlign和TrAGEDy的对齐结果被转换为五状态字符串。
  3. TrAGEDy根据‘最小不相似性得分’修剪DTW匹配结果(以下简称为‘TrAGEDyMINIMUM’),并提供另一种选项以忽略该最小值(以下简称为‘TrAGEDyNULL’)。

Experiment 1

实验1

错误!!! - 待补充

Para_02
  1. 图3d,e展示了所有方法的细胞水平对齐结果。
  2. G2G和TrAGEDy都正确描述了七种模式(图3e)。
  3. 相比之下,CellAlign7无法描述发散和收敛(图3d)。
  4. 在所有模式中,G2G在基因水平对齐方面优于TrAGEDy(图3f左),其匹配、发散(早期、中期和晚期)以及收敛(早期、中期和晚期)对的准确率分别为98.6%、99.4%、99.8%、100%、99.2%、98.2%和99.2%。
  5. 发散/收敛对齐中匹配/不匹配长度的所有分布均在预期范围内(扩展数据图2a,b)。
  6. TrAGEDyMINIMUM分别给出了66.26%、28.57%、95.87%、96.86%、97.35、96.15和88.2%的准确率,其发散/收敛对齐中的匹配/不匹配长度变化更大,超出了预期范围。
  7. TrAGEDyNULL分别给出了68.2%、5.4%、88%、100%、100%、88%和5.8%的准确率,其长度分布比TrAGEDyMINIMUM更好。
  8. 与TrAGEDy相比,G2G在匹配对齐中平均产生更少的错误不匹配;与TrAGEDyMINIMUM相比,G2G也具有更少的中间错误不匹配。
  9. 值得注意的是,TrAGEDyNULL未生成任何中间错误不匹配,但由于完全匹配或预期顺序交换的对齐方式,导致更高的不准确性。
Para_03
  1. 基因到基因(G2G)聚类很好地分离了模式(图3f,右图);在最优选择的0.22距离阈值下进行的对齐层次聚类产生了15个簇,仅有0.1%的误分类率。
  2. (扩展数据图2c;有关最佳阈值选择的详细信息,请参见方法部分)。
  3. 我们将其与CellAlign基于基因伪时间偏移(基因水平DTW对齐中匹配时间点之间的差异)的k均值聚类进行了比较。
  4. 对于k ∈ [7,50],所有误分类率显著较高(范围在42.6%到60.4%之间)(扩展数据图2d),远高于G2G的误分类率。
  5. 与G2G相比,CellAlign和TrAGEDy显示出更高的噪声和误分类率(图3g)。

Experiment 2

实验2

Para_01
  1. 为了测试 G2G 在单细胞 RNA 测序数据中的匹配检测能力,我们使用了一个小鼠胰腺发育数据集的 β 细胞谱系子集(1,845 个细胞),并考虑了 769 个谱系驱动基因。
  2. 我们将细胞随机分为参考组和查询组,并在轨迹起始位置模拟了两种扰动场景:一种是删除一部分(扰动场景 1),另一种是改变一部分(扰动场景 2),且删除或改变部分的规模逐渐增加。
  3. 然后,我们在每种场景下使用 G2G 和 TrAGEDy(在 50 个插值时间点下)进行基因水平对齐,并计算它们的对齐相似性。
  4. 对于扰动场景 1,正如预期的那样,随着删除规模的增加,G2G 和 TrAGEDy 的对齐相似性都下降了,尽管在较小的扰动规模下,检测到的不匹配长度比预期的短,特别是当删除比例超过 20% 时。
  5. 这是由于伪时间区间 10-20 之间的基因表达相对不变,导致出现扭曲而非不匹配的现象。
  6. 两种方法在捕捉这一行为方面表现出一致性。
  7. 对于扰动场景 2,对齐相似性呈现预期的最大值和最小值。
  8. 总体而言,两种方法均表现出预期的趋势,并且在较大扰动规模下结果落在预期范围内。
  9. 值得注意的是,在两种场景中,TrAGEDyNULL 的表现优于 TrAGEDyMINIMUM。
  10. 此外,对于扰动规模小于 6% 的情况,TrAGEDyNULL 表现出更高的准确性。
  11. 总的来说,G2G 和 TrAGEDyNULL 的性能相近,且匹配检测能力优于 TrAGEDyMINIMUM;然而,G2G 的结果整体上表现出相对较低的波动性。

Experiment 3

实验3

Para_01
  1. 在检查两个没有共享过程的模拟数据集时(称为阴性对照,由TrAGEDy17测试),G2G如预期生成了100%不匹配的聚合比对,而TrAGEDy17错误地推断出匹配片段(图3h);对于三条完全轨迹不匹配的基因,也观察到了类似的结果。
Para_02
  1. 总之,G2G通过精确对齐和聚类具有不同对齐模式的基因,优于现有方法。

G2G captures matches and mismatches at gene-level resolution

G2G 以基因水平的分辨率捕获匹配和不匹配的情况

Para_01
  1. 为了进一步展示我们框架的特性,我们在 CellAlign7 测试的时间序列数据集上进行了 G2G 对齐(图 4a)。
  2. 这包括用 PAM3CSK(PAM)或脂多糖(LPS)处理的小鼠骨髓衍生树突状细胞,以模拟对不同病原体的反应。

Fig. 4: Genes2Genes captures matches and mismatches at gene-level resolution.

- 图片说明 - a,对已发表的时间序列数据集中的小鼠骨髓来源树突状细胞进行G2G比对,这些细胞分别受到PAM(参考)或LPS(查询)刺激。 - b,基于99个‘核心抗病毒’基因的比对结果进行汇总比对(顶部)。 - 堆叠条形图表示参考和查询细胞在14个等间距伪时间点上的组成,颜色按刺激后采样时间区分;方框段表示不匹配;黑线表示匹配。 - 参考和查询之间的成对时间点矩阵(底部)。 - 颜色表示在相应时间点之间显示匹配的总基因数。白线表示平均比对路径。 - c,三个代表性核心抗病毒基因(IRF7、STAT2和IFIT1)在查询(蓝色)和参考(绿色)中的基因表达。 - 插值后的log1p归一化表达量(y轴)与伪时间(x轴)的关系(左侧)。 - 粗线表示平均表达趋势,淡化的数据点表示每个时间点估计表达分布中随机抽取的50个样本。黑虚线表示时间点匹配(由下方的比对字符串捕获)。 - 实际log1p归一化表达量(y轴)与伪时间(x轴)的关系(右侧)。 - 每个点代表一个细胞。红圈突出显示早期细胞(‘早熟表达者’),其表达量较高。 - d,针对89个‘峰值炎症’基因绘制与b相同的图,这些基因根据它们的比对结果进行聚类(扩展数据图2)。 - 虚线和彩色线表示示例的簇特异性比对路径。 - e,针对d中所示每个簇的代表性基因(CXCL2、PLK2、CXCL1和CD44)绘制与c相同的图。 - f,峰值炎症基因的比对相似性(y轴)与平均表达量的log2倍变化(x轴)的关系(中间)。 - 颜色表示比对相似性。周围图显示四个选定基因(SGMS2、CCRL2、TNF和C5AR1)的插值log1p归一化表达量(y轴)与伪时间(x轴)的关系(左侧)以及基因表达的小提琴图(右侧)。 - 绿色和蓝色的小提琴图分别包括n=179个PAM刺激细胞和n=290个LPS刺激细胞。小提琴图展示了细胞间表达分布的核密度估计。每个小提琴内的框表示四分位距(25-75%分位数,中位数用点表示)。a中的插图使用BioRender(https://biorender.com)创建。所有插值和统计分析均通过我们的G2G框架生成。

Para_02
  1. G2G 在对齐‘核心抗病毒模块’的基因时揭示了其捕捉不匹配的能力(扩展数据图4a)。
  2. CellAlign7 在 PAM 刺激后显示出基因表达的‘滞后’,与 LPS7 相比,这一现象也被 G2G 聚合对齐所捕获(图4b)。
  3. 此外,G2G 在早期和晚期伪时间点识别出了不匹配的情况。
  4. 聚类对齐显示低多样性,表明所有基因通常遵循平均模式(扩展数据图4b)。
  5. 在早期伪时间点,PAM 条件下的基因表达一直较低,而一些 LPS 刺激的细胞已经显示出升高的表达(例如 IRF7、STAT2 和 IF1T1;图4c)。
  6. 这些现象也在原始论文中被注意到并描述为‘过早表达者’。
  7. 晚期 LPS 伪时间点的不匹配是由峰值表达引起的,而 PAM 刺激细胞的表达仍在上升,尚未达到峰值。
Para_03
  1. 对于‘尖峰炎症模块’中的基因,图4d显示了它们的G2G聚合比对结果。
  2. 基因聚类揭示了与主要平均比对不同的簇特异性平均比对(图4d和扩展数据图4c–e)。
  3. 来自不同簇的代表性基因(图4e)在匹配的长度和位置上显示出细微差异。
  4. 通过使用G2G比对相似性统计(图4f),我们确定SGMS2是最相似的基因(具有较低的对数倍变化),而CCRL2和C5AR1是在PAM和LPS刺激轨迹之间高度不相似的基因(具有较高的对数倍变化)。
  5. CCRL2的比对显示了后期的收敛性。
  6. 尽管TNF的对数倍变化可以忽略不计,并且无法通过标准差异表达测试检测到(例如Wilcoxon秩和检验P = 0.2),但我们仍将其标记为高度不相似,从而突显了轨迹比对的重要性。
Para_04
  1. 上述结果再次展示了G2G如何捕捉scRNA-seq轨迹之间的不匹配区域。

G2G finds early/late differences in disease epithelial cells

G2G 发现了疾病上皮细胞的早期/晚期差异

Para_01
  1. 接下来,我们将健康肺与特发性肺纤维化(IPF)病变肺中的两种细胞分化轨迹进行了比较。
  2. IPF 是一种无法治愈且不可逆的疾病,其特征是肌成纤维细胞沉积细胞外基质,导致瘢痕形成和肺功能进行性丧失,诊断后的预计生存时间仅为 3-5 年。
  3. 利用 Adams 等人(2020)的数据集,我们研究了健康肺中 II 型肺泡细胞(AT2)向 I 型肺泡细胞(AT1)的分化,以及 IPF 肺中 AT2 向异常基底样细胞(ABCs)的分化(图 5a)。
  4. ABCs 最近才在针对 IPF 患者的单细胞研究中被表征;它们在 IPF 病理发生中的起源和作用仍不清楚。

Fig. 5: Genes2Genes compares cell differentiation trajectories between healthy lung and disease lung in idiopathic pulmonary fibrosis.

- 图片说明 - a,健康和特发性肺纤维化(IPF)细胞分化轨迹的示意图,重点是比较健康肺中(参考)的II型肺泡细胞(AT2)分化为I型肺泡细胞(AT1),与IPF肺中(查询)的异常基底细胞(ABCs)。 - b,所有高变基因(HVGs)对齐后的汇总对齐结果(顶部)。堆叠条形图表示参考和查询细胞类型在13个等间距伪时间点上的组成;方框部分表示不匹配;黑线表示匹配。健康与IPF伪时间点之间的成对时间点矩阵(底部)。颜色表示总基因计数,显示对应健康和IPF时间点之间的匹配情况。白线表示平均对齐路径。 - c,88个ABC标记基因对齐后的汇总对齐结果(补充图3),绘制方式同b,顶部为汇总对齐示意图,中间为成对时间点矩阵。三个示例ABC标记基因(KRT17、MMP7和FN1)在IPF(蓝色)和健康(绿色)数据沿伪时间的基因表达图,绘制插值log1p归一化(每细胞总原始转录本计数归一化至10,000并log1p转换)表达值(y轴)与伪时间(x轴)的关系(底部)。粗线表示平均表达趋势;淡化的数据点是从每个时间点估计的表达分布中随机抽取的50个样本。黑色虚线表示时间点之间的匹配。 - d,所有上皮-间质转化(EMT)通路基因的汇总对齐路径(白色),绘制在健康与IPF之间的成对时间点矩阵上,如b所示,右侧为示意图(右上角)。热图显示EMT通路基因沿伪时间的平滑(插值)和z标准化均值log1p基因表达(右下角)。 - e,CAMK1D基因在IPF(蓝色)和健康(绿色)沿伪时间的表达情况。插值log1p归一化表达值(y轴)与伪时间(x轴)的关系如c所示(顶部)。实际log1p归一化基因表达与伪时间的关系图(底部)。图a中的插图使用BioRender(https://biorender.com)创建。所有插值和统计分析均使用我们的G2G框架生成。

Para_02
  1. 我们使用扩散伪时间方法推断了健康和IPF数据的轨迹(补充图2),并通过G2G在994个高变基因上对它们进行对齐(在13个插值时间点下)。
  2. 对齐分布情况(扩展数据图5a)显示出约62%的平均相似性。
  3. 正如预期,它们的整体对齐仅在后期伪时间点出现不匹配(图5b),因为健康和IPF肺上皮分化均起始于AT2细胞,但在健康状态下生成AT1细胞,而在IPF中则生成ABC细胞。
  4. 此外,通过检查ABC特异性标志基因(图5c和补充图3),我们观察到与其他研究报道一致的分歧模式。
Para_03
  1. 我们对错配程度最高的基因(序列相似性≤40%)进行了基因集过度表达分析,发现上皮-间充质转化(EMT)是最显著富集的通路(图5d和补充表3)。
  2. 尽管大多数EMT相关基因仅在后期阶段表现出错配,这与EMT失调在IPF中导致异常支气管肺泡细胞(ABC)发育的研究一致,但部分EMT基因在早期/中期分化阶段已经显示出差异(例如NNMT、CXCL1和CXCL8)。
  3. 这些基因可能是潜在的治疗靶点,可用于防止向病理性的ABC状态分化。
Para_04
  1. 下游聚类揭示了额外的排列模式(扩展数据图5b,c)。
  2. 例如,第3簇几乎完全表示错配基因,包括CAMK1D的上调(图5e),它是TGF-β1的已知靶标,也是IPF发展的关键调控因子。
  3. 总体而言,G2G捕捉到了预期的排列模式以及健康和IPF轨迹之间的一些新的早期/中期错配。

G2G reveals differences of T cell development in vitro

G2G揭示了体外T细胞发育的差异

Para_01
  1. 接下来,我们使用 G2G 比较了体外和体内的人类 T 细胞发育过程。
  2. 胸腺是 T 细胞发育的关键部位,其中淋巴样祖细胞通过双阴性 (DN) 和双阳性 T 细胞阶段分化,以获得 T 细胞受体 (TCR)(图 6a 上部和补充数据图 6)。
  3. 如果在阳性选择过程中 TCR 识别出由主要组织相容性复合体呈现的自身抗原,则发育中的 T 细胞进一步通过 abT(entry)细胞分化,并最终成熟为单阳性 (SP) T 细胞。
  4. SP T 细胞有不同的亚群,包括 CD4+ T、CD8+ T 和调节性 T (Treg) 细胞,以及最近被确认的非传统类型 1 和类型 3 先天性和 CD8AA T 细胞。
  5. 为了在体外模型系统中研究人类 T 细胞发育,我们使用人工胸腺类器官 (ATOs) 将诱导多能干细胞 (iPS) 分化为成熟的 T 细胞。
  6. 我们之前收集了第 3 周、第 5 周和第 7 周分化的细胞,并报告称 ATOs 中的成熟 T 细胞最类似于体内类型 1 先天 T 细胞。
  7. 为了进一步探索,我们对整个分化过程中定期采集的细胞进行了单细胞 RNA 测序分析,包括早期时间点(图 6a 下部和补充数据图 6a)。
  8. 细胞类型通过 CellTypist 和标记基因分析进行注释(补充数据图 6b–8)。
  9. ATOs 捕获了从干细胞到间充质祖细胞、内皮细胞再到造血谱系,最终进入 T 细胞谱系的分化过程。

Fig. 6: Genes2Genes aligns in vivo, in vitro human T cell development.

- 图片说明 - a,人类胸腺中T细胞发育的示意图。 - b,在体外类器官(ATOs)和体内人类T细胞发育轨迹之间,对1,371个转录因子的比对进行聚合比对,显示在类器官和参考数据之间的两两时间点矩阵中。颜色表示对应时间点之间匹配的总基因数。白色线条表示平均比对路径。堆叠条形图表示参考(顶部)和查询(左侧)细胞类型组成跨越14个等间距的伪时间点。 - c,所有多能性信号通路中的转录因子的聚合比对,绘制在两两时间点矩阵上(左上角),与b相同;参考和类器官细胞类型组成在伪时间上的映射示意图;方框部分表示不匹配的ATOs多能性阶段;黑色线条表示匹配。选择基因的插值log1p归一化表达(y轴)与伪时间(x轴)的关系图(左下角)。热图显示沿伪时间平滑(插值)并z标准化的平均基因表达(右下角)。 - d,针对TNF通过NF-κB途径的所有转录因子,绘制与c相同的图表。右上图中的方框部分表示体内T细胞成熟最后阶段的不匹配。 - e,进一步优化体外T细胞分化为1型先天T细胞或传统CD8+ T细胞的潜在目标的示意图。 - f,比较野生型ATOs和TNF处理后的ATOs来源的SP T细胞与体内1型先天T细胞的示意图。TNF处理后ATOs来源的SP T细胞显示出更接近体内1型先天T细胞的成熟特性。 - g,参考(体内1型先天T细胞)、野生型ATOs来源的SP T细胞以及TNF处理后的ATOs(ATOTNF)来源的SP T细胞中,TNF通过NF-κB途径的转录因子(与d中相同的基因列表)的平均log1p归一化基因表达热图。 - a、e、f中的插图使用BioRender(https://biorender.com)创建。所有插值和统计分析均使用我们的G2G框架生成。

Para_02
  1. 我们使用scVI将ATO细胞与我们正在开发的人类免疫图谱中的相关活体细胞(以下简称为‘泛胎儿参考’)整合到一个共同的潜在嵌入空间中,并估计了它们的伪时间(扩展数据图6c–e)。
  2. ATO的伪时间是通过使用采样时间作为先验的高斯过程潜在变量模型(GPLVM)估算得出的。
  3. 泛胎儿参考细胞的伪时间则通过从邻近的ATO细胞估算其时间先验,以类似方式计算得出。
Para_03
  1. 在14个插值时间点下,使用所有转录因子(TF)基因(1,371个TFs)对ATO与体内轨迹进行了G2G比对,因为许多转录因子作为‘主调控因子’控制细胞状态,并被用于诱导细胞分化。
  2. 它们的整体比对结果显示,在开始和结束时存在不匹配(图6b),其分布的平均比对相似度约为66%(扩展数据图9a)。
  3. 独立进行的TrAGEDy高维比对也验证了体外和体内T细胞分化在早期和晚期阶段存在显著的不匹配。

Clustering alignments finds interesting groups of genes

聚类比对发现了有趣的基因组

Para_01
  1. 转录因子(TF)的排列通过分层聚类并在多个分辨率下进行探索(扩展数据图9b,c)。
  2. 在低分辨率下(扩展数据图9c),第2簇包含在早期伪时间点显示出插入现象的多能性转录因子(补充表5)。
  3. 已知的干细胞相关转录因子POU5F1、NANOG和TBX3在早期ATO发育中存在,但未出现在参考数据中。
  4. 这符合多能干细胞转录因子的特点(图6c),因为在体外分化起始于iPS细胞,而最早的体内细胞是造血干细胞(HSCs)。
  5. 其中,HHEX表现出另一种模式:体内和体外HSCs以及DN T细胞之间的匹配如预期所示,尽管体外细胞中的HHEX最大表达量低于体内细胞(图6c)。
  6. 值得注意的是,聚类还揭示了仅在中间时间点出现的转录因子不匹配现象(例如,在低分辨率下的簇0中的POU6F1、SOX18和CSRNP3,以及高分辨率下的簇13中的BATF2)。
  7. 这可能代表缺失的细胞状态,例如,BATF2在内皮细胞中稀疏表达,而这些细胞仅存在于体外系统中。
  8. 另一方面,LEF1(对于胸腺细胞早期成熟阶段至关重要)作为一个单独的簇突出显示,其轨迹几乎100%匹配,而另外两个簇则几乎完全包含不匹配的转录因子,例如GATA6、SALL4、HOXB6、NACC2和PRDM6。
  9. 所有上述基因的表达和对齐图见补充图4。






请到「今天看啥」查看全文