专栏名称: 生信菜鸟团
生信菜鸟团荣誉归来,让所有想分析生物信息学数据的小伙伴找到归属,你值得拥有!
目录
相关文章推荐
BioArt  ·  Nature | ... ·  3 天前  
BioArt  ·  Nature | ... ·  4 天前  
生信宝典  ·  NAR | ... ·  5 天前  
华大集团BGI  ·  2025年国科大华大专项“申请-考核制”博士 ... ·  5 天前  
51好读  ›  专栏  ›  生信菜鸟团

如何用单细胞研究癌症起源的单克隆与多克隆问题,提供详细原始代码

生信菜鸟团  · 公众号  · 生物  · 2024-12-12 06:30

正文

Basic Information

  • 英文标题: Polyclonal-to-monoclonal transition in colorectal precancerous evolution
  • 中文标题:从多克隆到单克隆的转变在结直肠癌前病变的进化过程中发生
  • 发表日期:30 October 2024
  • 文章类型:Article
  • 所属期刊:Nature
  • 文章作者:Zhaolian Lu | Zheng Hu
  • 文章链接:https://www.nature.com/articles/s41586-024-08133-1

Abstract

Para_01
  1. 揭示癌前病变的起源和演变对于有效预防恶性转化至关重要,但目前我们的知识仍然有限。
  2. 在这里,我们使用了一种基于碱基编辑器的DNA条形码系统,全面绘制了炎症或Apc基因丢失诱导的小鼠肠道肿瘤发生模型中的单细胞谱系。
  3. 通过对包括正常、炎症和肿瘤性肠组织在内的260,922个单细胞的高分辨率谱系进行定量分析,我们识别出每个病变内数十个独立细胞谱系的平行克隆扩张。
  4. 我们还通过批量全外显子组测序和单腺体全基因组测序发现了人类散发性结直肠息肉的多克隆起源。
  5. 基因组和临床数据支持从多克隆到单克隆过渡的模型,其中单克隆病变代表了一个更高级的阶段。
  6. 单细胞RNA测序显示,在早期多克隆病变中存在广泛的细胞间相互作用,但在单克隆过渡期间这种相互作用显著减少。
  7. 因此,我们的数据显示,结直肠癌前病变通常由许多不同的谱系建立,并强调它们在癌症形成的最早阶段的合作互动。
  8. 这些发现为结直肠癌的早期干预提供了见解。

Main

Para_01
  1. 阐明癌症形成初期阶段的细胞起源和演化对于有效的早期筛查和干预至关重要。
  2. 然而,癌前阶段通常持续数年,在此期间大部分时间都是隐匿的。
  3. 这种内在的复杂性给准确识别肿瘤启动的最早事件带来了巨大的挑战。
Para_02
  1. 结直肠癌(CRC)是全球第三大常见癌症,也是癌症相关死亡的第二大原因。
  2. 已建立的腺瘤-癌序列特征描述了 CRC 的发展过程,为研究癌前阶段的早期事件提供了理想的模型。
  3. 癌症基因组测序通常揭示恶性肿瘤中的单一创始克隆。
  4. 然而,使用体细胞标记进行的克隆性分析表明,癌前腺瘤或甚至是恶性 CRC 可能具有多克隆起源,在同一病变内多个不同的谱系同时扩展。
  5. 尽管有这些见解,我们对病变形成最早阶段的起源和进化动态的理解仍然有限。
Para_03
  1. 使用进化 DNA 条形码进行前瞻性谱系追踪,以前所未有的分辨率和高通量革新了我们记录细胞谱系的方法。
  2. 在这项研究中,我们利用了一种基于碱基编辑器的谱系追踪技术,即单核苷酸突变辅助谱系追踪(SMALT),系统地绘制了小鼠模型中肠道前癌的起源和演变,达到了单细胞分辨率。
  3. 通过整合分析单细胞谱系(来自112个正常和肿瘤样本的260,922个单细胞)、单细胞 RNA 测序(scRNA-seq,来自9个肿瘤样本的43,001个单细胞)以及一组具有偶发性前期恶性息肉的人群(对107对结直肠息肉/结直肠癌进行了全外显子组测序(WES),对5个结直肠息肉中的29个单个腺体进行了全基因组测序(WGS)),我们在小鼠和人类的肠道肿瘤发生过程中识别出一个从多克隆到单克隆的共同轨迹。
  4. 此外,我们的研究揭示了早期多克隆病变中广泛的细胞间相互作用,突出了早期肿瘤发生过程中的细胞间协作。

SMALT lineage tracing and mouse models

Para_01
  1. SMALT谱系追踪系统由三个关键组件组成:HsAID、iSceI(同源核酸内切酶I-SceI的一个非活性变体)和一个3-kb的DNA条形码(图1a)。
  2. HsAID是一种优化的人类激活诱导胞苷脱氨酶,相对于野生型有10个氨基酸替代,其诱导胞嘧啶(C)到胸腺嘧啶(T)突变的速度比野生型快约30倍。
  3. 值得注意的是,脱氨后的胞嘧啶(尿嘧啶(U))只有在DNA复制后才能转化为胸腺嘧啶(T),这意味着C到T的条形码突变数量衡量了相对的细胞分裂次数。
  4. HsAID与iSceI融合,后者特异性地结合到18个碱基对的DNA序列上,从而引导HsAID靶向条形码内的区域(图1a和扩展数据图1a,b)。
  5. HsAID–iScel的表达由多西环素诱导。

Fig. 1: SMALT lineage tracing of mouse intestinal tumorigenesis.

  • a, SMALT谱系追踪系统的示意图。
  • b, 使用AOM/DSS或携带工程化SMALT系统的ApcMin/+小鼠进行肠道肿瘤发生的研究。正常和肿瘤样本被收集用于长读长测序(barcode-seq)、全基因组测序(WGS)和单细胞RNA测序(scRNA-seq)。WT,野生型。
  • c, 所有样本中条形码中不同替代类型的相对比例。Apc_N,ApcMin/+小鼠的正常小肠;Apc_P,ApcMin/+小鼠的息肉;IBD_N,AOM/DSS小鼠的正常组织;IBD_T,AOM/DSS小鼠的肿瘤;WT_N,野生型正常结肠。
  • d, 所有样本中条形码的每个位点突变频率。
  • e, 小鼠与果蝇之间每个位点突变频率的相关性。显示了皮尔逊相关系数r和P值。
  • f, 不同组织中每个细胞条形码突变数量的小提琴图。显示了平均突变数和细胞数。P值由双侧Wilcoxon秩和检验得出。
  • g, 在WT_N(n = 4),Apc_N(n = 4),IBD_N(n = 19),Apc_P(n = 21)和IBD_T(n = 30)中,独特条形码等位基因的比例及具有独特条形码的细胞数量。数据为均值±标准误。
  • h, 独特条形码等位基因的比例及具有独特条形码的样本数量。在箱线图中,水平线表示中位数,箱子表示第25至75百分位数,须线延伸到四分位距的1.5倍。
Para_02
  1. 我们基于两种经典的小鼠模型,即偶氮甲烷(AOM)/硫酸葡聚糖钠(DSS)和ApcMin/+,在SMALT小鼠(C57BL/6J背景)中诱导了肠肿瘤(扩展数据图1c–e和方法)。
  2. AOM/DSS模型广泛用于研究由炎症性肠病(IBD)如克罗恩病或溃疡性结肠炎引起的CRC。
  3. 组织病理学检查表明,许多通过标准协议诱导的肿瘤是腺癌(补充图1–3)。
  4. 然而,全基因组测序显示这些肿瘤具有稳定的染色体核型,很少出现非整倍体或拷贝数变异(补充图4)。
  5. 因此,AOM/DSS肿瘤类似于人类CRC的早期肿瘤。
  6. ApcMin/+小鼠由于Apc的丢失自发发展出多个肠道肿瘤,是研究APC驱动的肠道肿瘤发生的好动物模型,如人类家族性腺瘤性息肉病(FAP)。
  7. 全基因组测序显示,在ApcMin/+小鼠中发展的息肉缺乏染色体异常,表明它们也代表了肿瘤发生的早期阶段(补充图4)。
Para_03
  1. 我们对 n = 30 个 AOM/DSS 新生物(命名为 IBD_T)、17 个 ApcMin/+ 肿瘤(Apc_P)、26 个来自健康结肠、炎症结肠或 ApcMin/+ 小肠的样本以及 3 只 SMALT 小鼠的 6 个未受影响器官的 18 个样本进行了靶向条形码测序。
  2. 我们还对 n = 11 个 IBD_T 样本和 4 个 Apc_P 样本及其匹配的健康样本进行了全基因组测序,并对 n = 9 个 IBD_T 样本进行了单细胞 RNA 测序(补充表 1)。
  3. 这些综合性的多组学数据集使我们能够系统地描绘出结直肠肿瘤早期阶段的单细胞谱系和基因组及微环境景观(图 1b)。

High diversity of SMALT barcodes

Para_01
  1. 我们使用高保真度的 PacBio 长读长测序,通过基于独特分子标识符(UMI)的文库制备协议恢复了目标 3-kb 条形码的全长(补充图 5)。
  2. 由于每个细胞在其基因组中仅包含一个 3-kb 条形码拷贝,因此 PacBio 共识读取代表单个细胞,尽管文库是用批量样品制备的。
  3. 条形码突变使用具有复杂 UMI 校正和人工过滤的内部生物信息学管道检测(补充图 6 和方法)。
Para_02
  1. 正如预期,超过90%的突变确实是C/G到T/A,其次是C/G到G/C(5.78%)和其他(3.02%)(图1c)。
  2. 突变广泛分布在3-kb条形码的整个区域(图1d),iSceI结合基序下游的突变率增加(补充图7a)。
  3. 值得注意的是,在一个样本的所有细胞中观察到平均836个突变位点(95%置信区间,752-920;补充图7b),远远超过了CRISPR-Cas9谱系追踪方法通常可以检测的数量(通常为10-60个可变位点)。
  4. 值得注意的是,我们小鼠数据中的每个位点突变率与在果蝇胚胎中检测到的速率高度相关(图1e)。
  5. 此外,对正常细胞中的突变频率分析确定了14个热点位点(补充图7c)。
  6. 我们的SMALT小鼠AOM/DSS肿瘤外显子区域的体细胞突变谱与无SMALT的AOM/DSS肿瘤中观察到的非常相似(补充图8),表明脱靶编辑最少。
Para_03
  1. 来自病变相邻组织(图1f)或其他器官(如血液、肝脏和肺;补充图9)的正常细胞的条形码突变计数低于肿瘤细胞。
  2. CD45+肿瘤浸润免疫细胞也是如此(扩展数据图2a、b和补充图10)。
  3. 这些发现表明,可以根据条形码突变负担有效地将肿瘤细胞与正常细胞区分开来(扩展数据图2c,补充图11和方法)。
  4. 过滤后,我们观察到不同样本类型中每个细胞平均有4.16到34.58个条形码突变(图1f和补充表2)。
  5. 值得注意的是,在正常和肿瘤样本中,大约90%的细胞表现出独特的突变组合,表明SMALT谱系条形码具有极高的多样性(图1g、h)。
  6. 这些数据共同证明了SMALT谱系追踪系统在体内的高突变活性和高谱系条形码容量。
Para_04
  1. 值得注意的是,AOM/DSS病变(IBD_T)的突变负担显著高于ApcMin/+病变(Apc_P)(图1f),尽管采样时间相似(产后约30周)。
  2. 我们观察到,在ApcMin/+模型中,肿瘤细胞的条形码突变负担比正常细胞高2.8倍,而在AOM/DSS模型中,这一数值比正常细胞高4.3倍(图1f)。
  3. 据估计,CRC细胞经历的有丝分裂次数约为邻近正常细胞的两倍。
  4. 因此,我们估计在ApcMin/+模型中,肿瘤细胞每次细胞分裂的突变率大约比正常细胞高1.4倍,而在AOM/DSS模型中,这一比率约为2.15倍。
  5. AOM/DSS病变中突变率的更大增加可能是因为AOM是一种诱变剂,也能诱导C/G>T/A转换,就像HsAID在SMALT系统中所做的那样。

The origin of inflammation-driven lesions

Para_01
  1. 肿瘤的起源,无论是源自单一前体(单克隆起源)还是多个不同前体(多克隆起源,也称为多祖先起源),是癌症研究中的一个基本问题。
  2. 尽管先前的研究表明这两种情况都可以发生在结直肠癌前病变中,但它们的普遍性、时间动态和机制仍 largely 未知。
  3. 我们使用高度多样化的 SMALT 条形码重建了 30 个 AOM/DSS 肿瘤及其邻近正常细胞的单细胞谱系(方法),每个样本包括 375 到 9,180(平均 = 3,141)个单细胞(图 2a,b 和扩展数据图 3)。
  4. bootstrap 分析证明了谱系重建的高度稳健性(bootstrap 置信度 >85%;图 2c)。
  5. 与基于 CRISPR–Cas9 的谱系树相比,我们的 SMALT 树展示了 3.3 倍更多的内部分支事件,这表明 SMALT 在谱系映射方面具有更高的分辨率(图 2d)。

Fig. 2: Single-cell phylogenies reveal the origin of inflammation-driven neoplasms.

  • 单细胞系统发育(左)及相应条形码突变(右)代表了一个典型的单克隆病变(a;病变 IBD4_T)和一个典型的多克隆病变(b;病变 IBD50_T)。
  • IBD4_T(上)和 IBD50_T(下)的系统发育树的自举值。
  • 本研究中的 SMALT 树的分支指数(n = 77)与来自两个先前研究的 CRISPR–Cas9 血统树进行了比较(n = 4 和 n = 85)。
  • 从单细胞系统发育估计的创始祖细胞数(Np)。对于每个病变,使用降采样的细胞估计了 20 次 Np。
  • 单克隆(n = 22,766 个细胞)与多克隆(n = 20,882 个细胞)病变中每细胞的条形码突变计数。
  • 单克隆(n = 7)与多克隆(n = 9)病变中全基因组测序数据的总体细胞突变负担或潜在驱动突变负担。
  • 使用 1,000 个降采样的细胞对按每个样本类型内的中位克隆扩增评分排名计算的克隆扩增评分。
  • 炎症正常结肠的一个代表性单细胞系统发育。展示克隆扩张的谱系用颜色突出显示。
  • 单克隆与多克隆病变中的单细胞适应度评分。
  • d, f–h 中的 P 值通过双侧 Wilcoxon 秩和检验得出。
Para_02
  1. 单克隆性特征是存在一个单一的主要单系肿瘤细胞克隆(图2a和扩展数据图3),具有共享的克隆突变(补充图12a和方法)。
  2. 相反,多克隆性是在肿瘤细胞分散成多个系统发育克隆并与正常细胞混合时识别的(图2b和扩展数据图3),未观察到克隆突变(补充图12b)。
  3. 我们发现大多数(66.7%(30例中的20例))AOM/DSS肿瘤是多克隆的(扩展数据图3)。
  4. 这表明,在炎症驱动的肠道肿瘤发生过程中,同一物理生态位中多个不同细胞谱系的平行扩增是常见的。

The number of founding progenitors

Para_01
  1. 高分辨率的单细胞系统发育使我们能够使用靶向共祖分析(TarCA)(方法)量化每个新生物的创始前体细胞数量(记作Np)。
  2. 在这个方法中,前体被定义为能够在病变中建立克隆扩展种群的祖先细胞(图2e和补充图13),无论克隆扩展的潜在机制如何。
  3. 正如预期的那样,对于每个单克隆病变,Np估计约为1(图2e)。
  4. 对于多克隆病变,Np从2到33不等,这些估计对细胞的降采样(图2e)和热点突变事件(补充图13b)具有鲁棒性。
  5. 由于许多创始谱系可能因随机漂移和竞争而在生长过程中丢失,实际的前体细胞数量可能高于我们的估计。
  6. 这表明早期肿瘤发生可能是由多个独立的前体细胞驱动的。
Para_02
  1. 单克隆病变显示出显著多于多克隆病变的条形码突变(图2f)。
  2. 由于AID诱导的C到T突变仅在DNA复制后发生,这表明单克隆病变平均经历了更多的细胞分裂。
  3. 与此一致的是,全基因组测序也显示单克隆病变的全基因组突变负担显著高于多克隆病变(图2g和补充表3)。
  4. 至关重要的是,潜在的驱动突变在单克隆病变中也更为常见(图2h)。
  5. 这些数据共同表明,单克隆病变可能代表了结直肠肿瘤发生的一个更高级阶段(图2e)。

Clonal expansion and selection

Para_01
  1. 为了量化组织中的克隆扩张,我们定义了一个克隆扩张评分,该评分衡量两个随机细胞之间的系统发育相似性(补充图 14a 和方法)。
  2. 正如预期的那样,正常的结肠上皮显示出较低水平的克隆扩张。
  3. 值得注意的是,发炎的结肠比野生型正常结肠表现出更大的克隆扩张(图 2i,j 和补充图 14b)。
  4. 这些小鼠数据证实了早期对炎症性肠病患者发炎结肠中显著克隆扩张的观察结果。
  5. 单克隆病变在小鼠中显示出比多克隆病变更大的扩张(图 2i),并且增殖适应度的指标显示了相同的趋势(图 2k)。
  6. 此外,在全基因组测序数据中,单克隆病变显示非同义突变率与同义突变率之比(dN/dS 比率)增加,尤其是对于无义和剪接突变(补充图 14c)。
  7. 这表明在体细胞进化过程中向单克隆转变存在严格的选择。
  8. 基于代理肿瘤模拟和近似贝叶斯计算的空间计算推断(补充图 15)显示,单克隆 AOM/DSS 肿瘤(30 个中有 10 个)即使在单克隆转变后也经历了强烈的亚克隆选择(选择系数 (s) = 0.57–0.87,补充图 16)。
  9. 此外,通过近似贝叶斯计算进行的推断估计,在这些炎症驱动的肿瘤中,条形码突变率 (u) 在整个 3-kb 条形码中为每次细胞分裂 0.12–0.55。

Polyclonal origin of lesions in Apc

Para_01
  1. 接下来我们将 SMALT 应用于 ApcMin/+ 小鼠。
  2. 我们从每只 ApcMin/+ 小鼠中取样了多个息肉(扩展数据图 1e 和 4a)。
  3. 来自每只小鼠的多个息肉的整合单细胞系统发育树(补充图 17a,b)显示出高度混合的谱系关系,表明系统发育树无法将个体息肉区分开来。
  4. 尽管细胞之间在息肉内和息肉间整体上遗传相似性较低(补充图 17c,d),但具有高条形码突变负担(>20)的细胞表现出相对于息肉间相似性更高的息肉内相似性(补充图 17e–h)。
  5. 这些数据揭示了息肉内的高遗传多样性,并有证据表明某些谱系中存在克隆扩增。
Para_02
  1. 值得注意的是,所有单独的息肉(n = 17)均表现出多克隆起源(扩展数据图 4a)。
  2. 位于条形息肉头部和尾部的两个区域(P5-1 和 P5-5)经历了更强但独立的克隆扩张,这由它们的单系亚树(扩展数据图 4b、c)、单细胞中的突变细胞频率(扩展数据图 4d)以及它们更高的增殖适应性(扩展数据图 4e)所表明。
  3. 估计每个息肉的创始前体数量范围从 4 到大约 100(扩展数据图 5),表明其多克隆性比 AOM/DSS 诱导的病变更高。
Para_03
  1. 我们开发了一种方法来估计始祖细胞的时间,这代表了息肉启动的克隆扩增的开始(扩展数据图5和补充说明)。
  2. 对于Apc68小鼠,始祖细胞的平均时间范围是从出生后第59天到第130天(平均=95天),而对于Apc72小鼠,这一时间范围是从出生后第14天到第70天(平均=47天)(扩展数据图5g)。
  3. 鉴于小鼠肠道上皮细胞每天大约分裂1.5次,我们能够估算出息肉启动时的细胞分裂次数,对于Apc68小鼠为88-196次(平均=142次)出生后的分裂,对于Apc72小鼠为21-105次(平均=70次)出生后的分裂(补充图18)。
  4. 此外,考虑到人类结肠上皮细胞的细胞周期时间约为5天,这两个小鼠中的细胞分裂次数(21-196次分裂)大致相当于人类FAP患者的年龄为105-980天(0.3-2.7年)。
  5. 因此,我们的时序分析表明,FAP患者的新生物启动可能早在婴儿期就发生。

Origin and evolution of human colorectal polyps

Para_01
  1. 我们还收集了107名未经治疗的散发性癌前息肉和同步结直肠癌患者队列的全外显子测序(平均深度 > 200×)数据(图3a,补充表4和方法)。
  2. 检测了体细胞单核苷酸变异(SSNVs)、短插入-缺失(indels)和体细胞拷贝数改变(SCNAs),并通过校正肿瘤纯度、倍性及拷贝数变异来估计突变癌症细胞分数(CCFs)(补充图19,补充表5和6及方法)。

Fig. 3: Polyclonal-to-monoclonal transition in human sporadic polyps.

  • a, 包括107名同步息肉和CRC患者的散发性癌前息肉的人群队列。
  • b, CCFs的分布揭示了每个病变的克隆性。展示了代表性的一个多克隆息肉(P_poly, B046P)和一个单克隆息肉(P_mono, B002P)。
  • c, 去除纯度低(<0.25)的样本后,P_poly(n = 30)、P_mono(n = 72)或CRCs(n = 86)中的总体细胞突变负担。
  • d, 小(<1 cm)和大(≥1 cm)息肉的分布。
  • e, 低级别和高级别异型增生的分布。
  • f, 代表性的苏木精和伊红(H&E)染色图像。比例尺,100 μm。
  • g, 参与者的年龄分布。
  • h, 携带指示的潜在驱动突变的患者百分比。*P < 0.05, **P < 0.01, ***P < 0.001,单侧Fisher精确检验。高亮基因的Benjamini–Hochberg FDR < 0.1。
  • i, 潜在驱动基因的CCFs。
  • j, 癌前息肉体细胞进化过程中从多克隆到单克隆转变及其随后的恶性转化的示意图。
  • k, 来自一名患有散发性息肉(B139)患者的五个癌前息肉(P1–P4 和 P6)的单个腺体的WGS示意图。N,正常组织;R,息肉内的区域。
  • l, 单独分离的腺体图像。
  • m, 包括来自5个息肉的3个正常腺体和29个肿瘤腺体的整合系统发生树。多个腺体共享的潜在驱动突变已标记。P值由双侧Wilcoxon秩和检验(c,g)或Fisher精确检验(d,e)得出。图形a,k改编自Servier Medical Art(CC BY 4.0)。
Para_02
  1. 每个病变的单克隆性或多克隆性可以通过确定是否存在具有接近 1 的 CCF 值的克隆性 SSNV 来推断(图 3b)。
  2. 在这里,由于纯度较低(<0.25),5 个息肉和 21 个肿瘤样本被排除在分析之外。
  3. 我们发现多克隆性在息肉中更为常见(29.4%(102 个中的 30 个))而不是在结直肠癌中(8.1%(86 个中的 7 个))(图 3b 和补充图 20 和 21)。
  4. 与单克隆息肉相比,多克隆息肉观察到的 SSNV 和 SCNAs 较少,两者都表现出比结直肠癌更低的突变负担(图 3c、扩展数据图 6 和补充图 22)。
  5. 值得注意的是,多克隆息肉相对较小(图 3d),并且根据其病理特征更常表现为低级别不典型增生(图 3e、f 和方法)。
  6. 此外,多克隆息肉患者的诊断年龄较年轻(平均年龄 = 60 岁),而单克隆息肉患者则为(平均年龄 = 66 岁)(图 3g)。
  7. 由于所有样本均来自未经治疗的患者,我们的结果未受治疗影响。
  8. 综上所述,这些发现支持单克隆性标志着结直肠肿瘤发生更晚期阶段的观点,这与小鼠模型中谱系追踪研究的观察结果一致(图 2e–h)。
Para_03
  1. 在我们的人群队列中(图3a),驱动基因TP53(77.2%对12.7%)、KRAS(40.5%对26.5%)、PIK3CA(16.5%对1%)、FBXW7(31.6%对13.7%)和SMAD4(11.4%对1%)在结直肠癌中的突变更常见,而息肉则较少(图3h和补充表7)。
  2. 值得注意的是,KRAS在单克隆息肉(34.7%)和结直肠癌(40.5%)中频繁突变,但在多克隆息肉(6.7%)中很少突变,这表明KRAS突变为克隆增殖提供了选择性优势,并可能有助于从多克隆向单克隆的转变。
  3. 如预期的那样,在多克隆息肉中观察到的驱动基因突变的克隆性低于单克隆息肉和结直肠癌(图3i)。
Para_04
  1. 我们还发现,在息肉中,BCL9L、SOX9、TCF7L2 和 CTNNB1 的突变更频繁发生,而在结直肠癌(CRCs)中则较少见(图 3h)。
  2. 值得注意的是,SOX9 在胃肠道化生中的突变更频繁,而在恶性胃癌中则较少见,这表明 SOX9 突变可能在癌前阶段被优先选择。
  3. 研究发现,BCL9 或 BCL9L 的缺失可以抑制肿瘤的发生,这可能是由于 APC 突变腺瘤的基因表达从类似干细胞的状态向分化状态转变所致。
  4. 这些发现表明,癌前阶段克隆扩增的驱动因素可能会潜在地阻碍恶性转化,尽管其潜在机制尚不清楚。
  5. 最后,通过 dN/dS 测量的驱动突变的整体选择强度在单克隆息肉中高于多克隆息肉(补充图 23)。
  6. 总体而言,我们对人类癌前息肉和恶性结直肠癌的基因组分析验证了在小鼠模型中观察到的发现,即在癌前阶段早期肿瘤发生遵循从多克隆向单克隆过渡的轨迹(图 3j)。

Polyclonal origin validated by single-gland WGS

Para_01
  1. 为了利用结直肠病变中的腺体结构,每个腺体代表一个克隆细胞群体,我们收集了一名患有散发性癌前息肉的额外患者(B139,男性,73岁),并对从5个独立息肉中分离出的29个肿瘤腺体和3个相邻正常隐窝进行了全基因组测序(平均深度约为21倍)(图3k,l,补充表4和8及方法)。
  2. 肿瘤腺体中的单核苷酸变异负担大约是正常隐窝的两倍(扩展数据图7)。
  3. 系统发育分析显示,只有两个息肉(P3和P6)在主干中包含大量单核苷酸变异和驱动突变(P3中的CTNNB1和P6中的APC),表明它们各自独立的单克隆起源(图3m)。
  4. 然而,在另外三个息肉(P1、P2和P4)中,每个息肉腺体的最近共同祖先接近系统发育根部(图3m)。
  5. 值得注意的是,主干中没有观察到潜在的驱动突变,表明每个病变的多克隆起源。
  6. 在两个多克隆息肉中观察到了部分共享的驱动突变:P1(8个腺体中有2个FAT3)和P4(4个腺体中有2个JAK1),这表明在多克隆病变内某些谱系的克隆扩增更大。
  7. 因此,我们的单腺体基因组分析清楚地证实了人类散发性癌前息肉中也普遍存在多克隆起源。
  8. 此外,鉴于29个肿瘤腺体中有62%(18个)表现出非APC驱动突变(例如CTNNB1、JAK1或FAT3),许多人类散发性息肉中克隆扩增的非常早期驱动因素不是APC。

Evolution of cell states and interactions

Para_01
  1. 为了进一步剖析可能介导多克隆到单克隆转变的时间细胞状态动态和细胞间相互作用,我们对9个AOM/DSS结直肠肿瘤进行了单细胞RNA测序,这些肿瘤的SMALT条形码已经进行了测序(补充表1)。
Para_02
  1. 总共,我们获得了45,620个高质量细胞,包括从先前研究中整合到当前数据集中的2,619个额外的正常结肠细胞。
  2. 确定了八种主要细胞类型(扩展数据图8a-c,补充图24a和补充表9和10)。
  3. 随着病变克隆性增加,我们观察到巨噬细胞、中性粒细胞和内皮细胞显著增加,而肿瘤上皮细胞减少(扩展数据图8d,e)。
  4. 此处,病变的克隆性测量为1/Np(图2e)。
  5. 值得注意的是,上皮细胞和巨噬细胞表现出最高的转录组多样性,可以进一步分类为10个和7个精细亚群,分别(图4a,扩展数据图8f,补充图24b和补充表11和12)。
  6. 差异丰度分析显示,随着病变克隆性的增加,杯状细胞和‘干细胞样’上皮细胞显著减少,而Trem2+和Chil3+巨噬细胞丰富(图4b和补充图24c,d)。
  7. 支持单克隆代表更晚期的观点,我们发现高克隆性病变(Np ≤ 3)中的肿瘤上皮细胞表现出与癌症相关的分子特征上调,包括与MYC靶点V1和V2、KRAS信号传导、上皮-间质转化和炎症反应相关的特征(扩展数据图8g)。
  8. 此外,根据基于单细胞转录组学的肿瘤相关巨噬细胞(TAMs)统一命名法,Trem2+巨噬细胞与脂质相关TAMs(LA_TAMs)和免疫调节TAMs(Reg_TAMs)高度重叠(图4c,补充图25和补充表13和14),这些在肿瘤微环境中具有免疫抑制作用。
  9. 因此,我们的数据表明,免疫抑制微环境可能促进了单克隆转变。

Fig. 4: Intercellular interactions and polyclonal-to-monoclonal evolution model.

  • a, 单细胞 RNA 测序识别出 26 个细胞亚群。
  • b, 蜜蜂群图显示了随着病变克隆性增加(通过 1/Np 测量)细胞亚群的差异丰度。每个点代表一个包含具有相似转录组的细胞群体的邻域。空间 FDR < 0.1 的细胞邻域以红色突出显示表示丰度减少,蓝色表示丰度增加。
  • c, 巨噬细胞的亚群及其 Trem2 表达,LA_TAMs 和 Reg_TAMs 的标志。
  • d, 通过 CellChat 推断的新生物上皮亚群之间的细胞-细胞通讯。节点代表上皮亚群。边的厚度代表每次下采样 50 次后每两个亚群之间平均的配体-受体相互作用数量(方法)。
  • e, 病变克隆性(1/Np)与平均配体-受体相互作用数量之间的相关性。显示了斯皮尔曼相关系数 ρ 和 P 值。
  • f, 在早期多克隆病变(Np > 3)中显著富集(FDR < 0.05)的 14 种配体-受体相互作用属于 4 条通路:层粘连蛋白、桥粒胶蛋白(DSC)、CDH1 和 SEMA4。数据显示为均值 ± 标准误。
  • g, 早期肠肿瘤发生中多克隆起源和单克隆转变的示意图。每个癌前病变由许多正在进行平行克隆扩增并具有强烈克隆间相互作用的谱系建立。克隆间相互作用的逐渐丧失和微环境的变化可能促进随后的多克隆到单克隆的转变。单克隆转变后,亚克隆选择仍然严格,恶性转化需要进一步的克隆扫荡。
Para_03
  1. 基于配体-受体相互作用使用 CellChat 进行的细胞间通信分析显示,在早期多克隆病变中,上皮亚型之间的配体-受体相互作用显著增加,相对于正常结肠和晚期单克隆病变(图 4d、e 和补充图 26)。
  2. 通过比较早期病变中肿瘤细胞之间的配体-受体相互作用与晚期病变中的相互作用,我们确定了 14 种在早期多克隆病变中显著富集的配体-受体相互作用(FDR < 0.05)(图 4f,扩展数据图 9,补充图 27 和补充表 15)。
  3. 14 种配体-受体相互作用中有 13 种涉及细胞外基质(ECM)组织和细胞粘附,其中 11 种代表来自上皮细胞的基底膜成分,层粘连蛋白及其受体。
  4. 这些结果通过另一种正交方法的细胞间通信分析得到了验证(补充图 28 和方法)。
  5. 值得注意的是,约 40% 在早期病变中富集的配体-受体相互作用是由 Krt20+ 肿瘤细胞贡献的(扩展数据图 10a、b)。
  6. 除了 ECM 基因的过表达,Krt20+ 肿瘤细胞还表现出强烈的促炎特性,如产生白细胞介素 IL-1、IL-6、IL-8 和 IL-13,对 IFNβ 的反应以及抗原处理和呈递。(扩展数据图 10c)。
  7. 总之,这些结果强烈表明,在炎症驱动的肠道肿瘤发生早期,广泛的细胞间相互作用可能通过 ECM 组织和细胞粘附发生。未来的研究有必要阐明这些细胞间相互作用如何在肠道肿瘤发生的早期阶段促进肿瘤生长。

Discussion

Para_01
  1. 许多组织中已经认识到癌前病变的多克隆起源。
  2. 然而,这一隐秘过程背后的分子和进化机制仍然未知(图4g)。
  3. 在这里,我们的系统单细胞系统发育映射表明,每个结直肠病变通常由几个到几十个不同的克隆扩展谱系启动(图4g)。
  4. 这引发了一个关键问题——多克隆启动是否涉及正向的克隆间相互作用,如克隆合作,这促进了整体的肿瘤生长。
  5. 我们数据中启动克隆数量异常之高支持了涉及短程相互作用的招募模型,因为同一物理位置大量克隆随机碰撞在统计上是不可行的。
  6. 我们对个体癌前结直肠腺体的基因组分析表明,许多肿瘤细胞没有典型的驱动突变(如APC或KRAS)。
  7. 这表明这些细胞可能受到或被具有驱动基因突变的邻近克隆的影响或招募。
  8. 支持这一假设,Reeves等人证明了一个Hras突变的启动克隆可以在鳞状细胞癌的发展过程中招募邻近的野生型上皮细胞。
  9. 这种招募可能被选择性地青睐,因为它可以缓解小群体已知的增长障碍,即Allee效应。
  10. 我们的scRNA-seq数据显示,在早期炎症驱动的多克隆病变中,细胞间通讯增加,可能是通过ECM组织和细胞黏附的机制。
  11. 总之,我们的研究强调了细胞间相互作用和通讯在肿瘤发生初始阶段的关键作用。
Para_02
  1. 总体而言,我们的研究构建了早期结直肠肿瘤发生过程中的全面谱系图,为理解肿瘤起始的起源和演变提供了概念框架。
  2. 这里提供的见解对于开发通过靶向细胞间相互作用来预防肿瘤形成的干预策略至关重要。
  3. 未来的研究应集中于解开这些相互作用微环境内的分子对话,通过连接细胞状态(例如,使用单细胞多组学)和同一细胞中的谱系信息来实现。
  4. 此外,还需要努力制定一个预测模型,能够根据癌前病变的分子和进化特征预测癌症风险。

Methods

Animal models and experiments

动物模型和实验

Para_01
  1. SMALT 血统追踪盒被设计到一个来自 C57BL/6J 背景的雄性小鼠胚胎干细胞系中,并建立了 SMALT 小鼠。
  2. Rosa26rtTA 和 ApcMin/+ 小鼠购自赛业(广州)生物科技有限公司。
  3. 所有小鼠均通过 PCR 进行基因型鉴定。
  4. 本研究描述的所有小鼠繁殖和实验均获得中国科学院深圳先进技术研究院机构动物护理与使用委员会 (IACUC) 的批准(协议号 SIAT-IACUC-201207-HCS-HZ-A1491 和 SIAT-IACUC-221111-HCS-LZL-A2218)。
Para_02
  1. 所有小鼠均饲养在特定病原体无菌(SPF)环境中,自由获取食物和水。
  2. 通过给转基因雄性小鼠(Rosa26rtTA;H11SMALT)喂食AOM和DSS组合来诱导AOM/DSS炎症驱动的肿瘤。
  3. 特别地,所有小鼠均为Rosa26rtTA和H11SMALT杂交而来,年龄为6-8周,体重范围为18-20克。
  4. 实验开始前三天,所有小鼠被喂食含有每日5毫克多西环素的食物。
  5. 随机选择两只小鼠作为对照组,不进行进一步处理,而16只小鼠接受一次腹腔注射AOM(Sigma-Aldrich),剂量为每千克体重12.5毫克。
  6. 三天后,处理过的小鼠接受了三个周期的2% DSS(MP Biomedicals)治疗。
  7. 每个周期持续三周,其中7天饮用溶解了DSS的水,14天饮用自来水。
  8. 在每个周期中,瓶子在第3天和第5天排空,并重新装满新鲜的DSS溶解水。
  9. ApcMin/+雄性小鼠与Rosa26rtTA;H11SMALT雌性小鼠交配,产生了用于建立Apc驱动息肉模型的Rosa26rtTA;H11SMALT;ApcMin/+雄性小鼠。
  10. 在交配前,雌性小鼠(Rosa26rtTA;H11SMALT)已连续三天喂食每日5毫克多西环素。
  11. 在模型建立过程中,每周跟踪并记录体重和带血腹泻情况。

Cell sorting

细胞排序

Para_01
  1. 细胞用 PBS 洗涤并重新悬浮。
  2. 在最终洗涤中,细胞在 MojoSort 缓冲液中重新悬浮,并将浓度调整至每毫升不超过 1 × 10^8 个细胞。
  3. 将 10 微升的 MojoSort 鼠 CD45 纳米珠与细胞充分混合,在冰上孵育 15 分钟。
  4. 用 MojoSort 缓冲液洗涤细胞后,将含有细胞的试管放在磁铁上 5 分钟进行分离。
  5. CD45 阳性细胞共进行 3 次分离,未标记的细胞(CD45 阴性细胞)纯化两次。
  6. 随后使用 MojoSort 鼠 CD326 选择试剂盒对 CD45 阴性细胞进行纯化。
  7. CD45 阴性细胞用 10 微升的 TruStain FcX(抗小鼠 CD16/32 抗体)标记。
  8. 在室温下孵育 10 分钟后,加入 5 微升的生物素抗小鼠 CD326(EpCAM)抗体,然后在冰上再孵育 15 分钟。
  9. 混合物洗涤一次,然后在冰上与 10 微升链霉亲和素纳米珠孵育 15 分钟。
  10. 将洗涤后的细胞管放在磁铁上,总共进行 3 次分离。
  11. 使用流式细胞术确认了分选细胞的高纯度,其中 CD45 阳性细胞用 Ms CD45 FITC 30-F11 标记,CD326 阳性细胞用 ANTI-MO CD326 G8.8 APC 标记。

Mouse intestinal organoid experiments

小鼠肠道类器官实验

Para_01
  1. 准备了一只12周大的雄性 ApcMin/+ (Rosa26rtTA; H11SMALT; ApcMin/+) 小鼠用于类器官衍生。
  2. 从小鼠身上解剖出小肠,并用上皮类器官基础培养基(bioGenous B213151)彻底冲洗。
  3. 从腔面移除正常上皮和肿瘤息肉。
  4. 收集的组织(正常或息肉)在预冷的含5 mM EDTA(bioGenous E219121)的上皮类器官基础培养基中消化,并在4°C下孵育30分钟。
  5. 通过用上皮类器官基础培养基洗涤去除EDTA后,将组织碎片在预冷的上皮类器官基础培养基中剧烈振荡以使隐窝脱落,并通过70-μm滤网过滤。
  6. 离心分离的组织悬浮液,在300g下离心5分钟。
  7. 细胞沉淀物重新悬浮在减少生长因子的基质(Corning 356231)中。
  8. 基质固化后,加入小鼠肠道类器官完全培养基(bioGenous K2001-MI)。
  9. 类器官在37°C、5% CO2的培养箱中培养。

Library preparation for PacBio sequencing

PacBio测序的文库制备

Para_01
  1. 排序细胞的全基因组使用 Qiagen 的 DNeasy Blood and Tissue kit (产品编号 69504) 进行分离。
  2. 我们使用 500 ng 的基因组 DNA 作为模板,使用 TOYOBO 的 KOD One PCR Master Mix (产品编号 KMM-101) 进行扩增。
  3. 我们采用三步策略确保有效扩增带有 UMIs 和样本条形码的 3-kb 目标条形码。
  4. 首先,我们使用包含 14 个核苷酸 UMIs 的 P1 引物对每个原始 DNA 分子进行一次谱系扩增,然后使用 0.9 倍的 AMPure XP 贝克曼库尔特 (产品编号 A63881) 磁珠清理 PCR 产物。
  5. 其次,我们使用 P2 和 P3 引物进行十轮嵌套 PCR 扩增,以富集索引的目标分子。
  6. 最后,清理后的 PCR 产物使用含有 6 个核苷酸对称样本条形码的 P4 和 P5 引物进行扩增,以实现样本多重化。
Para_02
  1. 每个样本的测序文库以相同数量的 DNA 分子混合,以获得每个样本每细胞大致相等的覆盖度。
  2. 使用 3 微克混合的 3-kb 条形码测序文库进行 PacBio SMARTbell 文库制备(Frasergen,Sequel IIe 平台)。
  3. 每次测序运行大约生成 200 Gb 原始数据和超过 100 万条高保真读取。

Long-read sequencing data processing

长读长测序数据处理

Para_01
  1. 3 kb 条形码文库使用修改后的管道处理,如前所述。
  2. 简而言之,首先从聚合酶读取中去除接头。
  3. 使用 pbccs v6.2.0(--min-length=1000 --num-threads=10 --by-strand --min-passes=3)生成至少五个循环的环状共识测序(CCS)读取。
  4. 然后,高精度的 CCS 读取被映射到参考 3-kb 目标条形码序列,使用 minimap v2.1745(-t 10 -A 4 -B 12 -O 10,15 -E 2,1 --score-N 0 --end-bonus 10 -a --MD -x map-pb),随后使用 samtools 处理 sam 文件。
  5. 接下来,根据映射坐标和 CCS 映射的 bam 文件,注释每个 CCS 读取的 UMI、3-kb 条形码序列和样本条形码,并相应地将 CCS 映射的 bam 文件拆分为多个 fastq 文件。
  6. UMI 使用 usearch v11.0.667(-id 0.95 -gapopen 3.0I/2.0E -gapext 1.0I/0.5E -match +2.0 -mismatch −20.0 -sizeout)分组,移除少于 3 个 CCS 的 CCS 组。
  7. 对于每个 CCS 组,重新对齐的读取被合并成一个共识 CCS 读取,当总体映射质量大于 50 且突变频率大于 0.6 时,调用核苷酸替换。
  8. 最后,我们为每个样本获得了高质量的 3 kb 条形码。
Para_02
  1. 至少包含两个条形码突变的高质量CCS读段用于下游分析,在此步骤中,正常和肿瘤组织中有7-49%的读段被过滤。
  2. 因为非肿瘤细胞(例如,从肿瘤样本(AOM/DSS或ApcMin/+病变)或不同器官中分离的免疫细胞)的突变负担低于肿瘤细胞(扩展数据图2),我们使用以下两种方法从肿瘤样本中筛选出可能的正常细胞:(1) 当一个肿瘤样本显示出突变计数的双峰分布时,移除低突变簇中的细胞;(2) 如果没有这种特征性的双峰分布,则移除突变计数低于相邻正常细胞突变计数第75百分位数的细胞。
  3. 经过这些过滤步骤后,我们总共获得了260,922个细胞用于本研究的下游分析。

Phylogenetic reconstruction

系统发育重建

Para_01
  1. 使用 IQ-TREE v2.2.2 实现的最大似然法重建了系统发育树(-T 5 -o ref -m GTR2 + FO + R10),以原始参考 3 kb 条形码序列作为系统发育根。
  2. 在评估所有可用的替代模型后,使用 IQ-TREE2 选择了最优替代模型 GTR2 + FO + R10。
  3. 为了评估树重建的稳健性,我们运行了 1,000 轮超快速自举近似(-B 1000)和 1,000 轮 SH 类似近似似然比检验(-alrt 1000)。
  4. 使用多个 CPU 核心(-T 50)以加快重建过程。
Para_02
  1. 使用野生型正常细胞作为对照,我们评估了每个位点在样本中的突变频率。
  2. 在3-kb目标条形码中,突变频率大于0.04且至少出现在两个正常样本中的可变位点被定义为热点位点。
  3. 总共确定了14个热点位点,其突变频率大约是所有其他突变位点的20倍。

WGS of mouse samples

小鼠样本的全基因组测序

Para_01
  1. 从34个鼠标样本(包括邻近正常组织、息肉和肿瘤)中提取了高质量的基因组DNA,使用的是DNeasy Blood and Tissue Kit (Qiagen, 69504),DNA浓度通过Qubit荧光计(Invitrogen)进行定量。
  2. 根据测序仪的协议准备了Illumina NGS文库,并在Illumina Novaseq PE150平台上进行了测序。
  3. 每个鼠标样本平均生成了90 Gb的数据(约30倍覆盖)。

WES of human sporadic polyp/CRC cohort

人类散发性息肉/结直肠癌队列的全外显子组测序

Para_01
  1. 用于全外显子组测序的人类散发性息肉/结直肠癌队列包括107名患者,这些患者未接受过先前治疗或没有结直肠癌家族史,他们来自中山大学第六附属医院。
  2. 每位患者在书面知情同意后,根据样本收集协议收集了同步肿瘤(T)、息肉(P)和邻近正常(N)样本。
  3. 所有生物样本收集协议均遵循《赫尔辛基宣言》的原则,并获得了中山大学第六附属医院机构审查委员会(IRB)的批准(编号2019ZSLYEC-06)。
  4. 所有样本均按照当地伦理指南匿名编码。
  5. 新收集的样本储存在液氮中,或直接作为整块组织储存在液氮中。
Para_02
  1. 用于将息肉组织学分级为低级别或高级别异型增生的双级系统是基于在 H&E 染色图像中观察到的结构和细胞学特征的组合。
  2. 高级别息肉定义为超过 25% 的腺体结构表现出以下一个或多个特征:(1)低倍镜下可见明显的复杂腺体拥挤、腺体不规则或筛状结构;(2)细胞极性显著丧失和假复层核;(3)明显增大的核,具有突出的核仁,分散的染色质模式,或非典型有丝分裂图。
  3. 此外,内镜医生测量了息肉的大小。
  4. 为了后续的统计分析,根据大小将息肉分为两类:小(<1 厘米)和大(≥1 厘米)。
  5. 临床信息,包括大小和等级,记录在补充表 4 中。
Para_03
  1. 从107名患者的冰冻新鲜样本中提取基因组DNA,使用天根磁珠通用基因组DNA试剂盒,并通过Qubit 3.0(Invitrogen)进行定量。
  2. 根据制造商的建议,使用NEB Next Ultra DNA文库制备试剂盒(NEB)生成测序文库,并为每个样本添加索引代码。
  3. 使用SureSelect XT人类全外显子V6试剂盒(Agilent)捕获外显子,并在Illumina NovaSeq 6000平台上进行了150 bp的双端测序。

Detection of SSNVs and SCNAs

SSNVs和SCNAs的检测

Para_01
  1. WGS和WES的原始fastq文件使用fastp v0.19.753预处理后,这些清洁的测序读段使用BWA-MEM算法对参考基因组(小鼠WGS:NCBI构建mm10;人类WES:GRCh38)进行比对,该算法实现在BWA v0.7.17-r1188中。
  2. 遵循GATK最佳实践和相关工具集v4.2.0.0,比对的读段按顺序通过MarkDuplicates、BaseRecalibrator和ApplyBQSR处理。
  3. 使用bamdst v1.0.9 (https://github.com/shiquan/bamdst) 获取测序深度。
  4. 如先前研究所述,我们使用Mutect2来识别每个肿瘤/正常配对或息肉/正常配对中的所有SSNVs和插入缺失。
  5. 使用来自正常样本的池化生殖系变异生成的正常面板(PoN)过滤器去除人工变异或背景生殖系变异。
  6. 使用FilterMutectCall进一步提取高置信度体细胞变异。
  7. 这些体细胞突变随后使用ANNOVAR v.20200608进行注释,以便进一步分析。
Para_02
  1. 然后我们使用 TitanCNA v1.28.060 检测每个息肉和肿瘤样本中的 SCNAs 并估计纯度和倍性。
  2. 保留了高纯度(≥0.25)的样本用于后续分析。
  3. 通过考虑肿瘤纯度、局部拷贝数和多重性以及推断的 SCNAs 和 SSNVs 之间的时间顺序,计算每个体细胞突变的 CCF,如前所述。
  4. 此外,如果 95% 置信区间上限的 CCF 等于或大于 1,则将突变分类为‘克隆’;否则,将其分类为‘亚克隆’。
  5. 然后,如果体细胞突变在息肉或肿瘤中具有≥5 个变异读段(对于 WES),或在息肉或肿瘤中具有≥4 个变异读段(对于 WGS),并且变异位置的总读段数在正常和息肉或肿瘤中均≥10,则保留这些突变。
  6. 对于人类 WES 数据,保留了在息肉或肿瘤中 CCF ≥ 0.04 且在正常样本中 VAF < 0.01 的变异,并且在个体内的息肉和肿瘤中手动检查了驱动基因中的私有突变,以确保它们确实是私有的。
  7. 对于小鼠 WGS 数据,我们使用来自小鼠癌症基因组测序数据分析管道的脚本检测并可视化 SCNAs。

Single-gland WGS

单腺全基因组测序

Para_01
  1. 从中山大学第六附属医院招募的一名散发性患者(B139,男性,73岁)的横结肠中通过结肠镜检查解剖了五个息肉。
  2. 单腺体分离和全基因组测序的方法基于先前发表的协议的改编。
  3. 为了从这个息肉病变中采样不同的空间区域,我们首先从新鲜冷冻组织中切出了6块代表不同区域的样本。
  4. 然后,将组织块放置在显微镜下的干净载玻片上,并加入20微升PBS。
  5. 随后,使用23G(0.6 × 25毫米)注射针手动分离单个隐窝(或腺体),并用移液器吸取。
  6. 每个腺体被转移到含有20微升蛋白酶缓冲液的PCR管中。
  7. 提取出足够DNA(>1纳克)的腺体被选中用于使用Vazyme TruePrep DNA文库制备试剂盒V2(TD501/502/503,Vazyme,中国)构建全基因组测序文库,按照制造商的说明进行。
  8. 文库在Illumina NovaSeq平台上进行测序。
  9. 每个腺体至少有100Gb的原始数据,以确保足够的测序深度(>20x),支持后续分析。
Para_02
  1. 单腺体 WGS 数据也使用与我们 WES 数据分析相同的流程进行了预处理。
  2. 为了从单腺体 WGS 数据中过滤出假阳性突变调用,使用了两个调用者 Mutect2 和 Strelka v2.9.2,并通过 VariantFilter (https://github.com/rschenck/VariantFilter) 获得了共识变异调用集。
  3. 最终,选择腺体样本中 VAF ≥ 0.15、变异读数 ≥ 4 和总读数 ≥ 7 的高置信度突变,且匹配的正常样本中没有读数。
  4. 使用邻近连接法在 Biopython 下,基于 Python v3.8.13,以无突变的参考序列作为根,重构了使用 SSNVs 的腺体系统发生树。
Para_03
  1. 每个隐窝相对于匹配的正常组织样本的体细胞拷贝数改变(SCNAs)通过R包Sequenza v3.0.0进行估计。
  2. 对给定隐窝的所有样本的B等位基因频率和深度比值进行了联合分割,以确定用于后续分析的一组断点。
  3. 扩增(AMP)和缺失(DEL)的截止值分别设置为log2(2.5/2)和log2(1.5/2)。
  4. 使用所有具有相同状态且在特定区域中下降超过40%的片段标注臂水平的拷贝数。
  5. 最终,我们在系统发育树中标注了几个重要的臂水平SCNAs。

Clonal relatedness for polyp/CRC pairs

多发性息肉/结直肠癌对的克隆相关性

Para_01
  1. 没有或很少(<10)共享克隆性单核苷酸变异/插入缺失的患者表明,同一患者的息肉和肿瘤有不同的起源。
  2. 使用 Breakclone v0.3.369 进一步评估了每对息肉/肿瘤的克隆相关性,该软件结合了突变的人群频率和等位基因频率。
  3. Breakclone 通过置换检验计算了一个 P 值和一个克隆相关性评分(补充表 6)。
  4. 然后根据每个患者的息肉和肿瘤之间的克隆关系将其分类为相关(P < 0.01 和克隆性评分 > 0.1)、不相关(P > 0.05 和克隆性评分 < 0.05)或不确定(其余对)。
  5. 这一分析也应用于两例散发性结直肠癌的多区域测序数据作为阳性对照。

dN/dS analysis

dN/dS 分析

Para_01
  1. 使用 R 包 dndscv v0.0.1.024 估计了 dN/dS 比率,对于息肉和结直肠癌中的所有突变,采用了默认和推荐的参数。
  2. dndscv 模型分别应用于三大主要亚型(多克隆息肉、单克隆息肉和结直肠癌)内的突变集。
  3. 通过合并所有 TCGA 泛癌驱动基因(n = 299)和 COSMIC 癌症基因普查注释的额外结直肠癌特异性驱动基因(n = 47),整理出了潜在的结直肠癌驱动基因。
  4. 除了拟合模型的全局 dN/dS 估计值外,还使用 dndscv 的 genesetdnds 函数提取了潜在结直肠癌驱动基因的 dN/dS 估计值。
  5. 对于小鼠全基因组测序数据,每个基因的 dN/dS 值都被估计出来。
  6. 然后利用推断出的全局速率来估计整理的人类结直肠癌驱动基因的小鼠一对一同源基因的全局 dN/dS 值。
  7. 人类-小鼠一对一同源基因从 Ensembl 数据库(版本 110)通过 BioMart 下载(www.ensembl.org/biomart,最后访问日期为 2023 年 8 月 23 日)。

Estimating the number of progenitor cells

估计祖细胞的数量

Para_01
  1. 我们使用 TarCA v0.1.022 来估计每个肿瘤病变的创始祖细胞数量,这些细胞系树是由 SMALT 重建的。
  2. 需要注意的是,祖细胞被定义为能够在肿瘤中建立克隆扩增群体的细胞,无论克隆扩增的机制如何。
  3. 因此,对于包含正常细胞和肿瘤细胞的系统发育树,TarCA 首先计算两个随机肿瘤细胞在一个单系分支中共享一个共同祖细胞的概率(Pr)。
  4. 正如 Liu 等人所证明的,肿瘤组织的有效祖细胞数量(Np)等于这一概率的倒数,即:
Para_02
  1. 给定一棵包含正常细胞和肿瘤细胞的系统发育树,Pr 可以计算为:

错误!!! - 待补充

Para_04
  1. 我们进行了下采样以评估 Np 估计的稳健性:(1) 如果一个肿瘤样本中有超过 1,000 个细胞,则每次下采样 1,000 个肿瘤细胞 20 次,并且每次都包括所有正常细胞;(2) 如果肿瘤样本中的细胞少于 1,000 个,则对正常或肿瘤细胞进行 20 次下采样。这里对细胞数量较多的类型(正常或肿瘤)进行下采样,而 m 是正常细胞数量和肿瘤细胞数量之间的较小值。

Single-cell RNA sequencing

单细胞RNA测序

Para_01
  1. 九只 AOM/DSS 小鼠的结肠被纵向切开,并用冷磷酸盐缓冲液(PBS)冲洗。
  2. 肿瘤被收集并切成小块。
  3. 使用 MACS 组织解离试剂盒(Miltenyi Biotec, 130-096-730)制备单细胞悬液。
  4. 简而言之,将组织切成小块,用消化缓冲液解离,并在 37°C 下孵育 30 分钟。
  5. 消化液用 DEME 洗涤。
  6. 然后将细胞悬液通过 70 微米的细胞筛过滤,以 800g 离心 5 分钟,重新悬浮。
  7. 使用 Chromium 单细胞 5' 试剂盒进行 10X Genomics v2 化学文库构建。
Para_02
  1. 原始的单细胞 RNA 测序数据使用 Cell Ranger v7.1(10x Genomics)对参考基因组(mm10)进行比对,并对每个样本的 UMI 进行量化。
  2. 从 Vega 等人获得的两个正常样本(GSE134255)被整合到我们的数据集中作为正常对照。
  3. 由 Cell Ranger 生成的 UMI 矩阵使用 R 包 Seurat v5.0 处理成单独的 Seurat 对象。
  4. 为了确保高质量的数据,保留了至少含有 500 个基因且线粒体基因表达低于 15% 的细胞,并通过 DoubletFinder v2.0 识别为单细胞。
  5. 表达于少于 3 个细胞中的基因被过滤掉。
  6. 这样,共保留了 45,620 个高质量细胞,这些细胞随后使用 Seurat 的 sctransform v2(SCT)进行了标准化,该方法特别适用于基于液滴的单细胞 RNA 测序数据,比默认的标准化方法更能抵抗技术效应。
  7. 最后,从数据中回归了线粒体读数计数,并筛选出 3,000 个高变异基因用于后续的降维和整合分析。
Para_03
  1. 首先进行了主成分分析(PCA),使用 Seurat 的 ElbowPlot 函数选择了前 50 个显著的主成分。
  2. 为了最小化批次效应并保留真实的生物异质性,比较了四种单细胞整合方法:典型相关分析、互惠 PCA、Harmony 和 FastMNN。
  3. Harmony 在我们的数据中表现出中等的整合能力,并在后续的细胞聚类和注释中具有最佳的生物学可解释性。
  4. 基于前 50 个 PCA 成分,使用 Harmony v1.1.0 去除批次效应后,应用 FindNeighbors 函数在 30 个维度上计算 k 最近邻(KNN)和共享最近邻(SNN)图,基于‘和谐空间’。
  5. 随后,使用 FindClusters 函数,设置分辨率为 0.1,使用 Louvain 算法进行第一轮聚类。
  6. 每个聚类都通过已知标记物仔细注释,确定了八种主要细胞类型:中性粒细胞、巨噬细胞、T 细胞、B 细胞、内皮细胞、上皮细胞、肥大细胞和成纤维细胞。
  7. 接下来,通过将分辨率设置为 0.4 进行第二轮聚类,识别出 26 个亚群。
  8. 值得注意的是,上皮细胞和巨噬细胞表现出显著的异质性,分别分为 10 个和 7 个亚群。
  9. 同时,B 细胞被分为两个亚群(B 细胞和 B 浆细胞),而 T 细胞被细分为三个亚群(调节 T 细胞、细胞毒性 T 细胞和 T 前体细胞)。
  10. 其余细胞类型未进一步细分。
  11. 为了进一步注释上皮细胞和巨噬细胞的亚群,我们使用 FindMarkers 函数识别这两个主要聚类中每个亚群的标志基因。
  12. 我们选择一个代表性的标志基因作为命名的后缀,以区分各个亚群。
  13. 具体来说,对于上皮细胞,亚群命名为:Epi-Mt3、Epi-Mgst3、Epi-Peak1、Epi-Mdga2、Epi-Ptprd、Epi-Krt20、Epi-Srgn、Epi-Goblet、Epi-Arglu1 和 Epi-Stem-like。
  14. 同样地,对于巨噬细胞,亚群命名为:Macro-Trem2、Macro-Chil3、Macro-Ifitm1、Macro-Acod1、Macro-Cxcl3、Macro-St18 和 Macro-Ccr7。

Differentially expressed gene analysis

差异表达基因分析

Para_01
  1. 使用 Seurat 的 FindALLMarkers 和 FindMarkers 函数以及 Wilcoxon 秩和检验确定了亚簇之间的差异表达基因(DEGs)。
  2. 如果 DEGs 在亚簇内超过 1% 的细胞中表达,并且平均对数转换的倍数变化大于 0.25,则保留这些 DEGs。
  3. 为了注释每个簇的细胞类型,结合了在 DEGs 中发现并在文献中记录的经典表达标记。
  4. 此外,使用 Seurat 的 DoHeatmap 和 DotPlot 函数生成了热图和点图。
  5. 使用 Seurat 的 FeaturePlot 函数在均匀流形近似和投影(UMAP)图上可视化了标记基因的表达。

Gene set enrichment analysis

基因集富集分析

Para_01
  1. 使用 clusterProfiler 包(版本 4.8.3)进行了基因集富集分析(GSEA)。
  2. GSEA 算法计算一个富集分数(ES),反映差异表达基因(DEGs)排名列表顶部或底部过度表示的程度。
  3. 正或负的富集分数表明基因集在 DEG 排名列表的顶部或底部富集,分别对应于激活(ES > 0)或抑制(ES < 0)的基因通路。
  4. 在我们的通路富集分析中,我们使用了 Gene Ontology 基因集(M5)和 MSigDB 数据库(https://www.gsea-msigdb.org/gsea/msigdb)中可用的小鼠同源标志基因集。

Gene set variation analysis and scoring

基因集变异分析与评分

Para_01
  1. 使用了基因集变异分析(GSVA)包 v1.48.3 来评分不同的基因集。
  2. GSVA 基于细胞的基因表达数据计算特定基因集在单个细胞中的得分。
  3. 根据统一命名法定义的七类巨噬细胞,每类都有其独特的基因标志物集。
  4. 我们数据集中的巨噬细胞根据相应的基因集被注释为这七类(补充表 13)。
  5. 每个细胞使用 ssgsea 方法进行评分,参数设置为 kcdf = '高斯',ssgsea.norm=TRUE。

Differential cell abundance analysis

差异细胞丰度分析

Para_01
  1. 使用 miloR v1.8.180 来识别不同细胞类型之间丰度的变化。
  2. milo 通过将细胞分配到部分重叠的 KNN 图中的邻域来进行差异丰度测试。
  3. Molo 通过将细胞丰度的变化视为一个连续过程,可以捕捉到连续的轨迹,而不需要预先将细胞聚类成离散的组。
  4. 这种方法使我们能够使用广义线性模型观察不同细胞类型随时间的丰度变化。
  5. 具体来说,基于 Seurat 的‘和谐空间’构建了一个 KNN 图,并使用采样精炼算法选择了 10% 的细胞。
  6. 每个采样的细胞及其表现出接近转录空间距离(由 KNN 距离确定)的邻近细胞构成一个邻域。
  7. 在每个邻域内,每个邻域内的细胞数量合理分布在 50 到 100 之间。
  8. 每个显著丰度变化的邻域的空间 FDR(校正后的 P 值)不超过 0.1。

Cell–cell communication analysis

细胞间通讯分析

Para_01
  1. 使用 CellChat v1.6.136 推断每个样本中不同上皮细胞类型之间的相互作用。
  2. CellChat 在配体-受体相互作用分析中提供了独特的优势。
  3. 它不仅考虑了配体和受体基因在细胞亚群中的表达水平,还考虑了配体-受体结合过程中必要的结构成分,如多聚体配体-受体复合物、可溶性激动剂、拮抗剂以及刺激性和抑制性膜结合共受体。
  4. 单个样本中配体-受体相互作用的强度通过该样本中存在的推断配体-受体对的总数来衡量。
  5. 由于推断的配体-受体对的数量受到样本细胞数量的影响,我们对每个样本进行了 50 次下采样,每次包括 689 个上皮细胞(这 9 个样本中最小的细胞数,IBD142_T5)。
  6. 我们使用每两个上皮亚群之间从 50 次下采样中得到的配体-受体对的平均数量来可视化每个样本中的细胞间相互作用。
  7. 每个样本在 50 次下采样中的配体-受体对的平均数量用于与病变克隆性(1/Np)进行相关性分析。
Para_02
  1. 我们从 CellChat 数据库(CellChatDB)中识别出总共 1,543 个候选配体-受体对,这些对在肿瘤上皮细胞中有基因表达。
  2. 这些配体-受体对代表了肿瘤细胞之间所有可能的潜在相互作用。
  3. 因此,我们分别量化了每个配体-受体对的发生情况,并使用 Wilcoxon 秩和检验比较了早期低克隆性病变(Np > 3,6 个样本)和晚期高克隆性病变(Np ≤ 3,3 个样本)。
  4. 调整后的 FDR 阈值小于 0.05 表示两个阶段之间的配体-受体对数量存在显著差异。
  5. MultiNicheNetR v1.0.381 也被用于识别两种条件下显著改变的配体-受体对。
  6. MultiNicheNetR 强调相应的配体与受体结合后是否调节下游靶基因。
  7. 建立一个配体-受体对需要发送细胞中的配体和接收细胞中的受体同时高表达,以及接收细胞中受调节的靶基因(补充表 16)。
  8. CellChat 和 MultiNicheNetR 均按照各自作者推荐的参数实施。

Data availability

Para_01
  1. 本研究生成的所有处理数据已存入并可在 Zenodo (https://zenodo.org/records/11647317) 获取。
  2. 本研究生成的单细胞系统发育树展示在 https://smalt-phylogeny.org/。
  3. 原始数据可从国家基因组数据中心 (NGDC) 公开获取,登录号为 PRJCA024217 和 PRJCA023981。
  4. 两个野生型小鼠结肠样本的公共单细胞 RNA 测序数据可通过 GSE134255 (https://www.ncbi.nlm.nih.gov/) 获取。

Code availability

Para_01
  1. 本研究使用的所有计算机代码均可从 GitHub 仓库 https://github.com/zhaolianlu/SMALT-mouse 和 https://github.com/zhaolianlu/Homo-preCRC 获取。