51好读  ›  专栏  ›  生信菜鸟团

Nature | 代码值得学习!发现RNA剪接异常产生的新一类“公共新抗原”,公共数据挖掘

生信菜鸟团  · 公众号  · 生物  · 2025-03-20 20:21

正文

Basic Information

  • 英文标题:Tumour-wide RNA splicing aberrations generate actionable public neoantigens
  • 中文标题:肿瘤范围内的 RNA 剪接异常产生可操作的公共新抗原
  • 发表日期:19 February 2025
  • 文章类型:Article
  • 所属期刊:Nature
  • 文章作者:Darwin W. Kwok | Hideho Okada
  • 文章链接:https://www.nature.com/articles/s41586-024-08552-0

Abstract

Para_01
  1. 基于 T 细胞的免疫疗法通过利用免疫系统对癌症特异性抗原的识别,在治疗癌症方面展现出潜力。
  2. 然而,其疗效在体细胞突变较少且肿瘤内异质性较大的肿瘤中受到限制。
  3. 在这里,我们介绍了一类先前未被描述的肿瘤范围内的公共新抗原,它们源自多种癌症类型中的 RNA 剪接异常。
  4. 我们发现了能够识别和靶向由 GNAS 和 RPL22 异常剪接衍生的新抗原的 T 细胞受体克隆。
  5. 在多部位活检的情况下,我们在胶质瘤、间皮瘤、前列腺癌和肝癌中检测到 GNAS 新连接位点的肿瘤范围内表达。
  6. 这些新抗原在生理条件下由肿瘤细胞内源性生成并呈递,并足以触发新抗原特异性 CD8+ T 细胞介导的癌细胞清除。
  7. 此外,我们的研究强调了某些癌症类型中剪接因子表达失调的作用,导致新连接位点反复上调。
  8. 这些发现为解决肿瘤内异质性挑战的基于 T 细胞的免疫疗法提供了分子基础。

Main

Para_01
  1. 基于细胞的免疫疗法为各种恶性肿瘤提供了持久的生存益处。
  2. 然而,由于肿瘤内异质性(ITH)在细胞和遗传景观中的存在,许多肿瘤逃避了清除。
  3. 尽管在具有高水平免疫浸润和高突变负荷的肿瘤中免疫疗法有益,但具有广泛ITH或较低突变负担的癌症仍然对其产生抗性。
  4. 目前针对来源于非同义体细胞突变的肿瘤特异性抗原(TSAs)的免疫疗法,在低突变负担的肿瘤中提供的靶点有限。
  5. 为了扩大免疫治疗的选择,最近的研究探索了癌症特异性的剪接事件(新接合点(NJs))作为TSAs的来源。
  6. NJs较为普遍,并且可以生成激活CD8+ T细胞反应的TSAs。
  7. 然而,尚未研究整个肿瘤中NJs在空间和时间上的保守性,因此其克隆性尚不清楚。
Para_02
  1. 为了解决这一空白,我们研究了不同癌症类型中NJ的克隆性,以识别‘公共’的、全肿瘤范围的NJ衍生的肿瘤特异性抗原(TSA)。
  2. 通过使用全面的分析流程,我们在不同的肿瘤内区域中映射RNA剪接位点,以表征空间上保守的NJ(扩展数据图1)。
  3. 我们确定了经过蛋白酶处理并展示在常见人类白细胞抗原(HLA)分子上的NJ衍生的TSA。
  4. 这些TSA引发了T细胞受体(TCR)信号传导,并通过CD8+ T细胞实现抗原依赖性的肿瘤细胞杀伤。
  5. 这些发现表明,针对全肿瘤范围的公共NJ衍生的TSA可能成为一类新的‘现成可用’的癌症免疫疗法。

Characterization of public, pan-cancer NJs

Para_01
  1. 我们分析了来自癌症基因组图谱(TCGA)的RNA测序(RNA-seq)数据,以识别具有空间映射肿瘤样本的12种癌症类型的非注释拼接读段(图1a和扩展数据图1a)。
  2. 在识别蛋白编码的非注释拼接位点时,仅包括肿瘤纯度≥60%的样本(图1b)(扩展数据图1b)。
  3. 一个拼接位点的阳性样本率(PSR)表示队列中表达该非规范拼接(NJ)的样本百分比,其相对于规范剪接位点的读取频率≥1%。
  4. 公共NJ被定义为在每个TCGA肿瘤队列中PSR升高的NJ(PSRTCGA ≥ 10%;图1c和扩展数据图1c)。
  5. 根据NJ命名法,癌症特异性剪接事件被定义为在基因型-组织表达(GTEx)项目中的正常组织中PSR<1%(n = 9,166;PSRGTEx < 1%;扩展数据图1d)。
  6. 平均每种TCGA肿瘤类型鉴定出94个公共NJ(图1d和补充表1),并且在样本间具有一致的频率(图1e)。
  7. 公共NJ因剪接类型而异(图1f),并具有导致移码突变的剪接事件的一致比例(图1g)。
  8. 一些NJ也在最近的剪接研究中被发现(扩展数据图1e,f)。
  9. 无偏的分层聚类显示NJ表达按肿瘤类型分组,表明保守模式。
  10. 此外,一部分NJ在多种肿瘤类型中表达(图1h),这表明可能由异常剪接产生的泛癌免疫治疗靶标。

Fig. 1: Characterization of public NJs across multiple cancer types.

- 图片说明

◉ TCGA RNA-seq 数据在胶质母细胞瘤 (GBM,n = 167 个样本)、低级别胶质瘤 (LGG,n = 516)、肺腺癌 (LUAD,n = 517)、肺鳞状细胞癌 (LUSC,n = 501)、间皮瘤 (MESO,n = 516)、肝细胞癌 (LIHC,n = 371)、胃腺癌 (STAD,n = 415)、皮肤黑色素瘤 (SKCM,n = 470)、肾乳头状细胞癌 (KIRP,n = 290)、肾嫌色细胞癌 (KICH,n = 66)、结肠腺癌 (COAD,n = 458) 和前列腺腺癌 (PRAD,n = 497) 中进行了分析。 ◉ 选取肿瘤纯度 ≥60% 的样本(实心颜色)进行分析,由于缺乏纯度数据,排除了 MESO 和 STAD 样本。 ◉ 对患者间的 NJ 频率 (PSR) 进行了分析,其中公共 NJ 被定义为 PSR ≥10%(红线)。 ◉ 按肿瘤类型统计了每例样本中检测到的公共 NJ 的总数(d)和 log2[读段频率](e)(COAD,n = 265;GBM,n = 391;KICH,n = 773;KIRP,n = 247;LGG,n = 327;LIHC,n = 173;LUAD,n = 175;LUSC,n = 555;MESO,n = 277;PRAD,n = 245;SKCM,n = 353;STAD,n = 1,433)。 ◉ 根据剪接类型对公共 NJ 进行分类:3′ 或 5′ 剪接位点的外显子丢失 (A3 或 A5 丢失 (A3−; A5−))、3′ 或 5′ 剪接位点的内含子获得 (A3 或 A5 获得 (A3+; A5+))、外显子跳跃 (ES)、外显子内的连接、内含子内的连接和其他类型(f),以及框移 (FS) 状态(g);IF 表示同框。 ◉ 所有泛癌症范围的 NJ 在所有研究的 TCGA 肿瘤类型中的表达情况(log2[每百万计数 (CPM)])。 ◉ 更多的统计细节见补充表 3。图 a 使用 BioRender 创建(致谢:D.W.K.,https://BioRender.com/k09l557;2024 年)。

NJs exhibit ITH

Para_01
  1. 为了减少因抗原异质性导致的免疫逃逸,我们需要针对整个肿瘤中共有的多个新抗原。
  2. NJ(新表位)能够产生免疫原性抗原,因此提供了一个有前景的方向。
  3. 我们分析了来自前列腺、肝脏、结肠、胃、肾脏和肺部癌症的肿瘤内 RNA-seq 数据,以评估公共 NJ 的空间保守性。
  4. 这揭示了许多患者在多个肿瘤内样本中一致表达的公共 NJ。
  5. 结果表明,在许多患者中,公共 NJ 在多个肿瘤内样本中稳定表达。

Fig. 2: A subset of NJs are expressed tumour-wide.

- 图片说明

◉ a,使用来自多种肿瘤内区域的RNA-seq数据对不同癌症类型进行全肿瘤范围的NJ特征概述。S1至S6表示每名患者分离样本的示例编号。 ◉ b,热图表示COAD、KICH、LIHC和STAD中五个肿瘤内区域的NJ(行)的log2[CPM],其中全肿瘤范围的NJ以黄色突出显示。 ◉ c,热图展示了LIHC(左)、PRAD(中间)和MESO(右)中具有可检测NJ表达(行)的肿瘤内区域比例。每一列代表一名患者。 ◉ d,患者470的三维大脑和肿瘤(黄色)模型。每个肿瘤中大约采集了10个空间映射且距离最远的活检样本(蓝色)(参见补充视频1)。 ◉ e,胶质瘤亚型间NJ(行)表达的热图:IDHwt(蓝色)、IDHmut-A(黄色)和IDHmut-O(红色)。各列代表患者,细胞强度表示每个NJ在肿瘤内区域中的表达百分比。 ◉ f,g,使用条形图(f)和整体组成图(g)展示胶质瘤中的NJ异质性(n=789)。NJ被分类为:全肿瘤范围(100%肿瘤内区域,红色)、高度保守(>70%,橙色)、中度保守(>30%到≤70%,黄色)或弱保守(≥1个区域但≤30%,绿色)。在f中,数据以箱线图表示,其中中位线代表第50百分位数。进一步的统计细节见补充表3。 ◉ a,在BioRender中创建(致谢:D.W.K.,https://BioRender.com/h58s281;2024)。

Para_02
  1. 广泛的肿瘤内异质性(ITH)在胶质瘤中很常见,进一步使免疫治疗复杂化。
  2. 为了深入研究ITH,我们增加了对三种主要胶质瘤亚型的瘤内活检样本分析数量。
  3. 大约从51例胶质瘤病例中分析了最多10个空间映射的最大距离样本,这些样本具有外显子组和RNA-seq数据(图2d和扩展数据图2d–h),以检测多个患者瘤内的新基因融合事件(NJ)。
  4. 从一个样本迭代到十个样本时,普遍表达的新基因融合事件数量与样本数量呈负相关(扩展数据图2f–h)。
  5. 这些结果强调了对每个肿瘤进行多部位活检采样的关键需求,以便更可靠地将新基因融合事件表征为全肿瘤特征。
Para_03
  1. 对我们庞大的肿瘤内数据集进行分层聚类分析显示,NJ亚群与异柠檬酸脱氢酶突变(IDHmut)或野生型(IDHwt)亚型相关(图2e)。
  2. IDHmut胶质瘤相较于IDHwt胶质瘤表现出显著更多的肿瘤广泛性NJ。
  3. 尽管肿瘤广泛性NJ不如亚克隆表达的NJ常见(图2f),但在45名(88.2%)患者中至少检测到一个肿瘤广泛性NJ(图2g),其中13名(25.5%)患者表达了超过50个肿瘤广泛性NJ(扩展数据图2d)。
  4. 在我们的数据集中,大多数TCGA表征的低级别胶质瘤(LGG)和胶质母细胞瘤(GBM)中的NJ(774个;98.1%)可以在多于一个肿瘤区域中检测到,但仅有37个(4.7%)NJ存在于超过10%研究队列的所有样本中(扩展数据图2e)。
  5. 这些结果表明,尽管公共NJ在多个肿瘤区域中表达,但它们并非普遍存在于整个肿瘤中。
  6. 结合NJ可能实现对整个肿瘤景观的靶向。
Para_04
  1. 接下来,我们分别对转移和复发过程中空间和时间上保守的 NJs 进行了表征。
  2. 对公共皮肤黑色素瘤(SKCM)RNA-seq 数据的分析显示,在至少一名患者中,有 13 个(9.6%)NJ 在转移位点表达(扩展数据图 2c)。
  3. 在 TCGA 的匹配原发-转移对中,结肠腺癌、前列腺腺癌和 SKCM 癌症中,43.8% 到 72.6% 的 NJ 在原发肿瘤中被识别并在转移中持续存在(扩展数据图 2i)。
  4. 同样,在 TCGA 的结肠腺癌、胶质母细胞瘤(GBM)、低级别胶质瘤(LGG)、肝细胞癌(LIHC)和肺腺癌(LUAD)癌症的原发-复发对中,平均有 36.4% 的 NJ 在复发时得以保留(扩展数据图 2j)。
  5. 在我们的胶质瘤数据集中,经替莫唑胺治疗后,79.2% 和 82.3% 的 NJ 分别在超突变和非超突变胶质瘤复发时得以保留(扩展数据图 2k)。
  6. 总体而言,这些发现表明 NJ 可以在空间和时间背景下持续存在。

Tumour subtype factors drive NJ expression

Para_01
  1. 亚型特异性的 NJ 表达(图 2e)促使我们研究可能导致这些模式的剪接机制失调。
  2. 尽管先前的研究表明 IDH 突变可能引发剪接异常,但我们的研究揭示了更多的复杂性。
  3. 在 TCGA 和我们的空间映射数据集中,IDH 突变型胶质瘤每例病例中的公共 NJ 数量显著多于 IDH 野生型胶质瘤(图 3a,b)。
  4. 在 IDH 突变亚型中,少突胶质细胞瘤(IDHmut-O)的 NJ 表达高于星形细胞瘤(IDHmut-A)(图 3c,d)。
  5. 我们进行了成对的皮尔逊相关性分析,以探讨 NJ 表达是否与常见 RNA 剪接因子中的体细胞突变相关(扩展数据图 3a–c)。
  6. FUBP1、SF3A1 和 NIPBL 突变与 IDH 突变高度相关,并且 FUBP1 突变在 IDH 突变型少突胶质细胞瘤中尤为普遍。
  7. 尽管如此,在 NJs 和 FUBP1、SF3A1 或 NIPBL 突变状态之间未观察到显著聚类(扩展数据图 3d–i)。

Fig. 3: Tumour subtypes demonstrate differential NJ expression.

- 图片说明

◉ a,b 左侧为密度图,右侧为箱线图,显示了在TCGA胶质母细胞瘤(GBM)和低级别胶质瘤(LGG)中表达的假定新剪接位点(NJ)总数,分为IDH突变型(橙色)和IDH野生型(绿色)病例(IDH野生型,n=166;IDH突变型,n=263;a),以及空间映射的GBM和LGG数据(IDH野生型,n=258;IDH突变型,n=277;b)。 ◉ c,d 直方图和箱线图描绘了在TCGA GBM和LGG中IDH野生型(蓝色)、IDH突变型A(黄色)和IDH突变型O(红色)中的NJ计数(c),以及内部GBM和LGG数据集中的相应计数(d)。 ◉ e,f 火山图展示了显著上调(P<0.05且标准化富集评分NES>1,蓝色)和下调(P<0.05且NES ◉ 研究了基因本体论生物过程(GOBP,e)和基因本体论细胞组分(f)基因集。与剪接相关的基因集以黄色标记。 ◉ g,h 箱线图描述了来自GOBP集合中具有显著(P<0.05)log2[倍表达差异]的剪接相关基因的log2[RSEM(基于期望-最大化算法的RNA-seq)]:在与IDH野生型病例(蓝色)相比时,IDH突变型A(黄色)和IDH突变型O(红色)病例之间增加(log2[倍增]≥1.5,g)或减少(log2[倍减]≤1.5,h)的情况。 ◉ i,k 在IDH突变型O(z轴)、IDH突变型A(y轴)和IDH野生型(x轴)病例中,特定于胶质瘤的新剪接位点(NJ)与CELF2(i)、SNRPD2(k,左侧)和SF3A3(k,右侧)之间的皮尔逊相关性。突出显示了相关性≥0.10(紫色)或≤-0.10(黄色)的NJ,并分析了NJACAP2(i,k(左侧))和NJPEA15(k,右侧)。 ◉ j,l 在转导了dCAS9-KRAB和对照单引导RNA(sgRNA;n=6)的低级别胶质瘤(LGG,SF10417;j)或胶质母细胞瘤(GBM,GBM115;l)细胞系中评估了剪接相关基因的表达,包括CELF2 sgRNA(j)、SNRPD2 sgRNA(l,左侧,n=3)或SF3A3 sgRNA(l,右侧,n=3)。 ◉ m,n 左侧为箱线图,右侧为热图,显示了每种病例的NJ表达及iCluster亚型(C)间Wilcoxon秩和检验结果,分别在TCGA肝细胞癌(LIHC,iCluster 1,n=65;iCluster 2,n=55;iCluster 3,n=63)(m)和肺腺癌(LUAD,iCluster 1,n=26;iCluster 2,n=19;iCluster 3,n=47;iCluster 4,n=31;iCluster 5,n=18;iCluster 6,n=61)(n)中。补充表3提供了进一步的统计细节。NS表示不显著; P<0.01; P<0.001; ***P<0.0001。

Para_02
  1. 单个剪接因子的失调可能导致异常剪接。
  2. 为了研究胶质瘤亚型特异性 NJ 表达的可能驱动因素,我们评估了 TCGA 中三种胶质瘤亚型中差异表达的剪接相关基因集(扩展数据图 4a、b 和补充表 1)。
  3. 基因集富集分析发现,在 GOBP(图 3e)和基因本体细胞组分数据库(图 3f)中,与 IDHwt 胶质瘤相比,IDHmut 胶质瘤中显著上调的剪接相关基因。
  4. 根据 NJ 表达进行排序时,两种 IDHmut 肿瘤亚型中高表达的剪接相关基因大多聚集在一起,这表明它们在驱动亚型特异性 NJ 产生方面具有作用(扩展数据图 4c–e)。
Para_03
  1. 为了研究驱动 IDH 突变型胶质瘤中 NJ 表达增加的剪接相关基因(图 3g,h),我们选择了 GOBP 剪接相关基因(n = 24),这些基因在 IDH 突变型病例中相对于野生型显示出显著(P < 0.05)1.5 倍的表达增加(图 3g)。
  2. 值得注意的是,先前有报道称 CELF2 过表达时会产生剪接异常。
  3. 通过将 CELF2 的表达与所有 789 个公开的 NJ 的表达进行相关性分析,发现随着所有胶质瘤亚型中 CELF2 表达水平的增加,NJ 表达通常增加的比例更大(平均皮尔逊相关系数 > 0.10)(图 3i)。
  4. 在 789 个 NJ 中,359 个(45.5%)随着 CELF2 的表达而增加,而 81 个(10.3%)与 CELF2 的表达呈负相关。
  5. 我们在患者来源的 IDH 突变型细胞系中进行了 CRISPRi 介导的(扩展数据图 5a)和小干扰 RNA(siRNA)介导的(扩展数据图 5b,c)CELF2 敲低,并研究了 NJACAP2(与 CELF2 最高相关的 NJ)的表达变化(图 3i)。
  6. 通过 CRISPRi 介导的 CELF2 敲低,我们观察到 NJACAP2 的表达水平显著下降(图 3j),而 siRNA 介导的敲低显示 NJACAP2 表达减少的趋势(扩展数据图 5d)。
  7. 我们表征了 244 个在 IDH 突变型胶质瘤病例中相对于 IDH 野生型显著上调的 NJ(log2[倍数变化] > 1.5,P 值 < 0.05),其中一部分在其他 TCGA IDH 突变型癌症类型中被检测到(扩展数据图 5e)。
  8. RNA 测序分析表明,在 CELF2 敲低后,少突胶质细胞瘤(SF10417)和星形细胞瘤(SF10602)细胞中分别有 19 个(8.6%)和 28 个(12.7%)IDH 突变型相关 NJ 的表达水平降低,与未处理对照组相比(扩展数据图 5f)。
  9. 观察到候选 IDH 突变型 NJ 的表达水平随着 IDH 突变型相关剪接基因表达的增加而呈现相关性增加(扩展数据图 5g)。
  10. 这些发现表明,NJ 的普遍存在受到肿瘤亚型中 RNA 结合蛋白表达改变的调控,调节这些基因可以改变 NJ 水平。
Para_04
  1. 重新审视与GOBP剪接相关的基因集(扩展数据图4c–e)揭示了在IDHmut-O病例中显著下调的基因亚簇。
  2. 这些簇中的大多数基因位于1p或19q染色体上,这两者的共缺失是IDHmut-O胶质瘤的一个独特诊断特征。
  3. 为了评估这种下调是否导致IDHmut-O病例中假定的NJ表达水平的特征性增加,我们选择了GOBP剪接相关基因(n = 26),这些基因在IDHmut-O病例中相对于IDHmut-A和IDHwt病例表现出显著(P < 0.05)1.5倍的表达下降(图3h)。
  4. 在这些剪接基因中,先前已报道正常SNRPD2和SF3A3表达的破坏会导致剪接异常。
  5. 对SNRPD2和SF3A3表达与所有胶质瘤亚型中789个NJ表达的相关性分析支持我们的假设,即SNRPD2和SF3A3表达水平的降低可能促进NJ表达(图3k)。
  6. 在789个NJ中,385个(48.8%)随着SNRPD2水平的降低而表达增加,而93个(11.8%)NJ随着SNRPD2水平的升高而倾向于表达增加。
  7. 类似地,随着SF3A3表达水平的降低,178个(22.6%)NJ倾向于表达增加,而127个(16.1%)NJ倾向于表达减少。
  8. 我们研究了与SNRPD2和SF3A3表达最强负相关的两个NJ,NJACAP2和NJPEA15(图3k),是否可能与这些剪接因子的表达存在因果关系。
  9. 值得注意的是,在含有两份1p和19q染色体的GBM115细胞系中,无论是通过CRISPRi还是siRNA敲低SNRPD2或SF3A3,都会分别显著增加NJACAP2或NJPEA15的水平(图3l和扩展数据图5d)。
  10. GBM115细胞经SNRPD2或SF3A3 siRNA敲低处理后的RNA-seq分析显示,NJACAP2或NJPEA15的表达水平也分别有类似的增加(扩展数据图5h)。
  11. 我们还表征了52个在IDHmut-O胶质瘤病例中相对于IDHmut-A和IDHwt胶质瘤显著上调的IDHmut-O相关NJ(log2[倍数变化] > 1.5,P值< 0.05)。
  12. 在接受SF3A3或SNRPD2 siRNA处理的GBM115细胞中,分别观察到7个(13.5%)和4个(7.7%)IDHmut-O相关NJ的表达水平增加(扩展数据图5i)。
  13. 尽管先前的研究将剪接因子突变与癌症中的NJ联系起来,但我们的结果揭示了一种此前未被描述的机制,即野生型剪接因子表达的减少可以驱动NJ形成。
  14. 这些发现表明,胶质瘤中常见的RNA剪接机制成分与NJ表达增加之间存在机械关联。
Para_05
  1. 最后,我们将分析扩展到本研究中使用的其他 TCGA 癌症类型,以识别 NJ 表达显著失调的肿瘤亚型。
  2. 尽管在黑色素瘤 (SKCM)、肾乳头状细胞癌、肾嫌色癌和前列腺腺癌中,NJ 表达相对保持一致(扩展数据图 5j–m 和补充表 2),但在 TCGA 肝癌 (LIHC) 的 iCluster 3 和 TCGA 肺腺癌 (LUAD) 的 iCluster 6 中,NJ 表达与其他 iCluster 亚型相比显示出显著差异(图 3m,n)。
  3. 对六个 LUAD iCluster 亚型的基因集富集分析显示,与剪接相关的基因通路表达水平降低。
  4. 值得注意的是,与所有其他 5 个 iCluster 亚型相比,LUAD iCluster 6 中有 23 个与剪接相关的基因集持续下调。
  5. 这些结果共同表明,除了剪接因子突变外,经典剪接相关基因的表达失调也可能导致疾病特异性 NJ 的产生。

Public NJ-derived RNA and peptides are detectable

Para_01
  1. 接下来,我们在细胞系转录组和肿瘤组织蛋白质组数据中验证了公共新剪接位点(NJ)及其蛋白产物的表达,重点关注胶质瘤,因为其具有高度的肿瘤内异质性(ITH)和较差的预后。
  2. 利用来自GBM患者(n = 66)的异种移植RNA-seq数据和LGG细胞系(n = 2)的数据,我们分别在GBM和LGG中检测到767个(97.2%)和510个(64.6%)公共新剪接位点(Extended Data Fig. 6a,b)。
  3. 为克服批量RNA-seq的局限性,我们设计了跨越部分新剪接位点及其邻近外显子的引物,进行了深度扩增子测序,并确认了胶质瘤细胞系中新剪接位点跨越读段的mRNA表达(Extended Data Fig. 6c)。
Para_02
  1. 为了确定NJ是否被翻译成蛋白质,我们使用公开可用的质谱数据集分析了447名胶质瘤患者的质谱(MS)数据。
  2. 这一步识别出了映射到302个(38.3%)独特公共NJ的新肽段(扩展数据图6d)。
  3. 我们通过在质谱数据中进行序列特异性搜索并分析生成的质谱图,确认了这些肽段序列跨越异常剪接区域(扩展数据图6e,f)。
  4. 值得注意的是,41.7%的检测到的肽段映射回导致移码突变的NJ上(扩展数据图6g),这表明引发移码突变的剪接异常可以产生可检测的翻译肽段。
  5. 总体而言,我们的肽组分析确定了编码NJ的转录本被积极翻译为蛋白质产物。
  6. 结合RNA-seq和质谱结果,我们选择了192个(24.3%)在所有患者来源样本中表达的公共NJ进行后续研究(扩展数据图6h)。
  7. 这些发现强调了公共NJ的反复出现特性及其在生成肿瘤特异性肽中的作用。

Tumour-wide NJs encode presentable neoantigens

Para_01
  1. 我们推测,一部分翻译后的NJ可以产生作为可靶向新抗原呈现的肽段。
  2. 为了验证这一点,我们评估了这789个已表征的公共NJ是否能够在蛋白酶体处理后生成加载到HLA I类分子上的肽段。
  3. 来自TCGA的NJ衍生序列被通过计算机模拟翻译生成了一个NJ衍生蛋白数据集。
  4. 通过遍历所有可能的8到11个氨基酸长度的n碱基多肽(扩展数据图6i),我们将肿瘤特异性的n碱基多肽定义为那些不存在于UniProt参考正常人类组织蛋白质组数据集中的多肽。
Para_02
  1. I类HLA呈递肽段的预测需要结合抗原呈递机制的关键方面,包括肽段处理和HLA结合。
  2. 为此,我们整合了两种独立的预测算法,MHCflurry 2.0 和 HLAthena,以识别新表位序列。
  3. 候选的n碱基多肽根据其与最常见的HLA-A等位基因的结合潜力进行排名。
  4. 在36个主要的HLA-A等位基因中,我们的分析研究了由HLA-A 01:01、HLA-A 02:01、HLA-A 03:01、HLA-A 11:01和HLA-A*24:02呈递的新抗原候选物的可能性。
  5. 这些等位基因共同表达在全球大部分人群中。
  6. 高结合靶点被定义为在两种算法中均排名前1%的n碱基多肽。
  7. 保留产生这些得分的候选n碱基多肽(n=832)用于下游分析。
  8. 当这些顶级候选物映射回它们的来源NJ时,315个编码新肽段的NJ(NEJ;最初鉴定的公共NJ的39.9%)产生了包含这些顶级候选n碱基多肽的癌症特异性肽段。
  9. 尽管更多的顶级得分n碱基多肽候选物来源于移码突变和替代外显子3'剪接位点,但所有类型的移码和突变类型中的呈递得分仍然相对一致。
  10. 将315个NEJ与192个转录组学和蛋白质组学验证的NJ交叉比对后,得到81个NEJ,其中许多编码多个强预测候选物。
  11. 我们专注于32个候选NEJ,这些NEJ被预测能强烈结合HLA-A*02:01,因为该等位基因在北美和欧洲人群中具有高流行率,并且能够与其他新抗原研究进行基准比较。
  12. 在空间映射样本中检查这32个NEJ的ITH显示,大多数NEJ在肿瘤内高度保守,特别是位于GNAS中的NEJ(NEJGNAS),它编码一个A3丢失两个核苷酸的事件。
  13. 这些发现表明,肿瘤内保守的公共NEJ可能生成HLA呈递的新肽段。

Identification of NEJ-reactive TCRs

Para_01
  1. 接下来,我们试图确定 NEJ 来源的新肽段是否能够驱动 T 细胞反应。
  2. 我们进行了体外致敏(IVS),以从健康供者来源的外周单核细胞(PBMCs)中鉴定出对新抗原反应的 CD8+ T 细胞群体(图 4a)。
  3. 我们初步分析的重点放在了预测能生成高亲和力结合 HLA-A*02:01 的 32 个顶级 NEJ 候选物中的一个子集(n = 4)上(扩展数据图 6k–m)。
  4. 因此,我们针对从 HLA-A*02:01+ 健康供者(n = 5)收集的自体单核细胞衍生树突状细胞进行新肽脉冲处理,对幼稚 CD8+ T 细胞进行了 IVS,以获取对这些新抗原具有特异性的 TCR 基因序列。
  5. 随后在相应的抗原呈递细胞(APC)和 CD8+ T 细胞(APC:CD8+)条件下进行的干扰素-γ(IFNγ)酶联免疫吸附试验(ELISA)显示,在四个公共 NEJ 来源的新抗原中有两个表现出新抗原反应性:NeoARPL22 和 NeoAGNAS(图 4b)。
  6. 这两个新抗原均可在公开可用的质谱数据中检测到(扩展数据图 6e,f)。
  7. NeoAGNAS 导致 A3 丢失两个核苷酸,产生移码突变和提前终止密码子。
  8. NeoARPL22 编码了一个框内 A3 丢失六个核苷酸的情况,导致 α-螺旋中丢失两个氨基酸(扩展数据图 7j)。
  9. 这些结果还表明,针对 NEJ 的 CD8+ T 细胞可以存在于自然发生的人类 T 细胞库中。

Fig. 4: TCRs specifically react to NEJ-derived neoantigens.

- 图片说明

◉ 通过从健康供体的PBMCs中分离出的CD8+ T细胞对APC呈递的新抗原肽进行体外刺激(IVS),以识别对NEJ衍生新抗原有反应的T细胞群的流程概览。 ◉ 在使用新抗原进行IVS后,对反应性CD8+ T细胞群进行IFNγ ELISA检测(n = 3)。 ◉ 10× V(D)J测序显示与新抗原脉冲的T2细胞共培养的高度增殖的TCR克隆型的IFNG特征,以及对照肽(浅灰色)或无肽(深灰色)处理的对比。供体3(左)和供体4(中间和右)中针对NeoARPL22和NeoAGNAS反应的特定TCR克隆型被突出显示。 ◉ 分析供体3(左)和供体4(中间和右)的CD8+ T细胞在IVS后针对NeoARPL22或NeoAGNAS的TCR克隆型频率。新抗原反应性的TCR克隆用文字标记。 ◉ 针对NeoAGNAS(顶部)和NeoARPL22(底部)特异性的TCR转导PBMC来源的CD8+ T细胞以剂量依赖的方式激活新抗原脉冲的T2细胞。TCR转导的细胞还与最高剂量浓度(1 μM)下控制肽脉冲的T2细胞共培养。PBMC来源的CD8+ T细胞用CD107a和CD137抗体染色,并通过流式细胞术分析TCR共激活标志物的表面表达。流式分析中检测到的激活(CD107a和CD137抗体染色)CD8+ T细胞的百分比由框内的数字表示。 ◉ 针对NeoAGNAS反应性(顶部)和NeoARPL22反应性(底部)的TCR转导CD8+ T细胞与剂量依赖的新抗原(neo)脉冲(左)和对照肽脉冲的T2细胞(右)共培养后的IFNγ ELISA结果(n = 3)。 ◉ 针对NeoAGNAS特异性(顶部)和NeoARPL22特异性(底部)的TCR转导三重报告基因Jurkat76细胞分别与未脉冲T2细胞(左)、0.1 μM新抗原脉冲T2细胞(中)或用泛HLA I类阻断抗体处理的0.1 μM新抗原脉冲T2细胞(右)共培养。细胞用CD3抗体染色,并通过NFAT–GFP活性评估TCR激活情况。流式分析中检测到的CD3+和NFAT-GFP+ TR Jurkat76细胞的百分比由框内的数字表示。 ◉ 来自HLA-A*02:01健康供体(左)和胶质瘤患者(右)的大批量CD8+ T细胞在两轮NeoAGNAS IVS后进行NeoAGNAS-dextramer染色。更多的统计细节见补充表3。图a由BioRender创建(致谢:D.W.K., https://BioRender.com/z79j394; 2024)。

Para_02
  1. 为了获取对这些新抗原具有反应性的 TCR 基因序列,我们对 NeoARPL22 和 NeoAGNAS 反应性的 CD8+ T 细胞群体重复了肽脉冲 APC:CD8+ T 细胞共培养,并进行了联合单细胞 V(D)J 和 RNA 测序。
  2. 新抗原反应性的 TCR 克隆型与显著升高的 IFNG、TNFA 和 GZMB 转录本水平相关,这种升高以新抗原肽特异性方式表现。
  3. 通过这种方法,我们鉴定了七个 NeoARPL22 反应性 TCR,其中两个来自供体 3(TCRR3.7 和 TCRR3.9),五个来自供体 4(TCRR4.5、TCRR4.6、TCRR4.7、TCRR4.9 和 TCRR4.11),以及一个来自供体 4 的 NeoAGNAS 反应性 TCR(TCRG4.1;图 4c)。
  4. 尽管仅表征了一个 NeoAGNAS 反应性 TCR 克隆型,但该克隆型是增殖最多的 TCR 克隆,扩展至 CD8+ T 细胞群中 TCR 库的超过 4%(图 4d)。
  5. 新抗原反应性 CD8+ T 细胞克隆的扩增表明这两种新抗原具有强烈的免疫原性成分。

NEJ-reactive TCRs recognize HLA-presented neoantigens

Para_01
  1. 为了确定已鉴定的TCRR3.9和TCRG4.1反应性T细胞克隆的肽特异性反应性,我们将TCR-null三重报告基因(TR)Jurkat76细胞(表达CD8α–CD8β异二聚体的Jurkat76/CD8细胞)或来源于PBMC的CD8+ T细胞用携带回收的TCR α-和β链的慢病毒载体转导。
  2. TR Jurkat76/CD8细胞含有响应NFAT、NF-κB和AP-1的反应元件,分别驱动eGFP、CFP和mCherry的表达。
  3. 用不同浓度的新抗原肽脉冲处理的T2细胞与TCR转导的TR Jurkat76细胞共培养,显示了剂量依赖性的反应性。
  4. 两种TCR均表现出纳摩尔水平的新抗原识别能力,表明相应TCR具有相对较高的功能亲和力。
  5. 在超生理浓度的对照肽(1 μM)存在时,这些受体显示出可忽略不计的TCR激活,支持其抗原特异性。
  6. TCR转导的来源于PBMC的CD8+ T细胞表现出类似的剂量依赖性新抗原特异性行为。
  7. TCR转导的CD8+ T细胞通过检测表面表达的T细胞活化和脱颗粒标志物CD137和CD107a,分别量化T细胞活化和效应功能的标志物。
  8. 在低至1 pM的新抗原肽浓度下即可观察到T细胞活化。
  9. 类似地,通过ELISA测量的IFNγ和肿瘤坏死因子(TNF)表达水平表明,这两种TCR的半最大有效肽浓度(EC50值)在0.01至0.1 nM之间,显示了其强效性。
  10. 在与TCR转导的TR Jurkat76细胞共培养之前,用HLA阻断抗体处理新抗原脉冲的T2细胞验证了新肽段T细胞活化是HLA依赖性的。
Para_02
  1. 接下来,我们进行了丙氨酸扫描诱变,以确定这两种针对NEJ的反应性TCR是否能够识别来自非靶向正常人类蛋白质的多肽。
  2. 将TCR转导的三重报告基因Jurkat76/CD8细胞与残基替代的新生抗原异构体共同培养,并将导致TCR活化减弱的关键残基定义为关键残基。
  3. 变异多肽识别的变化表明,被替代的残基对于TCR识别至关重要。
  4. 将每种TCR的多肽识别基序与正常人类蛋白质组库(UniProt蛋白质组ID:UP000005640)进行比对,结果显示没有已知的人类蛋白质共享TCR识别所需的关键残基。
  5. 我们的结果共同揭示了能够以高度敏感性识别NEJ衍生公共新生抗原的TCR,并强调了一种潜在的免疫治疗策略,即利用TCR工程化的T细胞靶向这一类新的共享新生抗原。
Para_03
  1. 最后,使用来自表达 NEJGNAS 的 HLA-A*02:01+ 胶质瘤患者的外周血单核细胞 (PBMCs)(扩展数据图 6m),我们测试了是否自然存在针对 NEJ 的 CD8+ T 细胞反应。
  2. 用 NEJGNAS 对整体 PBMC 样本进行短期体外刺激 (IVS),在三名胶质瘤患者中的一名检测到反应,而对无关的 HLA-A*02 限制性新抗原 dextramer 对照则无免疫原性(图 4h)。
  3. 这些结果进一步支持了靶向 NEJ 源性新抗原的免疫原性和潜在临床应用。

NEJ-derived neoantigens are processed and HLA-presented

Para_01
  1. 接下来,我们测试了NEJ衍生的转录本是否生成由HLA功能性呈递并被反应性TCR识别的肽段。
  2. 我们使用两种方法评估了NEJ衍生的新抗原的呈递:功能性TCR识别和随后结合液相色谱与串联质谱(LC-MS/MS)分析的HLA免疫沉淀(Fig. 5a)。
  3. 为了确定NEJ转录本表达是否导致免疫识别,我们将转染了HLA-A2和全长突变转录本的COS-7细胞与TCR转导的TR Jurkat76或CD8+ T细胞共同培养。
  4. TCRR3.9和TCRG4.1转导的TR Jurkat76及CD8+ T细胞对转染了相应新抗原的COS-7细胞表现出反应,这表明内源性加工和呈递公共NEJ(Fig. 5b,c)。
  5. 随后,我们在共转染了HLA和突变NEJ转录本的COS-7细胞上进行了基于亲和柱的HLA-I配体免疫纯化。
  6. 质谱分析鉴定出NeoAGNAS肽段为高丰度且高置信度的HLA-A2结合肽段。
  7. 同样,在共转染了HLA-A*02:01和NEJRPL22的COS-7细胞上检测到了两种NeoARPL22新抗原肽段,其中得分较高的九氨基酸NeoARPL22多肽相对丰度更高(Fig. 5d)。
  8. 此外,我们还在未修饰的胶质母细胞瘤细胞系(GBM115)中检测到了HLA-A*02:01限制性的NeoAGNAS肽段(Fig. 5e)。
  9. 这一结果表明,肿瘤细胞中生理水平的NEJ表达足以生成NEJ衍生的新抗原。
  10. 综上所述,这些实验观察结果验证了我们对蛋白酶体加工和HLA结合的计算机预测(Extended Data Fig. 6l)。

Fig. 5: NEJ-derived neoantigens elicit TCR-mediated tumour-specific killing through HLA presentation.

- 图片说明

◉ 用于验证内源性蛋白酶解切割及其后续 HLA 呈递的管道概述。HLA 空白抗原呈递细胞(COS-7)通过电穿孔转染编码全长(FL)突变蛋白或新抗原 n-碱基多肽以及 HLA-A 02:01 的 mRNA。通过流式细胞术使用新抗原特异性 TCR 转导的三重报告基因 Jurkat76 或 CD8 细胞量化 TCR 激活。通过免疫沉淀结合串联质谱验证 HLA-I 结合的肽。 ◉ b,c, NFAT–GFP 流式细胞术结果显示与表达突变 n-碱基多肽序列和 HLA-A 02:01 的 COS-7 细胞共培养的 NEJGNAS 特异性(b)和 NEJRPL22 特异性(c)三重报告基因 Jurkat76 细胞的 TCR 激活情况,还包括表达全长突变基因和 HLA-A 02:01(右侧),或两者均不表达(左侧)的情况。流式分析中检测到的 CD3+ 和 NFAT-GFP+ TR Jurkat76 细胞的百分比在图中标明为数字。 ◉ d,e, 质谱确认转染的 COS-7 细胞(d)和未转染的 GBM115 肿瘤细胞(e)中 HLA-A02:01 结合的 NEJGNAS 来源(d 上方、e)和 NEJRPL22 来源(d 下方)的新抗原。f, 使用 xCELLigence 分析法评估 NEJGNAS 来源(左侧;彩色)、NEJRPL22 来源(右侧;彩色)新抗原特异性 TCR 转导的 CD8+ T 细胞(n = 3)、非转导的 CD8+ T 细胞(灰色)或无 CD8+ T 细胞(黑色)对 GBM115 细胞的细胞毒性杀伤作用。肿瘤细胞死亡显示为细胞指数的降低,T 细胞可以杀死未经处理和肽脉冲的肿瘤细胞。TCR 转导的 CD8+ T 细胞与未经处理(红色)或用 0.1 μM 相应新抗原肽脉冲(蓝色)的 GBM115 肿瘤细胞共培养。 ◉ g, CD8+ T 细胞与用抗 HLA-I 抗体(黄色,n = 3)、同型对照抗体(紫色,n = 3)或 1 nM 新抗原肽(蓝色,n = 3)孵育的 GBM115 肿瘤细胞共培养的 xCELLigence 实时细胞毒性分析。NEJGNAS 特异性(左侧)和 NEJRPL22 特异性(右侧)CD8+ T 细胞对抗 GBM115。 ◉ h, HLA-A 02:01 缺失的亲代 GBM39 细胞(左侧)或 HLA-A*02:01 转导的 GBM39 细胞(右侧)与非转导或 NEJGNAS-TCR 转导的 CD8+ T 细胞共培养的 xCELLigence 实时细胞毒性分析(n = 3)。i, ELISA 检测 NEJGNAS 特异性(紫色)或非转导(灰色)CD8+ T 细胞与肿瘤细胞系共培养时分泌的颗粒酶 B(n = 3)。更多的统计细节见补充表 3。a, 在 BioRender 中创建(信用:D.W.K., https://BioRender.com/x48d520; 2024)。

NEJ-specific T cells mediate tumour cytotoxicity

Para_01
  1. 基于我们所识别的新生抗原特异性 TCR 的敏感性(图 4e)以及内源性 NEJ 衍生新生抗原的呈递(图 5e),我们假设表达公共 NEJ 的肿瘤细胞会对 TCR 转导的 T 细胞的细胞毒作用敏感。
  2. 我们评估了 TCR 转导的 CD8+ T 细胞对内源性表达 NEJRPL22 和 NEJGNAS 的 HLA-A*02:01+ 肿瘤细胞的细胞毒性。
  3. 作为阳性对照,我们使用了新生抗原肽脉冲的肿瘤细胞来定义最大细胞杀伤效果。
  4. 在效应细胞/靶细胞比例为 1:1 时,TCRR3.9 和 TCRG4.1 转导的 CD8+ T 细胞介导了针对 GBM115 细胞的 TCR 依赖性细胞毒性(图 5f)。
  5. TCRG4.1 转导的 CD8+ T 细胞对另一条 GBM 细胞系 GBM102 以及两条黑色素瘤细胞系 RPMI-7951 和 WM-266-4 表现出相似水平的肿瘤杀伤作用(扩展数据图 10a)。
  6. 加入 HLA-I 阻断抗体后,与同型对照相比,部分阻断了杀伤作用,验证了肿瘤细胞杀伤是由 TCR 对 HLA–肽复合物的识别引发的(图 5g)。
  7. 将 TCRG4.1 转导的 CD8+ T 细胞与一条 HLA-A2−、表达 NEJGNAS 的 GBM 细胞系(Mayo,患者来源异种移植,GBM39)共培养时,仅当转导编码 HLA-A*02:01 的基因时才观察到细胞毒性(图 5h)。
  8. 这些结果表明,NEJ 表达肿瘤细胞的识别和杀伤是由 HLA 依赖性新生抗原呈递介导的。
  9. 与未转导的 CD8+ T 细胞相比,TCR 转导的 CD8+ T 细胞与肿瘤细胞共培养后,CD137 的表面表达增加,进一步确认了新生抗原特异性 T 细胞的活化(扩展数据图 10b-d)。
  10. 值得注意的是,与未转导的 T 细胞条件相比,TCR 转导的 CD8+ T 细胞与肿瘤细胞共培养后,分泌的颗粒酶 B 水平显著升高(图 5i),这说明了我们观察到的新生抗原特异性细胞毒性的机制。
  11. 分泌的 IFNγ、白细胞介素-2(IL-2)和 TNF 水平升高进一步支持了新生抗原特异性 CD8+ T 细胞的活化(扩展数据图 10e-g)。
  12. 综上所述,这些数据表明 NEJs 在体内被加工并呈递到足够水平,从而能够使新生抗原特异性 CD8+ T 细胞介导肿瘤细胞毒性。

Discussion

Para_01
  1. 我们对多部位样本的案例分析表明,在同一肿瘤的多个样本中表达了 NEJGNAS 和 NEJRPL22。
  2. 最值得注意的是,NEJGNAS 在多种肿瘤类型中广泛表达,包括胶质瘤、间皮瘤、前列腺癌和肝细胞癌。
  3. 在 GBM 中发现一种可靶向的全肿瘤新抗原为治疗该疾病提供了一种新的潜在方法。
  4. 与 NEJRPL22 相比,NEJGNAS 的高检出率可能源于肿瘤中 GNAS 转录本的高水平表达,这增强了其免疫原性,并通过 TCRG4.1 实现了对肿瘤的特异性杀伤作用。
  5. 在一名 HLA-A*02:01+ 且肿瘤表达 NEJGNAS 的胶质瘤患者中检测到了循环的 NeoAGNAS 反应性 CD8+ T 细胞。
  6. 虽然在癌症患者中,自然呈递于 HLA 上的新抗原并不总是能产生可检测的 T 细胞反应,但一旦克隆到反应性 TCR,自体 T 细胞可以通过 TCR 重定向有效识别携带相关突变的肿瘤细胞。
Para_02
  1. 我们还研究了IDH突变型胶质瘤中与异常剪接相关的基因表达是否与IDH野生型胶质瘤相比,内含子保留(NJ)的产生增加有关。
  2. IDH突变在其他癌症中也很常见,包括急性髓系白血病、胆管癌、软骨肉瘤、鼻腔未分化癌和血管免疫母细胞性T细胞淋巴瘤。
  3. 我们的研究表明,在不同疾病类型中存在剪接因子表达的失调,并且这些异常可能导致内含子保留显著变化的产生。
  4. 对于IDH突变-O型,较低的SF3A3和SNRPD2表达水平可能分别归因于特征性的1p和19q染色体共缺失,而在1p和19q完整的细胞中进行靶向敲低则增加了内含子保留的表达。
  5. 这表明RNA剪接机制的组分在内含子保留生成中具有机制上的联系。
  6. 未来的研究通过识别和靶向与NEJGNAS和NEJRPL22表达相关的剪接相关基因,可能会提高其表达水平以改善治疗反应。
Para_03
  1. 尽管HLA-II类限制的新生抗原表位可以驱动CD4+ T细胞反应,但当前HLA-II结合预测的局限性使得我们无法在本研究中对其进行评估。
  2. 同样,由于发现表面结合的NJ来源新生抗原难以表征,我们的研究未对此进行调查。
  3. 我们以结合到HLA-A*02:01的新生肽作为概念验证的重点。
  4. 然而,未来的研究可以纳入预测结合到其他常见HLA-I类等位基因的候选者,以扩展可靶向新生抗原的库以及可能受益患者的多样性。
Para_04
  1. 对ITH最全面的分析(平均每个肿瘤内映射了10个样本)是使用胶质母细胞瘤(GBM)和低级别胶质瘤(LGG)样本进行的。
  2. 为了充分验证邻接跳变(NJ)及其相应的新生抗原在其他癌症类型中的全肿瘤特性,我们需要每个患者更大数量的肿瘤内位点,包括时间上的分布和广泛的解剖学分布,以最大程度地代表进化中的肿瘤。
  3. 最后,我们没有评估所研究的NEJs对恶性表型的生物学贡献。
Para_05
  1. 总之,我们的研究强调,RNA剪接异常是肿瘤内保守的公共肿瘤特异性抗原(TSA)的强大来源,这些抗原能够被免疫系统识别。
  2. 通过工程化T细胞靶向整个肿瘤范围的新生抗原,可以实现一种强有力的治疗策略,应对肿瘤异质性带来的重大临床挑战。
  3. 最终,我们的研究成果可以帮助我们设计有效的疫苗组合,包含整个肿瘤范围的新生抗原靶点,并开发基于T细胞的治疗模式,以靶向多种癌症类型中由剪接衍生的肿瘤抗原。

Methods

Human clinical datasets

人类临床数据集

Para_01
  1. 针对各种癌症类型的肿瘤内多区域采样队列使用了以下研究中的RNA-seq数据:本文,用于GBM和LGG的多区域采样;多区域采样肝细胞癌的数据来自文献24;多区域采样肝细胞癌、胃腺癌、肾细胞癌和结肠癌的数据来自文献23;多区域采样前列腺癌的数据来自文献22;多区域采样间皮瘤的数据来自文献29。
Para_02
  1. 如果 FASTQ 文件可用,我们将立即使用我们的 NJ 预测管道对多区域样本的 NJ 表达进行分析。
  2. 如果 RNA-seq 数据仅以 BAM 格式提供,则首先利用 Picard 软件(版本 2.7.7a)将测序文件转换为 FASTQ 格式。
  3. NJ 预测的详细内容参见方法部分的‘公共 NJs 的特征描述’一节。

Data download

数据下载

Para_01
  1. 下载了来自 TCGA 的胶质母细胞瘤(n = 167)、低级别胶质瘤(n = 516)、肺腺癌(n = 517)、肺鳞状细胞癌(n = 501)、间皮瘤(n = 516)、肝细胞癌(n = 371)、胃腺癌(n = 415)、肾透明细胞癌(n = 533)、肾乳头状细胞癌(n = 290)、肾嫌色细胞癌(n = 66)、结肠腺癌(n = 458)和前列腺腺癌(n = 497)样本的批量 RNA 测序数据,格式为 FASTQ。
  2. 肿瘤内多区域采样测序数据的下载详情见前一部分。
  3. 同样,以 FASTQ 格式从 GTEx 数据库下载了 9,166 份正常组织样本的批量 RNA 测序数据。
  4. 来自梅奥诊所脑肿瘤患者来源异种移植国家资源的 66 例患者来源的胶质母细胞瘤细胞系的批量 RNA 测序数据已被获取。
  5. 从临床蛋白质组学肿瘤分析联盟下载了 100 份胶质母细胞瘤样本的蛋白质组学数据。

RNA-seq alignment

RNA测序比对

Para_01
  1. 所有下载的 RNA-seq 数据集都通过基于 STAR 比对器的处理管道进行了单独比对。
  2. 使用 STAR 软件(版本 2.7.7a),我们通过输入数据的初始比对过程构建了一个包含非注释接合点的基因组索引。
  3. 完整的命令行参数如下:--runThreadN 1 \ --outFilterMultimapScoreRange 1 \ --outFilterMultimapNmax 20 \ --outFilterMismatchNmax 10 \ --alignIntronMax 500000 \ --alignMatesGapMax 1000000 \ --sjdbScore 2 \ --alignSJDBoverhangMin 1 \ --genomeLoad NoSharedMemory \ --limitBAMsortRAM 80000000000 \ --readFilesCommand gunzip -c \ --outFilterMatchNminOverLread 0.33 \ --outFilterScoreMinOverLread 0.33 \ --sjdbOverhang 100 \ --outSAMstrandField intronMotif \ --outSAMattributes NH HI NM MD AS XS \ --limitSjdbInsertNsj 2000000 \ --outSAMunmapped None \ --outSAMtype BAM SortedByCoordinate \ --outSAMheaderHD @HD VN1.4 \ --twopassMode Basic \ --outSAMmultNmax 1,然后使用 GRCH37 STAR 索引文件进行比对。

TCGA sample selection and gene expression quantification

TCGA样本选择与基因表达量化

Para_01
  1. 保留了绝对肿瘤纯度大于0.60的TCGA肿瘤样本以进行下游的计算机分析。
  2. 我们选择了由Ensembl Homo sapiens GRCH37.87基因注释基因传输格式(GTF)文件定义的非线粒体、蛋白质编码转录本,并利用此整理列表在TCGA RNA-seq数据中选择和保留蛋白质编码转录本异构体。
  3. 下载了所有TCGA样本的转录本水平表达数据(log2[RSEM每百万转录本+0.001]),这些数据来自加州大学圣克鲁兹分校Xena Toil管道,并将其转换为标准TPM值。
  4. 保留了中位数TPM值≥10的蛋白质编码转录本异构体以进行下游分析。
  5. 对于TCGA胶质瘤病例,后续的TPM表达数据被划分为六个疾病类型类别:所有病例(n = 429),GBM病例(n = 115),LGG病例(n = 314),IDHwt病例(n = 166),IDHmut-A病例(n = 140)和IDHmut-O病例(n = 123)。
  6. 在至少一种六种疾病类型中,中位数TPM值≥10的蛋白质编码转录本异构体被保留用于进一步分析。

Characterization of public NJs

公共 NJs 的特征描述

Para_01
  1. 为了统计公共癌症特异性的剪接事件,我们设计了一个自定义的 R 脚本,用于检测和量化每个相应患者队列中发现的未注释、癌症特异性剪接事件。
  2. 从前一步使用 STAR 比对器生成的输出文件中,在检测到的连接计数对应的 sj.out.tab 文件中量化了可变剪接事件。
  3. 我们去除了在 GRCh37.87 GTF sj.out.tab(GENCODE v33)文件中检测到的剪接事件,以定义非注释的剪接连接。
  4. 保留了与前一步识别出的非线粒体、蛋白质编码基因重叠的非注释剪接连接,以便进行进一步的分析处理。
  5. 我们去除了在整个队列中目标剪接读段少于 10 个(计数)或总剪接读段少于 20 个(深度)的所有剪接连接。
  6. 类似于之前的研究,我们计算剪接频率为目标剪接读段总数除以目标和经典连接剪接读段的总和。
  7. 保留了读段频率大于 1% 的剪接连接以进行下游分析。
  8. 我们将公共剪接连接定义为在至少 10% 的研究患者队列中满足上述总读段计数、读段深度和读段频率标准的连接,并保留这些连接以进行进一步分析。
  9. 为了表征癌症特异性的剪接事件,即所谓的 NJs,我们去除了在超过 1% 的 GTEx 正常样本中以相同参数表达的所有连接。

Detection of cancer-specific intron retention events

检测癌症特异性内含子保留事件

Para_01
  1. 使用 IRFinder v1.2.3 检测并表征了内含子剪接事件。
  2. 来自 TCGA(胶质母细胞瘤和低级别胶质瘤)和 GTEx(中枢神经系统)的 RNA-seq 数据,比对到 GRCh37(hg19),被导入软件以检测内含子保留事件。
  3. 基于广义线性模型的分析方法用于差异内含子保留评估。
  4. 内含子保留比例计算为 (内含子读段数量) / 总数(内含子读段数量, 正常剪接读段数量)。
  5. 显著的内含子保留变化定义为:双向均不少于 10%;以及调整后的 P 值小于 0.05。
  6. 在 TCGA 或 GTEx 中,内含子保留事件的 PSR 定义为符合这些标准的样本数除以队列中的总样本数。
  7. 潜在的癌症特异性内含子保留新跳跃(NJ)特征定义为在 TCGA 中 PSR ≥ 0.10 且在 GTEx 中 PSR < 0.01 的内含子保留事件。

Transcriptomic validation of expressed NJs

表达的NJ的转录组学验证

Detection of expressed NJs in patient-derived GBM and LGG cell lines

检测患者来源的胶质母细胞瘤(GBM)和低级别胶质瘤(LGG)细胞系中表达的NJ

Para_01
  1. 从梅奥诊所脑肿瘤患者来源异种移植国家资源中下载了源自GBM患者的细胞系的RNA-seq数据。
  2. 患者来源的LGG细胞系是由加州大学旧金山分校(UCSF)神经外科脑肿瘤中心通过手术切除标本生成的。
  3. GBM和LGG细胞系的RNA-seq数据按照上述描述进行比对和处理。
  4. 在细胞系衍生的RNA-seq数据中,公共剪接位点连接的每百万片段计数(CPM)大于0的被认为是可检测的。

Detection of expressed NJs in multi-region cases

多区域病例中表达的 NJs 的检测

Para_01
  1. 在我们的空间映射胶质瘤病例队列中,从每位患者身上收集了大约十个或更多最大距离间隔的解剖活检样本,这使得我们能够通过批量 RNA 测序和全外显子组测序评估肿瘤内的遗传异质性。
  2. 其他癌症类型的多区域测序数据中,每种肿瘤采样的区域数量有所不同,并在相关参考文献中进行了详细说明(扩展数据图 2)。
  3. 从每个多区域样本中收集的 RNA 测序数据按照上述方法进行处理和比对。
  4. 我们在每个多区域采样数据集中搜索了之前由 TCGA 表征的潜在新接头(NJs)。
  5. 公共 NJs 中 CPM > 0 的被认为是可检测的。
  6. 在同一病例中两个或更多映射样本中具有潜在表达(≥10 个剪接读段)的公共 NJs 被认为是空间保守的 NJs。
  7. 在同一肿瘤的所有多区域样本中检测到的 NJs 被认为是肿瘤范围的 NJs。

Proteomic validation of expressed NJ-derived peptides

蛋白质组学验证表达的NJ衍生肽

Para_01
  1. 从上述管道检测到的假定NJ中,我们生成了一个包含所有可能来源于所有NJ的多肽数据库。
  2. 通过将连接坐标映射到Ensembl注释数据库中的hg19人类基因组组装(AH13964,EnsDb.Hsapiens.v75),生成了编码NJ的转录本。
  3. 随后进行了NJ衍生氨基酸序列的预测,并保留了适当翻译的序列(以甲硫氨酸为起始残基,移除第一个终止密码子之后的序列)以用于下游n碱基多肽迭代。
  4. 为了在GBM病例中检测NJ衍生的多肽,我们分析了存储在临床蛋白质组肿瘤分析联盟中的GBM和LGG质谱数据的RAW文件(n = 99),参考文献45(n = 99),参考文献53(n = 92)和参考文献54(n = 84)。
  5. 使用MaxQuant(v1.6.17.0)从相应的质谱数据集中识别胰蛋白酶序列。
  6. 预测的NJ衍生肽段、诱饵序列和人类参考蛋白组(UniProt Protein组ID:UP000005640)被作为FASTA文件输入到MaxQuant中,并将来自输入文件的胰蛋白酶序列与公开可用的质谱数据库进行匹配。
  7. 跨越NJ衍生蛋白序列的癌症特异性肽段被认为是质谱确认的。
  8. 通过log2[峰强度]评估NJ衍生肽段和正常组织衍生肽段的相对检测水平。
  9. 除了默认设置外,以下命令和参数在MaxQuant中用于质谱分析:消化模式 = 胰蛋白酶/P;最大错切数 = 3;最小肽段长度 = 5;非特异性搜索的最小肽段长度 = 5。

Peptide processing and HLA binding and presentation predictions

肽段处理、HLA结合及呈递预测

Para_01
  1. 与 NJ 相关的癌症特异性转录本通过计算机模拟翻译为其相应的氨基酸序列。
  2. 然后生成了所有可能长度为 8 到 11 个氨基酸的肽段库,并通过去除在参考人类蛋白质组数据集(UniProt 蛋白质组 ID:UP000005640)中正常组织肽同种型中可检测到的序列,选择出癌症特异性序列。
  3. 所有癌症特异性肽段及其上游和下游侧翼序列(最大侧翼长度为 30 个氨基酸)被独立分析并使用 MHCflurry 2.0 和 HLAthena MSiC 进行排名。
  4. 针对 HLA-A 01:01、HLA-A 02:01、HLA-A 03:01、HLA-A 11:01 和 HLA-A*24:02 的 HLA-I 结合亲和力在这两种情况下均进行了评估。
  5. 在 HLAthena 对抗原结合和呈递至相应 HLA 单倍型的评价中,通过秩值小于 0.1 的阈值将肽段分配给等位基因。
  6. 在氨基和羧基末端上下文中最多使用 30 个侧翼氨基酸,并按肽段聚合且不进行对数转换表达量分析。
  7. 使用基本的 MHCflurry 2.0 模型,包括肽-HLA 结合亲和力预测器和抗原处理预测器。
  8. 总体而言,肽-HLA 呈递评分分别由 MHCflurry 2.0 和 HLAthena 中的 mhcflurry_presentation_score 和 MSiC_HLA 分数表征。
  9. 为了选择高结合者,我们整理了来自两种预测算法得分前 10% 的肽-HLA 复合物列表。

Cell culture

细胞培养

Culture of cells derived from xenografts from patients with GBM







请到「今天看啥」查看全文