Basic Information
英文标题:Comprehensive discovery and functional characterization of the noncanonical proteome
文章作者:Chengyu Shi | Aifu Lin
文章链接:https://www.nature.com/articles/s41422-024-01059-3
Abstract
Para_01
系统地识别和功能表征非经典翻译产物,如新型肽,将有助于理解人类基因组并提供细胞生物学的新见解。
在此,我们构建了一个包含11,668,944个开放阅读框的高覆盖率肽测序参考库,并采用超滤串联质谱分析法来识别新型肽。
通过这些方法,我们从正常胃组织、胃癌组织和细胞系中发现了8945种以前未注释的肽,其中近一半来自非编码RNA。
此外,我们的CRISPR筛选显示,1161种肽参与了肿瘤细胞的增殖。
基于筛选分数、氨基酸长度和各种指标选择的一部分肽的存在及其生理功能,通过Flag敲入和多种其他方法进行了验证。
为了进一步表征涉及的潜在调控机制,我们为前100个候选者构建了一个基于人工智能结构预测和肽-蛋白相互作用网络分析的框架,并揭示这些癌症相关肽具有不同的亚细胞定位并参与特定于细胞器的过程。
进一步的研究验证了pep1-nc-OLMALINC、pep5-nc-TRHDE-AS1、pep-nc-ZNF436-AS1和pep2-nc-AC027045.3的相互作用伙伴,以及这些肽在线粒体复合物组装、能量代谢和胆固醇代谢中的功能。
我们展示了pep5-nc-TRHDE-AS1和pep2-nc-AC027045.3在异种移植模型中对肿瘤生长有显著影响。
总之,我们的研究提供了非经典蛋白质组的全面表征,并强调了这些以前未注释的肽在癌症生物学中的关键作用。
Introduction
Para_01
人类基因组计划对人类基因组的测序大大促进了对复杂生物过程的全基因组理解。
基因组中蛋白质编码区域的注释是功能基因组学的重要组成部分,并有助于更深入地了解蛋白质。
剩余的大部分基因组由非编码区域组成,这些区域产生了丰富的非编码RNA(ncRNAs),如长非编码RNA(lncRNAs)。
以前的研究,包括我们自己的研究,报道了lncRNAs可以调节多种细胞活动和癌症进展。
此外,lncRNA转录本与mRNA转录本共享多聚腺苷酸化和加帽特性。
近年来,一系列研究表明lncRNAs具有编码新型肽的潜力。
例如,Anderson等人报告称,由lncRNA LINC00948编码的肽肌调节素(MLN)在骨骼肌生理功能中起关键作用,引起了人们对识别和研究单个短开放阅读框(sORFs)编码产物的关注。
越来越多的证据表明,这些单个sORF产物在多种细胞过程中发挥重要作用,包括信号调节、代谢稳态、RNA剪接和修饰识别、转录和翻译调控以及免疫反应。
它们精确且有限的表达对正常的生理功能至关重要,其表达水平的偏差可能导致各种问题,包括肌肉功能受损、肥胖、炎症性疾病和癌症。
因此,系统地识别和功能表征基因组中的sORFs和新型肽对于获得关于基因组、细胞和特定疾病的新见解非常重要。
Para_02
识别新型肽和sORFs的过程依赖于技术的进步。生物信息学在初步阶段形成了识别的基础,用于预测新型肽和sORFs。
Cabili等人通过分析RNA-seq数据发现,高度保守的长基因间非编码RNA转录物可能是sORFs的潜在来源。
各种计算工具,如编码潜力评估工具(CPAT),已经被开发出来,并且可以通过计算预测来识别特定的肽,为质谱(MS)中的光谱匹配提供了初步参考。
Banfai等人和Slavoff等人通过整合RNA-seq和MS数据或肽组学策略成功地在人类细胞系中识别了近100个新型sORFs。
这种方法已经演变成通过MS识别新型肽的主要策略,得到了诸如非ATG起始密码子识别和特定氨基酸富集策略等进展的支持。
此外,在使用ProteomicsDB等数据库进行常规蛋白质组学研究时,意外发现了新型肽。
然而,新型肽相关的挑战,例如短序列、低丰度以及缺乏全面的参考数据库和靶向策略,限制了新型肽的识别;通常识别出的肽的数量从几十到几百不等,在大样本量的研究中很少超过1000个。
Para_03
鉴于质谱技术在识别新型肽方面的精度受限,新技术的应用已成为关键性突破。
Ribo-seq利用PCR扩增和RNA测序,已被证明适用于识别翻译强度低的小开放阅读框(sORFs),为系统性识别sORFs提供了重要的技术支持。
张等人完成了将Ribo-seq应用于人类1号染色体上具有翻译潜力的长非编码RNA(lncRNAs)的开创性工作,
而Bazzni等人进一步将其扩展用于斑马鱼胚胎发生期间的新肽发现。
Ingolia等人的改进提高了识别编码区外核糖体足迹的精度,
促进了对人细胞系中上游开放阅读框(uORFs)、下游开放阅读框(dORFs)和长非编码RNA翻译的确定。
一系列研究将Ribo-Seq应用于广泛的细胞系,并系统地构建了它们的翻译图谱。
随后,在组织水平上大规模识别sORFs也得以实现。
Van Heesch等人通过Ribo-seq成功绘制了人类心脏的翻译图景,并揭示了大量的具有翻译潜力的长非编码RNA。
后续的努力集中在高效识别sORFs的同时,实现高通量的目标功能表征。
陈等人成功应用CRISPR技术在细胞系水平上筛选功能性新肽。
Martinez等人进一步在动物模型中进行CRISPR筛选,并鉴定出具有代谢调节功能的新肽。
这些肽的性质分析通过针对新肽的生物信息学框架和分子生物学工具的发展得到了显著推进。
值得注意的例子包括Sandmann等人构建的sORFs进化分析框架、Patraquim等人开发的用于sORF同源检测的生物信息学流程以及Na等人开发的用于新肽亚细胞定位筛选的MicroID工具。
Para_04
由于这些技术进步,新型肽组学领域经历了实质性的进展。然而,挑战依然存在。
Ribo-seq 依赖于 RNA-seq,并主要检测翻译过程中的 RNA 片段。
虽然在 RNA 水平上提供了信息,但它未能提供直接的证据来证明新型肽在蛋白质组水平上的存在,而这是鉴定新型蛋白质的金标准。
尽管一些研究结合了质谱(MS)和其他策略,但鉴定出的肽的数量仍然有限,在大多数情况下只能鉴定出几百个肽。
虽然作为质谱学的一个子技术,免疫肽组学揭示了具有免疫原性的新型肽的更大丰度,但它们的功能仍有待充分表征,这使得这些肽作为功能性肽的真实性受到质疑。
Para_05
胃癌在全球癌症中排名第五,以其高度异质性和缺乏早期诊断标志物及靶向治疗而著称。
最近的基因组、转录组和蛋白质组研究揭示了胃癌的多组学特征,并确定了新的诊断和治疗目标。
尽管取得了这些进展,对胃癌新型肽组学的系统研究仍未得到探索。
先前的研究暗示了肽(如ProGRP)在管理胃癌中的潜在应用。
对新型肽组学的系统研究可能有助于我们理解胃癌,通过探索具有关键调控功能的肽,为诊断和治疗提供新的视角。
Para_06
在我们的研究中,我们通过几项关键进展解决了上述挑战。
这项工作促成了一个涵盖11,668,944个潜在sORF的参考数据库的创建。
为了解决识别这些低丰度和短序列肽的问题,我们采用了一种超滤串联质谱分析法。
通过整合这两种技术,我们在人类胃癌样本和细胞系中成功鉴定出8945个以前未注释的新肽,这是在蛋白质组水平上鉴定出的最大数量的新肽。
我们进一步通过AGS细胞中的CRISPR筛选确定了1161个与细胞增殖密切相关的候选肽。
此外,我们使用Flag敲入等分子生物学技术确认了这些功能性肽的真实性和生物学重要性。
在此基础上,我们建立了一个基于AlphaFold2结构预测和肽-蛋白相互作用网络构建的肽功能预测框架。
该框架揭示了这些肽的多种亚细胞定位及其功能机制,特别是那些与复杂组装和能量代谢相关的作用。
随后在异种移植肿瘤模型和患者临床样本中的验证表明,测试的肽在体内调节肿瘤生长,并与患者的临床预后密切相关。
我们的工作代表了高通量肽组学研究的一次显著尝试,涵盖了技术改进、大规模组织水平鉴定、功能筛选、表型特征以及临床相关性研究。
这一综合努力强调了探索和表征新肽组作为推进肿瘤诊断和治疗策略的一种有前景的方法的重要性。
Results
Identification of novel peptides using bioinformatics analysis and ultrafiltration tandem MS
通过生物信息学分析和超滤串联质谱鉴定新型肽
Para_01
在蛋白质组学中识别新型肽的一个关键障碍是缺乏全面、高精度的肽测序参考库。为了克服这个问题,我们利用来自Ensembl的人类转录数据重新组装了参考转录组,并使用Ribotricer提取了所有包含起始/终止密码子的潜在开放阅读框。
由于新型肽通常较短且来源于具有非典型起始密码子的RNA,我们过滤掉了长度小于250个氨基酸的提取开放阅读框,并允许ATG/CTG/GTG/TTG作为起始密码子。
这产生了11,668,944个开放阅读框,我们将其指定为人类基因组中新型肽开放阅读框的参考库(RLNPORF)。
与其他肽开放阅读框参考库相比,RLNPORF包括更多的理论开放阅读框,在相同的搜索条件下可以检测到更多的肽(补充信息,图S1a,b)。
Para_02
我们采用了液相色谱-串联质谱(LC-MS/MS),这是新型肽/蛋白质鉴定的金标准,以实验验证来自RLNPORF的新型肽候选物。样本输入包括6对癌症/副肿瘤组织、5个正常胃组织和AGS胃癌细胞系。
先前的研究表明,超滤可能在富集新型肽信号的同时,最大限度地减少高分子量常规蛋白质的干扰。
经过实验验证后,我们确定了最佳处理策略:将研磨和裂解的样本依次通过30/10/3 kDa的超滤管处理20分钟(补充信息,图S1c,d)。
结果在重复实验中一致,证明该策略可以可靠地用于样本处理。
质谱图被映射到RLNPORF肽序列上,并且任何匹配多个不同肽的光谱都被丢弃,以确保可信的分配。
我们鉴定出8945个尚未包含在UniProtKB_Reviewed数据库中的肽(图1a;补充信息,图S1e和表S1,S2)。
Fig. 1: The identification of the novel peptidomes.
- 图片说明
◉ 肽鉴定过程的示意图概述。b 显示了 sORF 和基因在染色体上的分布(上)。每个染色体上的 sORF 与基因(左下)、mRNA 衍生的 sORF 与 mRNA 基因(中下)、ncRNA 衍生的 sORF 与 ncRNA 基因(右下)之间的相对数量关系。每个点代表一个染色体。这些相关性通过斯皮尔曼相关系数来表征。
◉ 按编码的肽数量分组的基因的旭日图。d 按宿主转录本类型分组的 sORF 的旭日图。uORF:上游 ORFs;dORF:下游 ORFs。
◉ 检测到的 sORF 的数量和百分比的堆叠条形图。
◉ RLNPORF 中肽的起始密码子(ATG/CTG/GTG/TTG)使用情况与其通过质谱实际鉴定的情况对比。
◉ 经典蛋白质编码 ORF(包括在 Uniprot 中)和由 CPAT 分析的 sORF 的编码潜力评分比较的箱线图。数据以单个值呈现,统计分析采用双侧独立两样本非参数 Wilcoxon 检验,P < 2.2E−16。
◉ 经典蛋白质编码 ORF(包括在 Uniprot 中)和由 Phastcons 分析的 sORF 的保守性评分比较的箱线图。数据以单个值呈现,统计分析采用双侧独立两样本非参数 Wilcoxon 检验,P < 2.2E−16。
◉ ncRNA 或 mRNA 衍生的 sORF 的氨基酸长度密度图。
◉ 由 mRNA 和 ncRNA 衍生的 sORF 的保守性评分比较的箱线图,由 Phastcons 分析。数据以单个值呈现,统计分析采用双侧独立两样本非参数 Wilcoxon 检验,P < 2.2E−16。
◉ 由 mRNA 和 ncRNA 衍生且长度小于 100 aa 的 sORF 的保守性评分比较的箱线图,由 Phastcons 分析。数据以单个值呈现,统计分析采用双侧独立两样本非参数 Wilcoxon 检验,P < 2.2E−16。
◉ 由 mRNA 和 ncRNA 衍生且长度大于 100 aa 且小于 250 aa 的 sORF 的保守性评分比较的箱线图,由 Phastcons 分析。数据以单个值呈现,统计分析采用双侧独立两样本非参数 Wilcoxon 检验,P < 2.2E−16。
Para_03
鉴于已鉴定出大量肽及其多样化的基因来源类型,我们设计了一套标准化的命名系统,以有效区分这些肽并获取其基因组信息。每个肽使用"pepNo.-Type-Gene"的格式命名,其中"No."是基于父ORF的基因组坐标的编号顺序,"Type"表示该ORF所属的类别(u:上游ORF(uORF);alt:替代ORF;d:下游ORF(dORF);nc:非编码RNA),而"Gene"则是肽起源的基因/位点。如果一个基因只编码一个已鉴定的肽,则简单标记为"pep",不带编号。此外,每个肽都有一个独特的"ORF ID",精确指定了其在父转录本上的ORF的基因组坐标,包括转录本ID、ORF起始坐标、ORF终止坐标和ORF长度(以核苷酸计)。例如,"pep1-nc-KIAA0087"表示从ncRNA KIAA0087位点鉴定出的第一个肽,其ORF ID为"ENST00000242109_26533546_26533680_135",表明它来自转录本ENST00000242109,其ORF跨越基因组坐标26533546-26533680,长度为135个核苷酸。
Para_04
在我们的肽鉴定中,4097个(45.6%)肽由单个肽谱匹配(PSM)支持,4866个(54.4%)肽由至少两个不同的PSM支持,并且2290个(25.6%)肽在不同组织/细胞系样本中被检测到。
此外,与替代的人类基因组参考(CN1)进行比对,匹配了8823个已鉴定的sORF(98.63%覆盖率),确认了这些肽在转录组水平上的真实性。
Para_05
总的来说,我们成功地实施了一种蛋白质组学策略,通过利用大约1200万个潜在ORF的参考库,并结合基于超滤的质谱富集方法来识别肽段。这种整合使得在真实样本类型中鉴定出近9000个肽段,成为进一步理解非经典翻译产物的宝贵资源。
Bioinformatic characterization of the novel peptidome
对新型肽组的生物信息学表征
Para_01
为了深入了解这些新发现肽的特性,我们进行了生物信息学分析,将它们与传统蛋白质组中的已知蛋白质进行比较。
Para_02
我们首先检查了编码这些肽的基因在染色体上的分布。与"常规"基因相似,新型肽基因主要集中在染色体17、19和22上(图1b)。
大多数基因只产生一种检测到的新型肽,而一小部分则产生了多种新型肽产物(图1c)。
有趣的是,在这些新鉴定的肽中,88.51%是从新的开放阅读框翻译而来,50.39%来自非编码RNA(图1d, e),这表明人类基因组中存在大量未被重视的编码潜力。
Para_03
尽管参考库中的肽对四个起始密码子(ATG/CTG/TTG/GTG)没有明显的偏好,但序列分析显示,鉴定出的肽仍然对经典的ATG(34.12%)起始密码子表现出偏好(图1f)。
我们鉴定出的肽与Uniprot中包含的已知蛋白质相比,通常具有较低的CPAT75评分和脊椎动物保守性(图1g, h),这可能解释了它们为何逃避了之前的注释工作。
Para_04
我们进一步表征了源自非编码RNA(ncRNAs)的肽子集。这些源自ncRNAs的肽比那些源自mRNAs的肽要短,大多数长度不到100个氨基酸(图1i)。
源自ncRNAs的肽在长度上与uORF肽相当(补充信息,图S1i),但表现出较低的序列保守性(图1j;补充信息,图S1j)。
无论长度如何,它们的保守评分和编码概率都低于源自mRNAs的肽。
这两组之间的编码概率差异在长度小于100个氨基酸的肽中更为明显(图1k,l;补充信息,图S1k‒m)。
重要的是,很大一部分新发现的肽序列与已知的蛋白质结构域匹配(补充信息,图S1n),暗示了其功能潜力。
总体而言,这些发现揭示了ncRNAs可以产生在序列特征上不同于传统蛋白质的功能肽。
Para_05
最后,由于这些肽是从与胃癌相关的组织和细胞中鉴定出来的,我们通过分析它们的宿主基因(6216)表达模式来评估这些肽与胃癌发病机制之间的潜在联系。值得注意的是,994个(16.0%)新肽基因的表达显示出与胃癌病理特征的相关性:795个(12.8%)与病理分期相关,797个(12.8%)与病理亚型特异性相关,329个(5.3%)与化疗耐药性相关(补充信息,图S2a‒d和表S3‒S6)。这些相关性表明新鉴定的肽在调节胃癌进展和疾病状态方面具有显著作用。
这些相关性表明新鉴定的肽在调节胃癌进展和疾病状态方面具有显著作用。
Para_06
总之,这项综合的生物信息学表征突出了新发现的肽组的独特性质,包括肽的基因组起源、序列特征及其在胃癌发病机制中的潜在功能影响。这些发现为深入研究新型肽生物学及其治疗应用的机制奠定了基础。
Evaluation of the roles of peptides in cancer cell proliferation via CRISPR screening
通过CRISPR筛选评估肽在癌细胞增殖中的作用
Para_01
为了补充蛋白质组学证据,我们采用了一种高通量CRISPR筛选方法来直接评估这些肽的功能影响。
Para_02
为了避免传统蛋白异构体的混淆效应,我们专注于4507个长链非编码RNA衍生和88个上游开放阅读框(uORF)衍生的肽段,用于基因组规模的CRISPR文库设计。
作为设计标准,每个假定的肽段开放阅读框应能被至少4个单向导RNA(sgRNA)靶向,并且在其开放阅读框上游1000 bp处还需有额外的≥2个sgRNA作为宿主长链非编码RNA敲除(KO)对照。
这产生了一个包含27,113个sgRNA的文库,覆盖了3094个肽段,并配有1041个非靶向扰乱sgRNA和344个针对对癌细胞增殖至关重要的基因的sgRNA作为对照。
在AGS胃癌细胞系中进行了混合CRISPR敲除筛选,每个肽段的表型评分被指定为其靶向sgRNA在经过10次倍增后丰度变化的平均log2倍数变化(图2a)。
Fig. 2: CRISPR screening reveals key role of peptides in the regulation of cell proliferation.
- 图片说明
◉ a CRISPR筛选肽过程的示意图。
◉ b 密度图描述了针对必需蛋白质、随机序列、sORFs及其上游区域的sgRNA的倍数变化绝对值。
◉ c, d 抖动图(c)和箱线图(d)描绘了针对必需蛋白质、随机序列、sORFs及其上游区域的sgRNA的倍数变化绝对值。
◉ e 点图显示了肽筛选结果。红色点表示促增殖肽,绿色点表示抗增殖肽,灰色点表示非命中肽。标准定义为 |sORFs 本体的 log2 倍数变化 | > 1 和 |sORFs 上游的 log2 倍数变化 | < 1。
◉ f 总体检测到的肽(8945个),为CRISPR筛选设计的肽(3094个)和表型肽(1161个)的统计。
◉ g 具有特定遗传或生化特性的单次命中肽的数量。
◉ h 通过CPAT分析的肽表型评分和编码评分绝对值之间的相关性。相关性用斯皮尔曼相关系数表示(左侧)。表型肽和非表型肽的编码潜力评分比较的箱线图(右侧)。Wilcoxon检验;P < 2.2E−16。
◉ i 肽表型评分绝对值与氨基酸长度之间的相关性。相关性用斯皮尔曼相关系数表示(左侧)。表型肽和非表型肽的氨基酸长度比较的箱线图(右侧)。Wilcoxon检验;P < 2.2E−16。
◉ j 表型评分绝对值与Phastcons分析的保守性评分之间的相关性。相关性用斯皮尔曼相关系数表示(左侧)。表型肽和非表型肽的保守性评分比较的箱线图(右侧)。Wilcoxon检验;P = 0.0047 E。
◉ k 上部:与胃癌病理特征相关的肽基因的曼哈顿图。显著变化基因的阈值定义为 |log2 倍数变化 | > 1 和调整后的 P 值 < 0.05。数据以单独的 log2 倍数变化值呈现。下部:不同项目共享的肽基因数量。
◉ l Venn图展示了具有高编码概率(CPAT > 0.7)、域映射和与耐药性关联的肽。
Para_03
sgRNA丰度的倍数变化在scramble、必需基因、肽ORF和宿主lncRNA敲除组之间有显著差异,验证了筛选的可行性(图2b)。
值得注意的是,直接靶向肽ORF的sgRNA表现出更高的总体倍数变化和更大比例高于显著性截断值(log2|fold change | ≥ 1),相比于scramble sgRNA和靶向上游ORF的sgRNA(图2c, d)。
这表明这些肽本身具有特定的调控作用,而不仅仅是其宿主lncRNA的影响。
我们还根据表型得分对肽进行了分类:得分≥1的肽被认为具有抗增殖作用,而得分≤‒1则表明具有促增殖特性。
利用这些分类,我们鉴定出1161个对细胞增殖有显著影响的肽,其中近90%表现出促增殖表型(图2e, f;补充信息,表S7)。
我们分析了这些肽的序列,识别出一些带有信号肽或功能域的肽。
此外,大多数预测具有高编码概率,尽管只有少数在脊椎动物中表现出序列保守性(图2g)。
Para_04
通过与RLNPORF的进一步序列比较,我们注意到有1280个没有质谱证据支持的预测开放阅读框被来自lncRNA敲除对照组的单导向RNA靶向(补充信息,图S3a)。
值得注意的是,这些单导向RNA的丰度变化倍数与随机单导向RNA相似(补充信息,图S3b,c),表明那些没有质谱证据支持的预测肽在功能蛋白质组水平上无法验证。
这些发现进一步强调了我们肽段质谱鉴定策略的准确性。
Para_05
此外,我们分析了肽的表型评分与其遗传性质之间的关联。调节肿瘤生长的肽往往具有更高的编码潜力评分,并且比缺乏表型的肽更长(图 2h,i)。
有趣的是,调节肿瘤生长的肽表现出较低的序列保守性,表明它们有较近的进化起源(图 2j)。
其中,170 个(16.0%)与组织病理学特征相关,60 个(5.6%)与病理分期相关,65 个(6.1%)与亚型特异性相关,35 个(3.3%)与胃癌的化疗耐药性相关(图 2k,l;补充信息,图 S3d‒f 和表 S8‒S11),这表明它们具有致病潜力。
Para_06
总之,这项无偏见的CRISPR筛选为这些肽提供了功能证据,揭示了超过1000种肽影响癌细胞增殖。结合生物信息学分析,这些结果突出了有希望的候选者,以便更深入地研究其生物学功能和与癌症的相关性。
Verification of functional peptides identified by CRISPR screening
通过CRISPR筛选鉴定的功能肽的验证
Para_01
为了进一步验证CRISPR筛选结果,我们选择了250个高可信度的新肽候选物(≥ 30个氨基酸,CPAT评分≥ 0.6,表型评分最高)进行通过各种检测的深入分子特征分析(图3a)。
Fig. 3: Deep illustration of functional peptides identified by CRISPR screening.
- 图片说明
◉ a 用于肽验证的多个分子实验测定的示意图。b AGS 细胞系中 CTBP1-AS、AL050309.1、U6 和 GAPDH 的代表性多聚体分析结果。c AGS 细胞中的肽(Flag 敲入)免疫印迹。d AGS 细胞中的肽(Flag 敲入)通过免疫荧光染色检测。e HEK-293T、HeLa、GES-1、MKN45 和 AGS 细胞中 pep1-nc-OLMALINC、pep5-nc-TRHDE-AS1、pep-nc-ZNF436-AS1、pep2-nc-AC027045.3 和 GAPDH 的免疫印迹。f WT、pep1-nc-OLMALINC KO、pep1-nc-OLMALINC KO-WT ORF 回补(Rescue)、pep1-nc-OLMALINC KO 起始密码子突变 ORF 回补(Mutant)AGS 细胞的免疫印迹分析。g WT、pep5-nc-TRHDE-AS1 KO、pep5-nc-TRHDE-AS1 KO-WT ORF 回补(Rescue)、pep5-nc-TRHDE-AS1 KO 起始密码子突变 ORF 回补(Mutant)AGS 细胞的免疫印迹分析。h WT、pep-nc-ZNF436-AS1 KO、pep-nc-ZNF436-AS1 KO-WT ORF 回补(Rescue)、pep-nc-ZNF436-AS1 KO 起始密码子突变 ORF 回补(Mutant)AGS 细胞的免疫印迹分析。i 空载体过表达(EV)、pep2-nc-AC027045.3 过表达(OV)、pep2-nc-AC027045.3 起始密码子突变体过表达(Mutant)AGS 细胞系的免疫印迹分析。j WT、pep1-nc-OLMALINC KO、pep1-nc-OLMALINC KO-WT ORF 回补(Rescue)、pep1-nc-OLMALINC KO 起始密码子突变 ORF 回补(Mutant)AGS 细胞在指定时间点使用 MTT 测定确定的细胞生长活力。数据以平均值 ± SEM 表示。n = 3。双向方差分析;
P < 0.01,ns,无显著性差异。k WT、pep1-nc-OLMALINC KO、pep1-nc-OLMALINC KO-WT ORF 回补(Rescue)、pep1-nc-OLMALINC KO 起始密码子突变 ORF 回补(Mutant)AGS 细胞的克隆形成实验。数据以平均值 ± SEM 表示。n = 3。单向方差分析后进行 Tukey 检验;
P < 0.01,ns,无显著性差异。l WT、pep5-nc-TRHDE-AS1 KO、pep5-nc-TRHDE-AS1 KO-WT ORF 回补(Rescue)或 pep5-nc-TRHDE-AS1 KO 起始密码子突变 ORF 回补(Mutant)AGS 细胞在指定时间点使用 MTT 测定确定的细胞生长活力。数据以平均值 ± SEM 表示。n = 3。双向方差分析;
P < 0.01,ns,无显著性差异。m WT、pep5-nc-TRHDE-AS1 KO、pep5-nc-TRHDE-AS1 KO-WT ORF 回补(Rescue)或 pep5-nc-TRHDE-AS1 KO 起始密码子突变 ORF 回补(Mutant)AGS 细胞的克隆形成实验。数据以平均值 ± SEM 表示。n = 3。单向方差分析后进行 Tukey 检验;
P < 0.01,ns,无显著性差异。n WT、pep-nc-ZNF436-AS1 KO、pep-nc-ZNF436-AS1 KO-WT ORF 回补(Rescue)、pep-nc-ZNF436-AS1 KO 起始密码子突变 ORF 回补(Mutant)AGS 细胞在指定时间点使用 MTT 测定确定的细胞生长活力。数据以平均值 ± SEM 表示。n = 3。双向方差分析;
P < 0.01,ns,无显著性差异。o WT、pep-nc-ZNF436-AS1 KO、pep-nc-ZNF436-AS1 KO-WT ORF 回补(Rescue)、pep-nc-ZNF436-AS1 KO 起始密码子突变 ORF 回补(Mutant)AGS 细胞的克隆形成实验。数据以平均值 ± SEM 表示。n = 3。单向方差分析后进行 Tukey 检验;
P < 0.01,ns,无显著性差异。p 空载体(EV)、pep2-nc-AC027045.3 过表达(OV)或 pep2-nc-AC027045.3 起始密码子突变体过表达(Mutant)AGS 细胞在指定时间点使用 MTT 测定确定的细胞生长活力。数据以平均值 ± SEM 表示。n = 3。双向方差分析;
P < 0.01,ns,无显著性差异。q 空载体(EV)、pep2-nc-AC027045.3 过表达(OV)或 pep2-nc-AC027045.3 起始密码子突变体过表达(Mutant)AGS 细胞的克隆形成实验。数据以平均值 ± SEM 表示。n = 3。单向方差分析后进行 Tukey 检验;
P < 0.01,ns,无显著性差异。
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
◉ ,
Para_02
首先,我们使用在HEK-293T细胞中表达的肽-SFB融合构建体测试了这些候选者的编码能力。在250个候选者中有191个成功检测到肽的表达(补充信息,表S12)。
我们从得分最高的100个候选者中选择了80个具有合适的qPCR引物的候选者,并结合一些随机选择的一次性候选者,通过多核糖体分析评估其宿主lncRNA转录本的翻译效率。
值得注意的是,80个lncRNA中有75个与活跃翻译的高分子量多核糖体相关,证实了它们的编码潜力(图3b;补充信息,表S13)。
Para_03
为了检测内源性肽的表达,我们采用了一种CRISPR/Cas9介导的敲入策略来生成27个细胞系,这些细胞系在肽的C末端融合了Flag-only表位标签(补充信息,图S4a)。
所有27个标记的肽均通过蛋白质印迹法在其预期分子量处成功检测到(图3c;补充信息,表S14)。
Para_04
我们进一步开发了针对四个候选物(pep1-nc-OLMALINC、pep5-nc-TRHDE-AS1、pep-nc-ZNF436-AS1、pep2-nc-AC027045.3)的特异性抗体,这些抗体具有适当的表位,用于下游研究。这些肽在肿瘤细胞和正常细胞中的丰度存在差异(图3e)。它们的RNA水平在不同细胞系中也表现出类似的差异(补充信息,图S4b‒e),表明它们在致癌过程中可能起到作用。
对于在肿瘤细胞中表达较高的三种肽,我们进一步生成了肽敲除(KO)细胞系,并与野生型(WT)或起始密码子突变的ORF重新表达的细胞系一起验证它们在肿瘤细胞增殖中的作用(图3f‒i)。pep1-nc-OLMALINC、pep5-nc-TRHDE-AS1或pep-nc-ZNF436-AS1 KO细胞系显示出显著的增殖和克隆形成减少。
重新表达WT ORF,但不重新表达起始密码子突变的ORF,恢复了与增殖相关的表型(图3j‒o;补充信息,图S4f, g)。
对于在肿瘤细胞中表达较低的pep2-nc-AC027045.3,我们发现其过表达抑制了细胞增殖(图3p, q)。这些结果表明,观察到的功能影响需要特定肽的翻译,而不是宿主lncRNA转录本的影响。
Para_05
这些多方面的验证实验共同提供了令人信服的证据,证明了这些肽的存在,并确认了通过CRISPR筛选鉴定出的四种肽的功能作用。
Functional prediction of peptides via structure-based interactome mapping
通过基于结构的相互作用图谱进行肽的功能预测
Para_01
虽然CRISPR筛选和验证实验为这些肽的功能影响提供了有力的证据,但通过湿实验来表征每个单独肽的工作机制是低效的,因为它们的数量庞大。
为了预测它们潜在的功能机制,我们采用了一种基于结构的全蛋白质组相互作用映射方法。
Para_02
对于从CRISPR筛选中识别出的具有显著表型效应的前100个肽,包括90个促增殖肽和10个抗增殖肽,我们最初使用AlphaFold2生成了高度准确的结构模型。尽管这些肽的序列较短,但超过70%的肽达到了pLDDT评分>50(补充信息,图S5a和表S15)。
随后,我们将这些模型与人类蛋白质组进行计算对接,以识别它们潜在的相互作用蛋白质。
为了确保对接结果的可靠性,我们应用了一个高于1.04的阈值PRM评分(相比之下常规值为0.955)来精炼每个肽的相互作用蛋白质列表。
为了整合有关肽、其相互作用蛋白质和相关GO术语的信息,我们采用了一种模块化社区分割算法。
这促进了基于结构的肽‒蛋白质相互作用组和功能网络的构建(图4a)。
Fig. 4: A framework for peptide function prediction based on AI structural prediction and peptide‒protein interaction networks.
- 图片说明
◉ 基于AI结构预测和肽‒蛋白质相互作用网络的肽功能预测框架示意图。
◉ 根据预测的相互作用蛋白,肽的GO分类图谱。候选物被分配到六个组中。圆圈的大小显示了该节点的程度。
◉ 使用Plotly-sunburst方法进行综合KEGG可视化。KEGG分类包括特定细胞过程、环境信息处理、遗传信息处理、人类疾病、代谢和生物系统。
◉ 代表性过程的圆形直方图。每个直方图显示了GO富集的分布。
◉ "代谢"过程的圆形直方图。每个直方图显示了KEGG富集的分布。
◉ 每个新型肽的"结合"功能的南丁格尔玫瑰图可视化。颜色表示不同组合的类型,弧线的半径表示相关GO的数量。
◉ 饼状条形图显示了细胞各组件中相关蛋白的详细信息。饼图中的细胞器被分解为条形,并进一步细分为细胞核、线粒体、溶酶体和高尔基体。
◉ 具有特定定位的肽的细胞器位置Voronoi树状图可视化。
◉ 这些肽在细胞过程和代谢中的6个特定KEGG项富集的预测相互作用蛋白的Voronoi树状图可视化。
◉ 通过ClusPro分子对接使用的pep1-nc-OLMALINC-NDUB1(左上)、pep5-nc-TRHDE-AS1-FABP1(右上)、pep-nc-ZNF436-AS1-PET100(左下)和pep2-nc-AC027045.3-STMP1(右下)结合的可视化。复合物中的肽以浅粉色"卡通"结构表示,而蛋白质受体以淡绿色"卡通"结构表示。交互残基标签显示,极性接触的具体测量值以数值形式表示。
◉ OLMALINC潜在相互作用蛋白的GO分析。
◉ pep5-nc-TRHDE-AS1潜在相互作用蛋白的GO分析。
◉ pep-nc-ZNF436-AS1潜在相互作用蛋白的GO分析。
◉ pep2-nc-AC027045.3潜在相互作用蛋白的GO分析。
Para_03
通过对网络中大多数肽相关的GO术语进行分类和分析,我们观察到这些肽之间存在共同的功能主题。这些肽参与了多种细胞生物学活动和生理过程(图4b,c;补充信息,图S5b)。
一些肽与关键的生物过程密切相关,如细胞代谢的调节、细胞命运的决定和应激反应(图4d;补充信息,图S5c)。
这些与代谢过程相关的肽中有很大一部分特别与能量代谢相关(图4e),这证实了之前的发现,即许多肽定位于线粒体中。
此外,这表明这些肽具有结合各种类型分子的能力,包括核酸、脂质和受体蛋白,从而促进多种功能并可能参与它们的运输过程(图4f;补充信息,图S5d)。
值得注意的是,这些肽在细胞成分中经常采用支架状构象,与其通常较短的长度一致(图4g)。
这些肽还表现出多样的预测亚细胞定位模式(图4h)。
此外,这些肽的预测相互作用蛋白参与了各种代谢过程,如氧化磷酸化、叶酸生物合成和代谢物运输。
这表明这些肽在细胞代谢中起着至关重要的作用,证实了使用CRISPR筛选观察到的增殖表型(图4i)。
Para_04
专注于成功验证的肽子集(pep1-nc-OLMALINC、pep5-nc-TRHDE-AS1、pep-nc-ZNF436-AS1、pep2-nc-AC027045.3),基于结构的相互作用组分析强化了它们在功能网络中的关键节点位置以及与调节复合物的关联(补充信息,图S5e)。
进一步的详细分析表明这些肽可能与细胞器定位的蛋白质相互作用。具体来说,pep1-nc-OLMALINC、pep-nc-ZNF436-AS1和pep2-nc-AC027045.3分别预测与线粒体蛋白NDUB1、PET100和STMP1相互作用;pep5-nc-TRHDE-AS1预测与溶酶体蛋白FABP1相互作用(图4j)。
通过Flag敲入肽IP-MS分析进一步验证了包括上述代表性预测在内的几种相互作用,从而增强了该预测框架的可信度(补充信息,图S6a‒h和表S16)。
此外,这些肽还预测参与了与细胞器相关的途径:pep1-nc-OLMALINC与细胞色素c氧化酶的组装相关(图4k),pep5-nc-TRHDE-AS1与脂肪酸转运过程相关(图4l),pep-nc-ZNF436-AS1与呼吸链复合物IV的组装相关(图4m),而pep2-nc-AC027045.3与细胞色素复合物的组装相关(图4n)。
Para_05
总之,这种基于结构的综合相互作用组学框架使得对这些肽的功能预测系统化。综合发现表明它们作为蛋白质复合物支架和代谢调节剂的多样化角色。
这些见解为深入剖析特定肽功能及其致病贡献的机制铺平了道路。
Functional validation of organelle-localized peptides that regulate metabolism processes
对调节代谢过程的细胞器定位肽的功能验证
Para_01
基于结构的相互作用组为前100个肽候选物中的34个提出了特定的亚细胞定位(补充信息,表S17)。为了验证这些预测,我们生成了C端Flag融合构建体并进行了免疫荧光染色。值得注意的是,34个肽中有26个表现出与预测一致的定位模式,分布在各种细胞器和亚细胞结构中,包括溶酶体、线粒体、内质网、细胞核和质膜(图5a;补充信息,表S17)。
与上述功能预测一致,四个重点关注的候选物也表现出特定的定位。pep1-nc-OLMALINC、pep-nc-ZNF436-AS1和pep2-nc-AC027045.3定位于线粒体,而pep5-nc-TRHDE-AS1定位于溶酶体(图5a;补充信息,图S6i)。
Fig. 5: Novel peptide affects cellular metabolic processes by regulating organelle function.
- 图片说明
◉ 在AGS细胞中通过免疫荧光染色检测了肽(Flag)和特定的细胞器(线粒体:TOM20;内质网:Calnexin;溶酶体:LAMP1;膜:ATP1A1;细胞质:GAPDH;细胞核:CDK1;核膜:Lamin A/C)。比例尺:10 μm。
◉ 在pep1-nc-OLMALINC-Flag敲入HEK-293T细胞系中,通过Co-IP分析了pep1-nc-OLMALINC-Flag与NDUB1之间的相互作用。
◉ 在pep5-nc-TRHDE-AS1-Flag敲入HEK-293T细胞系中,通过Co-IP分析了pep5-nc-TRHDE-AS1-Flag与FABP1之间的相互作用。
◉ 在pep-nc-ZNF436-AS1-Flag敲入HEK-293T细胞系中,通过Co-IP分析了pep-nc-ZNF436-AS1-Flag与PET100之间的相互作用。
◉ 在pep2-nc-AC027045.3-Flag敲入HEK-293T细胞系中,通过Co-IP分析了pep2-nc-AC027045.3-Flag与STMP1之间的相互作用。
◉ 检测了相对线粒体ATP的生成。空载体过表达(EV)、pep1-nc-OLMALINC过表达(OV)、起始密码子突变的pep1-nc-OLMALINC过表达(Mutant)AGS细胞用记录缓冲液(含5 mM 2-DG和5 mM丙酮酸)处理,以确定线粒体ATP合成过程中的ATP生成。单因素方差分析后进行Tukey检验;
P < 0.01,ns,无显著性。
◉ 检测了相对线粒体ATP的生成。空载体过表达(EV)、pep-nc-ZNF436-AS1过表达(OV)、起始密码子突变的pep-nc-ZNF436-AS1过表达(Mutant)AGS细胞用记录缓冲液(含5 mM 2-DG和5 mM丙酮酸)处理,以确定线粒体ATP合成过程中的ATP生成。单因素方差分析后进行Tukey检验;
P < 0.01,ns,无显著性。
◉ 使用Seahorse XF24分析仪监测了空载体过表达(EV)、pep-nc-ZNF436-AS1过表达(OV)、起始密码子突变的pep-nc-ZNF436-AS1过表达(Mutant)AGS细胞的OCR谱型。代谢抑制剂在不同时间点注入。双向方差分析;
P < 0.01,ns,无显著性。
◉ 使用Seahorse XF24分析仪监测了空载体过表达(EV)、pep1-nc-OLMALINC过表达(OV)、起始密码子突变的pep1-nc-OLMALINC过表达(Mutant)AGS细胞的OCR谱型。代谢抑制剂在不同时间点注入。双向方差分析;
P < 0.01,ns,无显著性。
◉ 在空载体过表达(EV)、pep-nc-ZNF436-AS1过表达(OV)、起始密码子突变的pep-nc-ZNF436-AS1过表达(Mutant)AGS细胞中检测了相对复合物IV的活性。单因素方差分析后进行Tukey检验;
P < 0.01,ns,无显著性。
◉ 使用Seahorse XF24分析仪监测了空载体过表达(EV)、pep2-nc-AC027045.3过表达(OV)、起始密码子突变的pep2-nc-AC027045.3过表达(Mutant)AGS细胞的OCR谱型。代谢抑制剂在不同时间点注入。双向方差分析;
P < 0.01,ns,无显著性。
◉ 检测了相对线粒体ATP的生成。空载体过表达(EV)、pep2-nc-AC027045.3过表达(OV)、起始密码子突变的pep2-nc-AC027045.3过表达(Mutant)AGS细胞用记录缓冲液(含5 mM 2-DG和5 mM丙酮酸)处理,以确定线粒体ATP合成过程中的ATP生成。单因素方差分析后进行Tukey检验;
P < 0.01,ns,无显著性。
◉ 在空载体过表达(EV)、pep5-nc-TRHDE-AS1过表达(OV)、起始密码子突变的pep5-nc-TRHDE-AS1过表达(Mutant)AGS细胞中检测了溶酶体胆固醇。单因素方差分析后进行Tukey检验;
P < 0.01,ns,无显著性。
◉ 在空载体过表达(EV)、pep5-nc-TRHDE-AS1过表达(OV)、起始密码子突变的pep5-nc-TRHDE-AS1过表达(Mutant)AGS细胞中检测了细胞胆固醇。单因素方差分析后进行Tukey检验;
P < 0.01,ns,无显著性。
◉ 在AGS细胞中检测了胆固醇刺激(chol+)(50 μM,2小时)和胆固醇缺乏(chol–)(0.5%甲基-β-环糊精,3小时)条件下的细胞TRHDE-AS1表达水平。单因素方差分析后进行Tukey检验;
P < 0.01,ns,无显著性。
◉ 在AGS细胞中检测了葡萄糖缺乏时间梯度(0-120分钟)处理条件下的细胞AC027045.3表达水平。单因素方差分析后进行Tukey检验;**P < 0.01,ns,无显著性。
Para_02
此外,我们试图验证这些四个肽的可能功能机制,这些建议来自于相互作用组和功能网络分析。我们通过体内使用肽-Flag敲入细胞系以及体外纯化的重组肽和蛋白质验证了为这些肽预测的关键蛋白相互作用(补充信息,图S6j):pep1-nc-OLMALINC与NDUB1(图5b;补充信息,图S6k),pep5-nc-TRHDE-AS1与FABP1(图5c;补充信息,图S6l),pep-nc-ZNF436-AS1与PET100(图5d;补充信息,图S6m),以及pep2-nc-AC027045.3与STMP1(图5e;补充信息,图S6n)。
功能检测进一步证实了这些肽在调节其预测通路中的作用。pep1-nc-OLMALINC和pep-nc-ZNF436-AS1促进了线粒体ATP的产生(图5f,g)、氧气消耗(图5h,i)以及复合物活性(图5j),而pep2-nc-AC027045.3则抑制了这些过程(图5k,l)。
值得注意的是,这些代谢表型依赖于肽而不是宿主长链非编码RNA转录本。对于pep5-nc-TRHDE-AS1来说,其溶酶体定位及其与FABP1的相互作用增强了胆固醇代谢,表现为pep5-nc-TRHDE-AS1过表达的AGS细胞系中溶酶体和细胞胆固醇水平的增加(图5m,n)。
此外,TRHDE-AS1的表达水平在胆固醇补充时增加,但在胆固醇耗尽时减少(图5o),而AC027045.3在葡萄糖饥饿后表现出时间依赖性的上调(图5p)。这些调控动态表明它们显示出对代谢产物响应的表达模式。
Para_03
这些肽所展示的重要功能使我们对它们在进化过程中的位置产生了兴趣。我们检查了肽编码基因组位点的跨物种序列保守性。
例如,pep5-nc-TRHDE-AS1 的 C 端几乎在所有物种中都不存在,除了智人,而 pep1-nc-OLMALINC 的 N 端仅在灵长类动物中完全存在(补充信息,图 S7a‒d)。
有趣的是,这些肽在与智人密切相关的物种中高度保守(补充信息,图 S7e‒h),表明它们起源相对较近。
Para_04
总的来说,通过综合多方面的研究方法,我们在这项工作中表征了新发现的一组肽的关键调控角色和机制。这些肽通过与位于细胞器中的蛋白质伙伴相互作用,并动态响应代谢信号,影响基本的代谢过程。
这些发现表明,某些肽是重要的代谢调节因子,其起源与最近的人猿进化相关。
In vivo functional characterization and clinical relevance of peptides in gastric cancer
体内功能表征和胃癌中肽的临床相关性
Para_01
在阐明这些肽的细胞功能后,我们使用体内异种移植模型研究了它们的病理生理重要性,重点是代表性的致癌肽 pep5-nc-TRHDE-AS1 和抑癌肽 pep2-nc-AC027045.3。令人惊讶的是,在 BALB/c 裸鼠中,敲除 pep5-nc-TRHDE-AS1 或过表达 pep2-nc-AC027045.3 可以显著抑制肿瘤生长。
免疫组化分析显示,pep2-nc-AC027045.3 的水平与增殖标志物 Ki67 和 CD31 的强度呈负相关,而 pep5-nc-TRHDE-AS1 的水平与这两种标志物的强度呈正相关。
此外,过表达 pep2-nc-AC027045.3 或缺乏 pep5-nc-TRHDE-AS1 的小鼠表现出延长的生存期。
总的来说,这些体内数据证明了这些肽在调节肿瘤恶性程度方面的病理生理重要性。
Fig. 6: Clinical implications and therapeutic prospects of peptides in gastric cancer.
- 图片说明
◉ 使用WT、pep5-nc-TRHDE-AS1 KO、pep5-nc-TRHDE-AS1 KO-WT ORF回补(Rescue)或pep5-nc-TRHDE-AS1 KO起始密码子突变ORF回补(Mutant)AGS细胞在BALB/c裸鼠中建立异种移植小鼠模型(每组n = 5只小鼠)。体内生成的肿瘤如图所示。
◉ 分析WT、pep5-nc-TRHDE-AS1 KO、pep5-nc-TRHDE-AS1 KO-WT ORF回补(Rescue)或pep5-nc-TRHDE-AS1 KO起始密码子突变ORF回补(Mutant)AGS细胞在异种移植Balb/c裸鼠模型中的肿瘤生长和体积。数据表示为每组n = 5只小鼠的均值±标准误。双向方差分析;
P < 0.01,ns,无显著性。
◉ 分析WT、pep5-nc-TRHDE-AS1 KO、pep5-nc-TRHDE-AS1 KO-WT ORF回补(Rescue)或pep5-nc-TRHDE-AS1 KO起始密码子突变ORF回补(Mutant)AGS细胞在异种移植小鼠模型中的肿瘤重量。数据表示为每组n = 5只小鼠的均值±标准误。单因素方差分析后进行Tukey检验;
P < 0.01,ns,无显著性。
◉ 通过ImageJ量化了WT、pep5-nc-TRHDE-AS1 KO、pep5-nc-TRHDE-AS1 KO-WT ORF回补(Rescue)或pep5-nc-TRHDE-AS1 KO起始密码子突变ORF回补(Mutant)AGS细胞在指定免疫组织化学(IHC)染色中的Ki67相对强度。数据表示为每组n = 5个异种移植肿瘤样本的均值±标准差。单因素方差分析后进行Tukey检验;
P < 0.01,ns,无显著性。
◉ 注射了WT、pep5-nc-TRHDE-AS1 KO、pep5-nc-TRHDE-AS1 KO-WT ORF回补(Rescue)或pep5-nc-TRHDE-AS1 KO起始密码子突变ORF回补(Mutant)AGS细胞的小鼠的存活率。每组n = 8只小鼠。对数秩检验;*P < 0.05,ns,无显著性。
◉ 使用空载体(EV)、pep2-nc-AC027045.3过表达(OV)或pep2-nc-AC027045.3起始密码子突变过表达(Mutant)AGS细胞在BALB/c裸鼠中建立异种移植小鼠模型(每组n = 5只小鼠)。体内生成的肿瘤如图所示。
◉ 分析空载体(EV)、pep2-nc-AC027045.3过表达(OV)或pep2-nc-AC027045.3起始密码子突变过表达(Mutant)AGS细胞在异种移植Balb/c裸鼠模型中的肿瘤生长和体积。数据表示为每组n = 5只小鼠的均值±标准误。双向方差分析;
P < 0.01,ns,无显著性。
◉ 分析空载体(EV)、pep2-nc-AC027045.3过表达(OV)或pep2-nc-AC027045.3起始密码子突变过表达(Mutant)AGS细胞在异种移植小鼠模型中的肿瘤重量。数据表示为每组n = 5只小鼠的均值±标准误。单因素方差分析后进行Tukey检验;
P < 0.01,ns,无显著性。
◉ 通过ImageJ量化了空载体(EV)、pep2-nc-AC027045.3过表达(OV)或pep2-nc-AC027045.3起始密码子突变过表达(Mutant)AGS细胞在指定免疫组织化学(IHC)染色中的Ki67相对强度。数据表示为每组n = 5个异种移植肿瘤样本的均值±标准差。单因素方差分析后进行Tukey检验;
P < 0.01,ns,无显著性。
◉ 注射了空载体(EV)、pep2-nc-AC027045.3过表达(OV)或pep2-nc-AC027045.3起始密码子突变过表达(Mutant)AGS细胞的小鼠的存活率。每组n = 8只小鼠。对数秩检验;
P < 0.05,ns,无显著性。
◉ 肿瘤中OLMALINC的相对RNA水平归一化到配对非肿瘤组织作为差异表达值(T/N),Wilcoxon配对符号秩检验;
P < 0.001。
◉ 肿瘤中TRHDE-AS1的相对RNA水平归一化到配对非肿瘤组织作为差异表达值(T/N),Wilcoxon配对符号秩检验;
P < 0.001。
◉ 肿瘤中ZNF436-AS1的相对RNA水平归一化到配对非肿瘤组织作为差异表达值(T/N),Wilcoxon配对符号秩检验;
P < 0.001。
◉ 肿瘤中AC027045.3的相对RNA水平归一化到配对非肿瘤组织作为差异表达值(T/N),Wilcoxon配对符号秩检验;
*P < 0.001。
◉ 浙江大学医学院附属第二医院队列中胃癌患者(n = 80)低或高OLMALINC RNA水平的总生存曲线Kaplan-Meier分析。RNA水平通过qRT-PCR检测相对于GAPDH。Kaplan-Meier分析以及对数秩检验。
◉ 浙江大学医学院附属第二医院队列中胃癌患者(n = 80)低或高TRHDE-AS1 RNA水平的总生存曲线Kaplan-Meier分析。RNA水平通过qRT-PCR检测相对于GAPDH。Kaplan-Meier分析以及对数秩检验。
◉ 浙江大学医学院附属第二医院队列中胃癌患者(n = 80)低或高ZNF436-AS1 RNA水平的总生存曲线Kaplan-Meier分析。RNA水平通过qRT-PCR检测相对于GAPDH。Kaplan-Meier分析以及对数秩检验。
◉ 浙江大学医学院附属第二医院队列中胃癌患者(n = 80)低或高AC027045.3 RNA水平的总生存曲线Kaplan-Meier分析。RNA水平通过qRT-PCR检测相对于GAPDH。Kaplan-Meier分析以及对数秩检验。
◉ 通过IHC检测在72例原发性人类胃癌标本(浙江大学医学院附属第二医院队列)中pep1-nc-OLMALINC的表达情况。显示了三个代表性病例(三个肿瘤和配对非肿瘤组织)的图像。比例尺:100 µm。
◉ 通过IHC检测在72例原发性人类胃癌标本(浙江大学医学院附属第二医院队列)中pep5-nc-TRHDE-AS1的表达情况。显示了三个代表性病例(三个肿瘤和配对非肿瘤组织)的图像。比例尺:100 µm。
◉ 通过IHC检测在72例原发性人类胃癌标本(浙江大学医学院附属第二医院队列)中pep-nc-ZNF436-AS1的表达情况。显示了三个代表性病例(三个肿瘤和配对非肿瘤组织)的图像。比例尺:100 µm。
◉ 通过IHC检测在72例原发性人类胃癌标本(浙江大学医学院附属第二医院队列)中pep2-nc-AC027045.3的表达情况。显示了三个代表性病例(三个肿瘤和配对非肿瘤组织)的图像。比例尺:100 µm。
◉ 新型肽组学示意图。
Para_02
为了进一步评估它们的临床相关性,我们通过RT-qPCR评估了胃癌患者匹配的肿瘤/正常组织中它们的宿主基因(OLMALINC、TRHDE-AS1、ZNF436-AS1、AC027045.3)的表达情况。
与细胞表型一致,OLMALINC、TRHDE-AS1和ZNF436-AS1在肿瘤中的表达显著上调(图6k‒m),而AC027045.3在正常组织中表达较高(图6n)。
根据中位表达水平对患者进行分层,生存分析显示高OLMALINC/TRHDE-AS1/ZNF436-AS1或低AC027045.3表达与较差的预后相关(图6o‒r),这与之前将TRHDE-AS1高表达与胃癌不良结果相关的报道一致。
Para_03
免疫组化证实,与匹配的正常样本相比,肿瘤中pep1-nc-OLMALINC、pep5-nc-TRHDE-AS1和pep-nc-ZNF436-AS1肽的丰度更高,而pep2-nc-AC027045.3则表现出相反的模式(图6s‒v)。这些恶性与非恶性状态之间一致的RNA和蛋白质水平差异进一步提名这些肽作为潜在的癌症生物标志物。
Para_04
此外,我们假设这些内源性产生的肽可能作为生物相容性剂,适合于药物开发。我们通过体外合成和给药验证了两种肽,pep2-nc-SNHG14 和 pep-nc-AL365361.1,在 AGS 细胞上的增殖调节效果,具有适合药物开发的 EC50/IC50 值(补充信息,图 S8c‒f)。
Para_05
总之,通过体内肿瘤模型和临床分析,我们证明了特定肽在调节癌症发病机制中的深远生理影响。这些发现对治疗性肽的应用具有相当大的前景。
Discussion
Para_01
发现和功能注释新型肽是蛋白质组学和基因组学的关键前沿领域。技术限制阻碍了某些转录本的编码产物的鉴定,特别是那些非编码RNA的转录本。在我们的研究中,基于超滤的串联质谱策略的出现规避了传统蛋白质干扰的限制,实现了从与人类胃癌相关的样本中高精度地发现了8945种新型非典型肽。
Para_02
我们的CRISPR筛选确定了1161个肽候选物,这些肽影响了AGS细胞的增殖。值得注意的是,这些肽中的大多数似乎作为促增殖调节因子发挥作用,这与之前的研究一致,符合癌细胞的增殖特性。
然而,重要的是要认识到,由于胃癌组织和AGS细胞系之间的差异,潜在的假阴性可能导致功能性肽的低估。
因此,扩大筛选条件和模型的范围,包括体内肿瘤转移试验,可能会揭示这些肽更详细的功能图谱。
Para_03
与最近的发现一致,大多数新肽在进化上是年轻的,强调了它们在进化上的重要性及其在细胞功能中的潜在作用,特别是在高等生物复杂的组装过程中。
值得注意的是,很大一部分新肽定位于线粒体,这一结论得到了我们的研究和先前研究的支持。
这些新肽的进化属性和线粒体定位可能反映了高等生物增加的代谢和增殖需求。
进一步的研究对于增进我们对这些肽的遗传和细胞特性的理解是必要的。
Para_04
我们的研究强调了一系列在胃癌细胞增殖中具有调节作用的肽,其中一部分已在动物模型和临床样本中得到验证,突显了它们作为生物标志物的潜力。
特别是,那些在肿瘤组织中特异性表达的肽可能具有诊断意义。
然而,由于这些肽的低丰度和短长度,通过质谱直接鉴定这些肽具有挑战性。
整合转录组学、翻译组学和蛋白质组学分析可能克服这些挑战。
Para_05
此外,内源性产生的具有抗肿瘤特性的短肽是治疗开发的有前途的候选者。
例如,我们的研究表明,一种由18个氨基酸组成的肽pep2-nc-SNHG14成为潜在的药物开发候选者。
此外,我们的质谱分析鉴定出超过700个少于20个氨基酸的肽,这些肽符合具有药物发现潜力的短序列内源性肽的标准。
需要对这些肽进行全面的功能分析,并对其肽和递送系统进行后续改进,以便为这些肽成为有价值的药物资产铺平道路。
Para_06
"隐秘肽组学"领域正在迅速扩展(图6w)。然而,以前的研究表明,已鉴定的肽之间的重叠非常少,这表明存在一个很大程度上未被探索的蛋白质组。
值得注意的是,我们鉴定出的4097个肽仅由一个PSM支持。
我们通过质谱分析鉴定出的这些肽的存在需要更严格的验证。
因此,我们已将它们的注释光谱上传到公共数据库,以供科学界审查(参见数据可用性)。
虽然我们在研究中通过功能蛋白组学或分子生物学方法验证了一些这些肽,但仍有很大一部分需要系统地验证。
此外,本研究仅专注于胃癌,仅揭示了新型肽组的一小部分。
这项巨大的任务强调了需要集体努力来汇总和整合来自其他新型肽或蛋白质组研究的数据。
为此,我们建立了人类新型肽图谱数据库(http://hmpa.zju.edu.cn/),这是一个定期更新的新肽研究存储库。
其目标是编纂完整的新型肽数据集,为研究人员提供宝贵的资源,并增强我们对人类肽组的理解。
Contact for reagent and resource sharing
联系以共享试剂和资源
Para_01
Materials and methods
Cell lines
细胞系
Para_01
人胚胎肾细胞系HEK293T(RRID:CVCL_0063)、人胃癌细胞系AGS(RRID:CVCL_0139)、人胃癌细胞系MKN45(RRID:CVCL_0434)、与人类乳头瘤病毒相关的子宫内膜腺癌细胞系HeLa(RRID:CVCL_0030)和人胃黏膜上皮细胞GES-1(RRID:CVCL_EQ22)购自中国国家认证细胞库。所有细胞在使用前均进行了支原体污染的阴性检测,并基于短串联重复指纹鉴定进行验证。
Mice
老鼠
Para_01
所有动物实验均按照机构动物护理和使用委员会批准的方案进行。实验动物的护理遵循指南,并由浙江大学实验室动物委员会批准。
雌性裸鼠(Balb/c 品系;4-6 周龄)购自上海实验动物中心,并用于异种移植小鼠模型检测。
在整个研究期间,动物被饲养在无病原体屏障环境中(约 20°C,湿度 40%,12 小时光暗周期)。
Tissue samples
组织样本
Para_01
用于微肽质谱检测的新鲜胃癌和正常组织取自浙江大学医学院附属第二医院。所有样本均在患者知情同意的情况下收集,并且所有相关程序都获得了浙江大学医学院附属第二医院内部审查和伦理委员会的批准。
Para_02
另有90名具有完整临床病理特征和随访数据的患者在浙江大学医学院附属第二医院接受了手术,并被组织学诊断为胃癌,参与了研究。
由美国癌症联合委员会(AJCC)发布的TNM分期指南(2016年版)对组织学癌症类型进行了评估,由两名独立的病理学家进行评价。
我们对90个组织中的72个完整组织形式进行了免疫组化染色,以便进行以下分析。
实验获得了浙江大学医学院附属第二医院伦理委员会的批准。
Cloning procedures
克隆程序
Para_01
全长sORF通过PCR从HEK293T或AGS cDNA中克隆。所有真核过表达基因都使用ClonExpress II一步克隆试剂盒(Vazyme)克隆到pcDNA3.1-Flag空载体或PLVX-SFB空载体中。
Putative sORF database (RLNPORF) construction
假定的sORF数据库(RLNPORF)构建
Para_01
为了构建初步的sORF数据库,我们使用了Ribotricer软件套件中的prepare-orfs工具(https://github.com/smithlabcode/ribotricer)。这个工具有助于从原始fasta文件和GTF注释文件中提取潜在的开放阅读框(ORFs)。
构建过程涉及以下参数:"--gtf"参数用于导入参考基因注释文件,可以从Ensembl数据库下载(Hg38,v103,http://ftp.ensembl.org/pub/release-103/gtf/homo_sapiens/);
"--fasta"参数用于导入序列文件,也可以从Ensembl数据库下载(http://ftp.ensembl.org/pub/release-103/fasta/homo_sapiens/dna/);
"--start_codons"参数设置为识别四种典型的起始密码子(ATG/CTG/GTG/TTG),以确保识别出的ORFs符合启动蛋白质合成的标准。
然后根据它们的基因组坐标从fasta文件中提取并连接ORF序列。
最后,通过micropan(v2.1)生成氨基酸序列。
计算翻译后的氨基酸序列长度,并将长度超过250个氨基酸的序列从最终的假设sORF数据库中排除。
Para_02
为了对这些肽进行遗传和生物学特征注释,核糖体切片器将在ORF提取和连接后,标注基因组位置、染色体、转录信息、转录分类、起始密码子等位置和分类信息。
通过默认参数使用Phastcons计算保守性得分,从UCSC下载了20种哺乳动物数据的索引(https://hgdownload.cse.ucsc.edu/goldenPath/hg38/phastCons20way/)。
编码概率得分通过CPAT(https://github.com/liguowang/cpat)计算。
LC-MS/MS detection and identification of sORFs
通过LC-MS/MS检测和鉴定sORFs
Para_01
在湿度低于30%的日子里,使用预冷的研钵和研杵在持续添加液氮的情况下将速冻组织磨成粉末。100毫克的粉末组织和适量的细胞被重悬于2毫升裂解缓冲液(7 M 尿素,2 M 硫脲,100 mM DTT,4% CHAPS,0.5 mM EDTA,40 mM Tris,2% NP40,1% Triton X-100)中,并通过超声处理进行裂解。
上清液被转移到30 kDa、10 kDa和3 kDa的超滤管(Millipore;UFC9030,UFC9010,UFC 9003)中,并以13,000× g的速度离心20分钟。3‒10 kDa和< 3 kDa的蛋白质裂解物用于后续的质谱分析。
Para_02
沉淀后,进行胰蛋白酶消化(1:50 w/w),还原(DTT,5 mM),烷基化(IAM,12 mM)和其他处理,然后样品通过C18柱(内径75 μm,外径360 μm,长度150 mm,2 μm C18)分离。每个样品注射一次。
结合的肽在70分钟内以恒定流速300 nL/min洗脱,流动相为水/0.1% FA和80% ACN/0.1% FA(分别为A和B),从2% B开始并在58分钟内增加到28%,随后在65分钟内增加到35% B,在70分钟内增加到98% B。
Thermo Q Exactive HF-X质谱仪使用Xcalibur 4.1软件编程以数据依赖模式运行。采集序列始于Orbitrap中的单个全扫描质谱(350–1800 m/z,60,000分辨率),接着是20次数据依赖的MS/MS扫描,归一化碰撞能量为30%。
自动增益控制目标设置为3e6,最大注入时间为50 ms。MS2光谱以15,000分辨率获取。
每个质谱使用Thermo Xcalibur Qual Browser和Proteome分析。
Para_03
MS肽序列及因此蛋白质的身份是通过使用Mascot软件程序(Matrix Science,波士顿,MA,美国)在蛋白质数据库中匹配碎片模式来确定的。
酶特异性设定为部分胰蛋白酶消化,允许两次缺失切割。
肽的修饰包括羧基酰胺化(半胱氨酸,可变)、氧化(甲硫氨酸,可变)、磷酸化(S、T、Y、H,可变)和乙酰化(N端、K,可变)。
质量容差设定为前体离子和片段离子均为20 ppm。
光谱匹配通过目标-诱饵方法过滤,使肽水平的假发现率小于1%。
UniProtKB_Reviewed(Swiss-Prot)中的蛋白质被设置为‘污染物’以排除其干扰。
光谱匹配的结果根据RLNPORF进行注释并手动过滤。
被注释为"已注释"的ORF类型的肽,即这种蛋白质/肽已在UniProtKB_Reviewed数据库中鉴定并包含,将被丢弃(有关ORF类型定义规则,请参阅https://github.com/smithlabcode/ribotricer)。
完全嵌入UniProtKB_Reviewed数据库中所含蛋白质内的IntORFs将被丢弃。
不同样本的搜索结果将进行比较,并检查彼此重叠的冗余ORFs。
如果识别出冗余ORFs且较长的ORF包含由特定PSM支持的独特序列,则较短的重叠ORF将被丢弃。
Cell transfection, treatment, and lentiviral-based gene transduction
细胞转染、处理和基于慢病毒的基因转导
Para_01
人胚胎肾细胞系HEK293T、与人类乳头瘤病毒相关的子宫颈内腺癌细胞系HeLa、人类胃黏膜上皮细胞GES-1和人类胃癌细胞系MKN45在含有10%胎牛血清的DMEM培养基中于37°C、5% CO2(体积/体积)条件下培养,而人类胃癌细胞系AGS则在含有10%胎牛血清的F-12K培养基中培养。所有细胞在使用前均经过支原体污染检测呈阴性,并基于短串联重复指纹图谱进行了鉴定。
Para_02
慢病毒包装载体VSVG和psPAX2,连同过表达基因质粒一起转染到HEK-293T细胞中以生产慢病毒。在转染后48小时和72小时收获病毒,并用于转导AGS细胞,随后用3 µg/mL的嘌呤霉素进行筛选。
RT-qPCR assay
实时定量聚合酶链反应检测
错误!!! - 待补充
Xenograft mouse model
异种移植小鼠模型
Para_01
所有动物实验均按照机构动物护理和使用委员会批准的方案进行。小鼠被安置在一个积极提供环境丰富化的屏障设施中,并随意喂食正常饲料和水。
用无菌PBS制备的肿瘤细胞在30 µL中,通过100 μL无菌注射器分别注射到4-6周龄雌性BALB/c裸鼠的两侧。
每2或3天使用卡尺测量肿瘤大小,并使用标准公式计算肿瘤体积:0.54 × L × W²,其中L表示最长直径,W表示最短直径。
当小鼠达到机构规定的肿瘤大小(长度或宽度 > 1.5 cm)或整体健康状况的安乐死标准时,对其进行安乐死处理。
Immunofluorescence
免疫荧光
Para_01
细胞在腔室载玻片上过夜培养,并在室温下用3.7%的PBS甲醛固定10分钟,然后用PBS中的0.5% Triton X-100透化10分钟。
接着,在室温下用PBS中的5% FBS封闭细胞30分钟,并在室温下与指定的一抗孵育1小时,然后在室温下与Abcam提供的抗兔(或小鼠)IgG(H + L),F(ab′)2片段(Alexa Fluor 594或488结合物)孵育30分钟。
盖玻片使用带有DAPI的抗褪色封片介质安装在载玻片上。
免疫荧光(IF)图像在Olympus FV3000共聚焦显微镜上采集。
荧光图像使用Olympus的FV31S-SW Viewer(v2.3.1)和FV31S-DT(v2.3.1)软件获得。
IHC staining
免疫组织化学染色
Para_01
石蜡包埋的组织首先在二甲苯中脱蜡,然后通过标准的酒精系列进行再水化,随后在柠檬酸缓冲液中以100°C加热15分钟进行抗原修复。
指示的一抗在3% BSA中稀释,并滴加到组织切片上,在4°C下孵育过夜。
切片用PBS洗涤后,与3% BSA稀释的抗兔或小鼠HRP-二抗在室温下孵育60分钟。
切片在50%、70%、80%、95%和100%的乙醇中脱水,并用封固剂稳定。
图像使用Olympus BX43显微镜和Olympus cellSens Dimension软件采集。
IHC染色密度的定量使用ImageJ(Fiji v1.51j)软件测量,并基于平均染色强度和阳性染色细胞的百分比计算。
Cell lysis and immunoblotting
细胞裂解和免疫印迹
Para_01
细胞在PBS中收获并在含有蛋白酶抑制剂混合物、磷酸酶抑制剂混合物、帕诺比司他和甲基统计的NETN缓冲液(25 mM Tris-HCl(pH 8.0),100 mM NaCl,1 mM EDTA和0.5 mM二硫苏糖醇(DTT))中均质化。
裂解物在4°C下以13,000× g离心15分钟进行澄清。
印迹信号使用Clarity Western ECL底物(Bio-Rad)检测。
至于标记蛋白的免疫沉淀,主要抗体和蛋白A/G珠被替换为Flag-M2磁珠(Sigma)或HA磁珠(Pierce)。
Flag沉淀的蛋白质通过3× Flag肽(APExBio)洗脱。
印迹图像使用Image Lab v4.1软件(Bio-Rad)获得。
Polysome profiling
多聚核糖体分析
Para_01
总共,6 × 10^6个细胞用100 μg/mL的环己酰亚胺(CHX)(Sigma-Aldrich)处理了5分钟。细胞用多聚体裂解缓冲液(15 mmol/L Tris-HCl, 5 mmol/L MgCl2, 100 mmol/L KCl, 2 mmol/L DTT, 1% Triton X-100, 100 μg/mL CHX)裂解。
细胞裂解物在4°C下以16,200× g离心10分钟。上清液被保留,并在260 nm处测量吸光度。
然后将上清液加载到5%至50%蔗糖梯度(15 mmol/L Tris-HCl, 5 mmol/L MgCl2, 100 mmol/L KCl, 2 mmol/L DTT, 100 μg/mL CHX)的顶部,并在4°C下以210,000× g离心190分钟(SW 41Ti转子,Beckman)。
通过监测254 nm处的RNA吸光度,将梯度收集到12个部分中。每个部分中的RNA被提取并通过RT-qPCR定量。
CRISPR/Cas9-based genome editing
基于CRISPR/Cas9的基因组编辑
Para_01
对于基于CRISPR/Cas9的基因敲除,设计的gRNA被插入到Lenti-CRISPR v2质粒中。单细胞克隆被筛选出来,并使用基因组DNA作为模板进行PCR。
Para_02
为了进行基因敲入,设计并商业合成了供体寡核苷酸(Tsingke Biotech)。靶向载体与供体载体共转染到细胞中,随后用嘌呤霉素(3 μg/mL)进行筛选。通过western blot和免疫荧光检测Flag的表达来检查敲入效率。
Para_03
为了进行基因敲除(KO)和回补实验,肽的开放阅读框(ORFs)被克隆到pcDNA3.1空载体中。将慢病毒包装载体VSVG和psPAX2以及一个过表达基因质粒转染到HEK-293T细胞中以生产慢病毒。
在转染后48小时和72小时收获病毒,并用于sORF-KO AGS细胞的转导,随后使用3 µg/mL的嘌呤霉素进行筛选。
Para_04
Conservativeness analysis and homologous sequence analysis
保守性分析和同源序列分析
Para_01
从Ensembl数据库下载了灵长类和哺乳动物的肽相关基因组DNA的比对序列(https://ensembl.org/Homo_sapiens/Gene?compara_Alignments),使用MEGA 11(https://www.megasoftware.net/)生成了进化树。进化树和比对序列通过ggtree(v3.4.4)进行了可视化。
Protein recombination and purification
蛋白质重组和纯化
Para_01
重组肽MBP-pep-nc-ZNF436-AS1-His、MBP-pep1-nc-OLMALINC-His、MBP-pep5-nc-TRHDE-AS1-His和MBP-pep2-nc-AC027045.3-His在大肠杆菌菌株BL21-CodonPlus (DE3)-RIPL (Agilent Technologies)中表达,并使用Ni-NTA Sefinose树脂(Sangon Biotech)进行纯化。重组蛋白NDUB1-GST、FABP1-GST、STMP1-GST和PET100-GST在大肠杆菌菌株BL21-CodonPlus (DE3)-RIPL (Agilent Technologies)中表达,并使用GST磁珠(Sangon Biotech)进行纯化。重组蛋白的浓度和纯度通过SDS-PAGE和考马斯亮蓝染色,以标准BSA作为对照进行测量。
In vitro protein pull-down assay
体外蛋白质下拉实验
Para_01
使用GST磁珠纯化的GST标签蛋白与用NTR-Ni树脂纯化的His标签蛋白(1-3 µg)在4°C下温和旋转孵育2小时,孵育体积为500 µL的结合缓冲液(50 mM Tris-HCl(pH 7.9),10%甘油,100 mM KCl,5 mM MgCl2,10 mM β-巯基乙醇和0.1% NP-40)。然后,在4°C下旋转洗涤珠子三次,每次5分钟。然后,用50 μL的2× SDS上样缓冲液洗脱珠子,并通过免疫印迹检测洗脱的蛋白或蛋白复合物。
Clinical feature analysis of sORF-related genes
sORF相关基因的临床特征分析
Para_01
从UCSC数据中心下载了TCGA数据库中胃癌的临床特征和表达数据。临床相关组定义如下:胃癌(GC:所有胃表达数据与所有正常数据之间的差异表达基因);早期胃癌(EGC:所有T1阶段胃表达数据与所有正常数据之间的差异表达基因);幽门螺杆菌(HP:肿瘤样本中阳性幽门螺杆菌数据与阴性数据之间的差异表达基因);转移(肿瘤样本中M1数据与M0数据之间的差异表达基因);复发(肿瘤样本中复发数据与非复发数据之间的差异表达基因)。
病理分类:亚病理表达数据与正常数据之间的差异表达基因。临床分期分类:临床分期表达数据与正常数据之间的差异表达基因。来自TCGA的所有差异表达基因均通过DESeq2(v1.30.1)进行分析。
数据集GSE122130用于分析与顺铂耐药相关的基因。表达数据从GEO数据库下载。使用trim_galore(v0.0.1)去除含有适配器的读取并修剪低质量碱基后获得干净数据,参考基因组从Ensembl数据库下载。
构建了参考基因组索引,并使用STAR(v2.7.4a)将双端干净读取与参考基因组对齐。顺铂耐药组与对照组之间的差异表达基因通过DESeq2(v1.30.1)进行分析。
GSE128967是一个与化疗FOLFOX策略相关的数据集,表达数据从GEO数据库下载。原发性耐药(PR)组或获得性药物(AR)耐药组与对照组之间的差异表达基因通过DESeq2(v1.30.1)进行分析。
GSE154127是一个与5FU耐药相关的数据集,5FU耐药组与对照组之间的差异表达基因通过NCBI的在线工具geo2r(默认分析包:limma版本)进行分析。
所有显著变化的基因定义为绝对值log2转换后的倍数变化> 1且调整后的P < 0.05。从UCSC数据中心下载了目标基因的拷贝数数据,标记了与sORFs相关的基因。
CRISPR screening and data analysis
CRISPR 筛选和数据分析
Para_01
本研究中针对ORFs的sgRNA是使用Broad研究所的GPP sgRNA设计工具为链球菌Cas9设计的,该工具基于人类基因组GRCh38组装的基因组坐标(https://portals.broadinstitute.org/gpp/public/analysis-tools/sgrna-design)。
仅对ORF的外显子编码区及其5’UTR(定义为起始密码子上游1000 bp以内)进行了sgRNA设计,最多为靶向编码区设计了八个sgRNA,并使用CRISPick为5’UTR设计了最多四个sgRNA(https://portals.broadinstitute.org/gppx/crispick/public)。
该文库包含341个阳性对照和1041个未靶向的sgRNA。
Para_02
在每种细胞系中确定了最佳感染条件,以实现30%–50%的感染效率,这对应于约0.5–1的感染复数(MOI)。
在6平方厘米的培养皿中进行旋转感染,使用3 × 10^7个细胞,以确保在嘌呤霉素筛选后每个sgRNA至少有1000个细胞的代表性。
感染后大约24小时,将一个重复中的所有孔汇集在一起,并分成T225瓶。
感染后24小时,用嘌呤霉素选择细胞7天以去除未感染的细胞。
选择完成后,收获2.0 × 10^7个细胞以评估文库的初始丰度。
收获2.0 × 10^7个细胞以评估文库的最终丰度。
读取计数被标准化为每百万读取数,然后进行log2转换。
对于分析,每个肽的表型得分被指定为其编码区域的目标sgRNA读取量经过10次倍增后的平均log2倍变化,这些数据使用DESeq2进行分析。
较高的表型得分表明对细胞增殖有较强的抑制作用,而较低的得分则暗示促进细胞增殖。
设定截断值为1和-1,得分大于1表示显著的抑制效应,得分小于-1表示显著的促进效应。
基于这些得分和指定的截断值,过滤并分类出对5ʹ UTR影响最小(| 5ʹUTR 表型得分 | < 1)且对编码区有强影响(| 编码区 表型得分 | > 1)的sORFs作为命中目标sORFs。
Molecular docking
分子对接
Para_01
肽和蛋白质(例如FABP1和TRHDE-AS1)的三维结构是从AlphaFold数据库中检索的。在对接分析中,肽被视为配体,而蛋白质被视为受体。
计算是在ClusPro 2.0网络服务器上按照其默认的刚性对接指南进行的。
我们进行了无约束的模拟,使配体能够在整个蛋白质表面自由搜索最有利的结合位点。
软件PyMol(版本2.5)用于检查潜在氢键的构象模型。
Functional enrichment analysis of peptides
肽的功能富集分析
Para_01
所有肽的结构都是通过AlphaFold2使用前五种预测模型获得的,我们使用了一个深度注意力模型来识别肽结合位点,即PepNN。通过应用大于1.04的PRM评分阈值(在其他研究中通常设置为0.955),鉴定出的主要潜在相互作用蛋白被用于GO分析。
细胞成分、分子功能和生物过程使用GO数据库(G.O.; http://www.geneontology.org)进行注释,并且这些GO术语通过GOATOOLS Python库映射到其父项和祖先项的GO层级。
基于GEPHI工具的模块化社区分割算法,使用肽图谱可视化。
Data availability
Para_01
本研究中的fasta文件(RLNPORF和RLNPORF_decoy)以及具有单个PSM的肽段的注释光谱(ms_psm1)可以在Figeshare上下载(https://figshare.com/articles/journal_contribution/Reference_Library_of_Novel_Peptide_ORFs/26831161)。原始MS文件已存入ProteomeXchange(mRNA衍生肽:PXD041392,用户名:[email protected] ,密码:kC2ycIYM,ncRNA衍生肽:PXD041397,用户名:[email protected] ,密码:2KnjbP7l)。
Code availability
Para_01
RLNPORF 构建的代码可以在 GitHub 上下载(https://github.com/suxww/RLNPORF-Construction.git)。
Change history
[ul]- 10 March 2025 A Correction to this paper has been published: https://doi.org/10.1038/s41422-025-01091-x