肺癌约占所有癌症死亡的五分之一,早期发现能提高治疗有效性和生存率。用于检测早期肺癌的
循环肿瘤
DNA液体活检灵敏度低,而表观基因组检测虽有改善和进步,但早期肿瘤和小肿瘤中的灵敏度仍较低
。癌症特有的小
RNA(孤儿非编码RNA)丰富、稳定,由活的癌细胞分泌入血。然而,由于
这类RNA
在血液采样中含量低,且存在技术和生物差异性,开发通用的液体活检检测极具挑战性。
近期,来自美国加州大学旧金山分校的研究团队及合作者在
Nature Communications
发表了题为“
Deep generative AI models analyzing circulating orphan non-coding RNAs enable detection of early-stage lung cancer”的文章。研究团队采集了1050名不同分期非小细胞肺癌
(NSCLC)患者的血清样本,以及性别、年龄和
BMI匹配的对照样本,并分析了
孤儿非编码
RNA(oncRNA)。
文章发表在Nature Communications
结果证明,多任务生成式
人工智能模型
Orion在整体性能和对数据集的泛化能力方面都超越了常用的方法。
Orion在所有
分期
的癌症检测中实
现了
94%(95%CI:87%–98%)的总体灵敏度和87%(95%CI:11%–93%)的特异性
,
在留出的验证数据集中
比其他方法的灵敏度高出约
30%以上。
1. 基于
oncRNA的液体活检平台和Orion架构
该研究提出的液体活检癌症检测方法使用了新注释的肺癌产生和肿瘤释放的oncRNA作为标志物。具体而言,研究人员利用
来自癌症基因组图谱(
TCGA)的公开smRNA-seq数据发现了一组oncRNA。
与正常肺组织相比,以前未注释的稀有
smRNA在肺肿瘤中选择性表达。接下来,利用
内部血清样本数据集中所选
oncRNA特征的表达(图1a),开发了一个深度生成人工智能模型Orion,用于从大量的细胞游离oncRNA中
检测癌症(图
1b)。
图1
.
基于oncRNA的液体活检平台和Orion架构
Orion的半监督性质使其能够学习捕获有用的生物信号(例如针对癌症检测的生物信号),同时消除不必要的混杂因素(例如批次
效应)。
Orion在分类器训练过程中的生成能力可帮助其学习用于癌症检测的稳健生物标志物模式。此外,
具有
triplet margin loss的对比距离度量学习确保了模型在不考虑技术混杂因素的情况下学习数据的生物学特征。
2.
Orion
模型性能
由训练数据集的交叉验证得分所示,Orion模型在90%的特异性下实现了0.97(95%CI 0.96-0.98)的受试者工作特征曲线下面积(ROC)和
94%(95%CI 91%-96%)的总体敏感性
(图
2a)。Orion的I期敏感性(n=88)为90%(95%CI 83%-94%),而支持向量机(SVM)
分类器在
90%特异性下的敏感性为56%(95%CI 47%-65%)(图2a)。对于小于2cm的肿瘤(T1a-b,n=52),
Orion在90%的特异性下达到了87%(95%CI 74%-94%)的灵敏度
。
为了评估Orion的普适性,研究人员
在
10倍交叉验证的预测中选择了与90%特异性相对应的截止值,并在留出的
验证数据集中测量了各种分类指标。
Orion在留出的
验证数据集的性能上表现出了很强的一致性,而
XGBoost、ElasticNet和其他模型的性能处于其10倍CV测量的下限(图2d)。
3. 消融实验
接下来,研究人员通过一系列消融实验考察了哪些Orion的模型架构组件对性能等有贡献。具体而言,研究人员
训练了多个缺乏
Orion一个或多个特征的模型,如triplet margin loss、交叉熵损失、重建损失等。结果
发现,
triplet margin loss使模型能够最大限度地减少技术变化的影响(图3a)。生成采样使模型能够实现更高的整体性能和更好的交叉熵损失收敛(图3b)。在所有组件存在的情况下,Orion能够更好地分离癌症样本与对照样本,并将技术变化的影响降到最低(图3c)。
4.
Orion可从血液oncRNA谱中区分肿瘤亚型
最后,研究人员考察了Orion基于血液oncRNA区分腺癌和鳞状细胞癌这两种主要NSCLC亚型的能力。鉴于这是
一项针对
NSCLC的分析任务,研究人员
使用了
20倍交叉验证来调整样本数量的减少。
对于晚期肿瘤(
III/IV期),Orion在血清样本中区分鳞状细胞癌和腺癌样本的特异性为70%时,ROC下面积为0.75(95%CI:0.67-0.83),灵敏度为71%(95%CI:56%-84%)(图4)。
图4.
Orion可从血液oncRNA谱中区分肿瘤亚型
总的来说,这项研究证明了Orion模型不仅在癌症检测方面展现出优异的性能,而且还表现出了在验证数据集中的可推广性。虽然深度学习模型在临床基因组学中的应用尚处于早期阶段,但
这项研究为生成式人工智能在推进液体活检和液体组织学的应用方面提供了强有力的证据
。
此外,Exai Bio公司也参与了这项研究。它是一家成立于2021年的初创公司,专注于开发下一代液体活检平台,已获得了6500万美元的融资,其核心技术由
加州大学旧金山分校
Hani Goodarzi实验室开发。clinicaltrials.gov显示,Exai Bio有一项正在进行的前瞻性研究(NCT05833360),对参与者血液进行oncRNA检测,创建血液库和相关的医学数据库,以开发针对不同癌症类型的癌症血液检测。
参考来源:
1.https://www.nature.com/articles/s41467-024-53851-9
2.https://innovation.ucsf.edu/content/exai-bio-launch
进群、合作、投稿请扫码: