哈喽小伙伴们,江江包发现最近生信界又多了一个“网红”,小伙伴们猜猜是谁呢?相信不少小伙伴们都能猜到,这个“网红”就是——机器学习!江江包和小伙伴们也不能落后,要紧跟前沿。最近,江江包挖掘到一篇机器学习的生信好文,想要了解这篇到底有什么独特优势,一定要接着往下看,不然你真的会吃大亏。
1.文章介绍了MESiCA模型利用自然语言处理技术,为突变和突变签名创建数值表示,使得模型能够在具有少量突变的肿瘤样本中预测显著的突变签名。
2.研究进一步改进了MESiCA模型,使其能够预测两种主导签名的组合,而不是单一的主导签名,这提高了预测性能和临床相关性。
3.研究表明MESiCA模型在超过60,000个肿瘤样本上预测了主导签名,并描述了这些签名在不同癌症中的分布情况。
(ps:小伙伴们赶紧行动起来!对机器学习感兴趣,但是缺乏技术和思路的宝子,可以来找江江包,江江包等你来撩哦~)
l
题目:利用基于神经嵌入的表征识别临床检测中的癌症突变特征
l
杂志:Cell Rep Med.
l
影响因子:IF=14.3
体细胞突变是通过多种突变过程累积而成的,形成的模式被称为突变特征。在癌症中,这些特征反映了潜在的过程。有些特征主要是内源性的、无处不在的、与年龄相关的;有些特征则反映了独特的外源性或内源性过程,如紫外线相关特征、载脂蛋白B mRNA编辑酶催化多肽等。尽管这一研究领域的成果主要是机理和生物学方面的见解,但在过去几年中,识别患者突变特征的临床意义也开始显现出来。于是,研究者开发了一种使用NLP技术的机器学习模型,它能为突变特征和突变创建数字表示,同时学习突变和特征之间的关系。
数据集/队列
|
数据库
|
数据类型
|
详细信息
|
TCGA WES、PCAWG WGS队列
|
/
|
WES测序数据
|
从数百个来源收集的9691份WES样本,其中从GENIE中剔除了所有MSK-IMPACT、MSK-ICI和MSK-MET样本,从MSK-MET中剔除了所有MSK-IMPACT和MSK-ICI 样本。
|
研究思路
研究者首先指出在临床环境中,使用靶向基因面板来识别癌症突变特征存在限制,难以捕捉到全面的突变景观。接着,为了克服这一限制,研究者开发了MESiCA模型。该模型使用自然语言处理技术,通过学习将特定的突变和突变特征嵌入到数值向量中,同时理解它们之间的关系。此外,研究者进一步探索了MESiCA预测的突变特征与临床结果之间的关联,例如在黑色素瘤、非小细胞肺癌和头颈癌中,特定突变特征与免疫治疗反应和预后的关系。
1.MESiCA概览
MESiCA所应对的预测挑战类似于一个NLP问题:癌症样本是一个文档。该样本中活跃的主要突变特征和癌症类型是标签,而突变分类则是创建文档的单词。该模型的目的是根据突变、特征和癌症类型为每个样本创建数字表示,同时最大化相关特征之间的相似性,即紫外线损伤引起的突变和紫外线特征嵌入,并同时最小化不相关特征之间的相似性,即紫外线特征和烟草特征嵌入
(图1
)。
2.利用MESiCA预测靶向基因组特征
构建了四个目标基因面板队列:MSK-IMPACT、MSK-MET、GENIE和MSK-ICI,以提供跨独立队列的综合图谱。冗余样本已被剔除。值得注意的是,以下数据集是从公共资料库中检索到的,遗憾的是并不包含所有突变。因此,MESiCA可以分析的患者比例可能要高得多,因为在临床报告中通常可以获得所有的突变信息。
3.从MSK-IMPACT面板预测特征标签
在使用MSK-IMPACT面板测序的10,000多个样本中,994个样本的突变率高到足以进行经典特征分析。研究使用这些注释来测试MESiCA的预测结果。在所有标签中
(图2A
),研究者排除了"其他"、"BRCA1/2"和"TMZ"标签。MESiCA以0.9-1.0的灵敏度、0.996-1.0的特异性、0.99-1的阳性预测值和0.99-1.0的阴性预测值正确预测了除MMR/衰老之外的所有标签,与之前描述的TCGA样本分析类似,这可能是由于它们之间的不匹配造成的
(图2B
)。在每种癌症类型中,预期特征所占比例最大:皮肤癌中的紫外线、肺癌中的烟草、多种癌症中的Clock_SBS5等(图2C)。膀胱、乳腺、头颈部、肺部和子宫的APOBEC阳性率相似;肺癌的烟草阳性率在MSK-IMPACT中为40%,而在WGS队列中为60%(图2D)。
图2 MESiCA在MSK-IMPACT基因面板中的预测结果
4.标注靶向基因组特征的临床意义和关联性
通过建立的特征图谱,可以分析检测特定特征与癌症基因或热点突变之间的关联,研究者发现了许多这样的关联(图3)。根据Clock_SBS5的分类进行的泛癌症OS分析表明,在不同的独立队列中,Clock_SBS5与较差的预后有关,而且与年龄无关。这种关联也与TP53和KRAS的突变无关,因为这些基因被认为是阴性预后标志物。因此,这表明基因特征与生存的关系更为普遍,而不仅仅是年龄或特定突变基因的指标。
5.MESiCA组合:双签名标签
组合策略提高了MMR和烟草的分类能力,同时不影响POLE和UV的完美或近乎完美的预测,也仅轻微降低了APOBEC的PPV
(图4A
)。此外,在MSK-ICI和MSK-MET队列中,组合策略增加了黑色素瘤患者紫外线阳性组和阴性组之间以及NSCLC患者烟草阳性组和阴性组之间的生存率差异(
图4C
和4D)。总体而言,预测的变化明显改善了几个特征
(图4B-4D
)。
6.突变和特征数字表示的可解释性
紫外线损伤的特征主要是C>T突变,三核苷酸上下文为TCA、TCT、TCC、CCC、CCG等。这些突变类别的嵌入值与紫外线特征具有很高的余弦相似性