专栏名称: 生信图书馆
深入解读最新生信文献,分享研究思路和方法,提供专业生信分析服务,帮助您把握生物信息学的最新动态
目录
相关文章推荐
鱼羊史记  ·  752年,唐玄宗抱住虢国夫人:“朕能给玉环的 ... ·  23 小时前  
史事挖掘机  ·  21个鲜为人知的冷野史,个个惊艳!颠覆你的认知! ·  23 小时前  
历史大学堂  ·  1、AA制聚餐,选择性地参与。 2、与人聊天 ... ·  2 天前  
上下五千年故事  ·  他被蒋介石软禁33年,妻子让他婚内娶一护士, ... ·  5 天前  
51好读  ›  专栏  ›  生信图书馆

最新出炉!机器学习0实验屡试不爽新套路!码住这篇“XGBoost等5种机器学习算法+体细胞突变+泛癌”!5分+期刊你上你也行!

生信图书馆  · 公众号  ·  · 2024-07-31 19:00

正文

这样的分析套路还真是不多见!机器学习0实验屡试不爽新套路!

天空一声巨响,馆长闪亮登场!嘿嘿,眨眼间一个周末又过去咯,不知道大家的论文进度怎样了呢?要是还没什么思路的话,不妨一起看看馆长的今日份分享! 馆长今日分享的机器学习生信不涉及任何湿实验验证!大伙放心食用!各取所需!

来自美国伊利诺伊大学癌症中心的团队,于5月23日在自然杂志旗下期刊 《Communications Biology》 发表了题为《 Pan-cancer discovery of somatic mutations from RNA sequencing data》 的文章,馆长觉得这篇文章中的众多生信方法都值得大家拿小本本记下来!那么咱们赶紧分析分析~

1、TCGA公共测序数据+体细胞突变分析+5种机器学习算法构建模型! 作者团队先根据机器学习构建出筛选方法,再系统地鉴定来自癌症基因组图谱(TCGA)中8000多个肿瘤的RNA体细胞突变数据,并成功提取出特征性较强的新突变!

2、泛癌+体细胞突变在线图谱的使用! 基于32种癌症的体细胞突变图谱的上线,进一步拓展了本文的实际临床价值!也是本文备受审稿人喜爱的重要原因! ps:想了解更多机器学习创新方法的朋友可扫码联系馆长!此外,馆长这里更有专业的硕博团队随时为您排忧解难!!

定制生信分析

云服务器租赁

加好友 备注“99” 领取试用

题目:在泛癌研究中,从RNA测序数据中发现体细胞突变的标志
杂志:Communications Biology
影响因子:5.2
发表时间:2024年2月
公众号回复“666”即可领取原文献,文献编号240731
研究背景
DNA测序是目前常用的识别体细胞突变(RNA-SMs)的方法,但RNA测序也可以提供一种替代策略。现有的RNA-SM识别方法存在一些局限性,如没有充分考虑RNA测序数据的特点,易产生较高的假阳性率。因此,作者开发了一个基于机器学习的综合变异分析管道IMAPR,以更准确地从RNA测序数据中发现RNA-SMs。
数据来源
数据类型
数据来源
样本数量
用途
RNA-seq
TCGA
45例肺腺癌(LUAD)、20例肺鳞癌(LUSC)、35例头颈鳞癌(HNSCC)
用于开发IMAPR管道、识别RNA-SMs
RNA-seq
独立Mun数据集
80例患者
用于验证IMAPR管道的泛用性
DNA-seq
独立Mun数据集
同上
用于验证IMAPR管道的性能
RNA-seq
TCGA
32种癌症类型,共297例宫颈鳞癌(CESC)样本
用于泛癌RNA-SM分析
DNA-seq (WXS)
TCGA
同上
用于与CESC RNA-SMs进行比较
研究思路
主要结果
1、开发用于RNA-SM检测的生物信息学方法
为了开发强大的RNA-SM发现流程,作者团队选择了具有所有三种类型数据的TCGA样品,包括RNA-seq、全外显子组测序(WXS)和高覆盖率全基因组测序(WGS)。 作者通过实施18个突变过滤器(其中10个是专门为RNA-seq数据设计的)开发了一个RNA-SM发现方法,这些过滤器显著减少了错误发现的数量(图1A)。 通过这种方式,作者团队鉴定了9203个具有足够读长覆盖率的候选RNA-SM,其中,高覆盖率WGS数据验证了7990个(86.8%)(图1B)。
图1 RNA-SM发现管道中的突变过滤器摘要
2、通过机器学习方法构建模型
作者团队开发了一种机器学习方法来区分纯RNA突变和DNA和RNA-seq数据中存在的突变。 作者使用由来自45个 LUAD 样本的 RNA-SM 组成的训练数据集,作者团队采用了五种基于分类的机器学习方法,并使用受试者工作特征曲线 (ROC) 和精确回忆 (PR) 曲线评估每种方法的性能。 为了验证 Stacking 模型的一般适用性,作者团队将其应用于由 20 个 LUSC 和 35 个 HNSCC 样本的 RNA-SM 组成的独立验证数据集。 结果显示,堆叠模型的性能最佳,ROC-AUC为0.950,PR-AUC为0.991(图2A-B)。此外,患者RNA-SM检测的中位精密度从0.831提高到0.932,同时灵敏度保持在0.650(图2C)。
图2 使用独立验证数据集评估的IMAPR方法的性能
3、通过高覆盖率WGS数据验证RNA-SM
为了确定验证率差异的潜在原因,作者分别比较了WXS和WGS数据验证的RNA-SM。 首先,作者的分析表明,WGS和WXS数据在RNA-SM的基因区域和等位基因替换方面提供了一致的验证结果。具体而言,WXS数据验证的大多数RNA-SM都位于外显子和UTR区域,WGS数据验证的大多数RNA-SM也位于外显子和UTR区域(图3A)。 此外,WGS验证的RNA-SM和WXS验证的RNA-SM表现出相似的等位基因替换特征(图3B)。接下来,作者进一步研究了DNA-seq覆盖率与验证的RNA-SM数量之间的关系。 结果表明,DNA-seq数据中更深的读取深度与更高百分比的验证RNA-SM相关(图3C)。
图3 使用TCGA WGS和WXS数据作为RNA-SM分析的验证参考
4、宫颈癌中RNA-SMs的独立验证
为了进一步评估作者团队的RNA-SM发现管线的性能,作者团队将其应用于使用TCGA中宫颈鳞状细胞癌(CESC)的独立RNA-seq数据来检测SM。结果显示,作者在297例CESC病例中共检测到29,237个RNA-SM 接下来,作者团队对RNA-SM进行了显著突变基因(SMG)分析,并鉴定了14个突变基因(图4A)。其中,PIK3CA、KMT2C、FBXW7、EP300、KMT2D、PTEN、TP53、SMAD4、KRAS、STK11和FAT1也通过DNA-SM分析发现显著突变。 为了进一步表征扩大的SM池,作者团队进行了氨基酸替换分析,以在蛋白质水平上注释突变。RNA-SM分析显示,E542K和E545K是最丰富的PIK3CA突变(图4B)。
图4 TCGA宫颈癌的RNA-SM谱
5、TCGA 队列中的泛癌 RNA-SM 谱
作者团队的分析显示,LUSC、BLCA、SKCM和LUAD的突变数量最多,而PCPG、THCA 和 UVM 的突变数量最少。 随后,比较 32 种癌症的突变谱显示,最大的差异是 C > T 转换和 C > G 转换(图 5A-B)。值得注意的是,作者团队的分析发现 SKCM 的C > T转换率最高,这与之前将C > T转换与紫外线照射引起的皮肤癌联系起来的发现一致。
图5 TCGA中的泛癌RNA-SM图谱
6、使用RNA-SM进行突变特征分析
作者使用已鉴定的RNA-SMs进行突变特征分析,以预测每种癌症的病因。 有趣的是,在大多数类型的癌症中都存在几种常见的内源性突变特征,包括DNA脱氨DNA错配修复和衰老(图6)。 此外,作者团队还确定了癌症类型特异性突变特征。例如,吸烟被发现是肺癌的主要原因(LUAD和LUSC)。
图6 使用RNA-SM在32种癌症类型中发现的泛癌突变特征
文章小结






请到「今天看啥」查看全文