专栏名称: 生信图书馆
深入解读最新生信文献,分享研究思路和方法,提供专业生信分析服务,帮助您把握生物信息学的最新动态
目录
相关文章推荐
北京大学中国古代史研究中心  ·  中古史荐读|荣新江:悼念项楚先生——中国敦煌 ... ·  2 天前  
史事挖掘机  ·  中国历史朝代时间表与歌谣 ·  3 天前  
51好读  ›  专栏  ›  生信图书馆

中山大学这篇cell是要冲“诺奖”!?领军人才+人工智能领域,So年轻So帅,生信人不要错过“神仙导师”!数据挖掘发顶刊!

生信图书馆  · 公众号  ·  · 2024-11-02 19:00

正文


人工智能( AI )刚得完双诺奖,现在又被 它给装到了

既然 AI能得 物理和化学奖,那医学奖也不是不可能!

(这样,所有理科生的吐槽机会就均等了,哈哈。)

本月,来自中山大学团队的一篇 cell就相当亮眼!

中山大学施莽团队与阿里云李兆融团队构建了深度学习模型---LucaProt,用来从海量的测序数据中识别出RNA病毒,发现16万余种全新RNA病毒,是已知病毒种类的近30倍!成果卓越!

好了,下面请全体同学起立,有请男神--- 中山大学施莽教授 就位!

(图片来源百度百科,侵删)

这么年轻,这么帅,还这么有才!!!(真是既生瑜,何生亮啊!。。。轻点扔。。。)

施莽,中山大学医学院教授 ,国家海外高层次人才计划青年项目,广东省珠江学者(青年项目),深圳市国家级领军人才获得者。专注于病原基因组学、新病原发现以及病原体和宿主之间的相互作用研究,并致力于将最前沿的 高通量测序技术、机器学习和生物信息学方法 应用于病原体研究。相关成果以第一作者/通讯作者在 Cell (2022, 2024 ), Nature (2016, 2018),Nature Microbiology (2022), Nature Communications (2023), Microbiome (2022), Emerging Microbes & Infection (2020, 2022, 2023)等发表。( 搞生信的同学,可以往这个课题组挤挤,技术好,产出高

让我们回到这篇 cell文章。根据已知病毒的核酸序列,进行“序列同源性比对”鉴定新病毒,虽然常用,但是面对变异性强的RNA病毒,则经常失效。施莽教授团队利用深度学习模型构建LucaProt算法,通过对已有序列的学习,制定新的病毒筛选标准,在病毒识别中,表现出极高的准确性和特异性。

大道至简,重剑无锋! 本文中用到了全球生物环境样本的10,487份RNA测序数据进行挖掘,但是其中10,437例都来自NCBI的公共数据,只有50例是自测样本。 这样的数据分析也能发到CELL顶刊!以小博大,这也是生信的核心魅力!!!

机器学习、深度学习是当前的风口,与生信数据挖掘也是天然契合的!无论你是做哪个课题方向,AI+生信分析都能显著提高创新性,实现以小博大,0实验发文。 小伙伴们如果不会落地,那就不要迟疑,滴滴馆长,立即获得性价比极高的个性化思路评估和数据分析服务!

定制生信分析

云服务器租赁

加好友 备注“99” 领取试用


题目:使用人工智能 筛选 隐藏的RNA病毒

杂志: Cell

影响因子:4 5.5

发表时间:2024年 10 3

研究背景

RNA病毒广泛感染各类生物,在全球生态系统中扮演着重要角色。 过去的 研究依赖于RNA依赖性RNA聚合酶 RdRP 序列分析 来鉴定 新病毒 ,但 仍有一些高度分化的RdRP 则难以被鉴定。因此 需创新策略以全面识别 新的 RNA病毒

研究结果

1. 深度学习揭示全新RNA病毒

作者 基于 NCBI SRA、CNGBdb等数据库 获取了 10,437份RNA测序数据进行挖掘,进行了广泛的RNA病毒多样性研究。识别了超过13.68亿个重叠群和8.72亿个预测蛋白。利用“LucaProt”深度学习模型和传统聚类方法“ClstrSearch”, 作者 准确鉴定了 病毒 RNA依赖性RNA聚合酶 RdRP ,展现了模型的高精确度和鲁棒性。

结合两种策略, 作者 识别了513,134个RNA病毒重叠群,代表161,979个潜在病毒种类,及180个超群。通过自动比对RdRP序列,LucaProt新鉴定了70,458种独特病毒种类。

2, LucaProt:基于数据驱动的深度学习模型

本研究构建了LucaProt深度学习模型,包含五个模块:Input、Tokenizer、Encoder、Pooling和Output。输入模块接收氨基酸序列;标记器将序列转换为模型可理解格式;编码器生成序列和结构矩阵;池化模块降维并提取特征;输出模块预测样本是否为病毒RdRP。

研究构建了包含235,413样本的数据集,优化模型精准度和泛化性。集合了5,979个病毒RdRP和229,434个非病毒RdRP样本,利用Transformer框架和结构特征,LucaProt在预测病毒RdRP上超越传统方法,有效整合序列与结构信息。

3, LucaProt 的性能和计算效率评估

与四款病毒探测工具对比,LucaProt保持低假阳性率,召回率最高。 在计算 效率测试中,LucaProt处理多长度数据集的平均耗时更优

文章总结







请到「今天看啥」查看全文