中山大学这篇cell是要冲“诺奖”！？领军人才+人工智能领域，So年轻So帅，生信人不要错过“神仙导师”！数据挖掘发顶刊！

生信图书馆 · 公众号 · · 2024-11-02 19:00

正文

人工智能（ AI ）刚得完双诺奖，现在又被它给装到了！

既然 AI能得物理和化学奖，那医学奖也不是不可能！

（这样，所有理科生的吐槽机会就均等了，哈哈。）

本月，来自中山大学团队的一篇 cell就相当亮眼！

中山大学施莽团队与阿里云李兆融团队构建了深度学习模型---LucaProt，用来从海量的测序数据中识别出RNA病毒，发现16万余种全新RNA病毒，是已知病毒种类的近30倍！成果卓越！

好了，下面请全体同学起立，有请男神--- 中山大学施莽教授就位！

（图片来源百度百科，侵删）

这么年轻，这么帅，还这么有才！！！（真是既生瑜，何生亮啊！。。。轻点扔。。。）

施莽，中山大学医学院教授，国家海外高层次人才计划青年项目，广东省珠江学者（青年项目），深圳市国家级领军人才获得者。专注于病原基因组学、新病原发现以及病原体和宿主之间的相互作用研究，并致力于将最前沿的高通量测序技术、机器学习和生物信息学方法应用于病原体研究。相关成果以第一作者/通讯作者在 Cell (2022， 2024 ), Nature (2016, 2018),Nature Microbiology (2022), Nature Communications (2023), Microbiome (2022), Emerging Microbes & Infection (2020, 2022, 2023)等发表。（搞生信的同学，可以往这个课题组挤挤，技术好，产出高）

让我们回到这篇 cell文章。根据已知病毒的核酸序列，进行“序列同源性比对”鉴定新病毒，虽然常用，但是面对变异性强的RNA病毒，则经常失效。施莽教授团队利用深度学习模型构建LucaProt算法，通过对已有序列的学习，制定新的病毒筛选标准，在病毒识别中，表现出极高的准确性和特异性。

（大道至简，重剑无锋! 本文中用到了全球生物环境样本的10,487份RNA测序数据进行挖掘，但是其中10,437例都来自NCBI的公共数据，只有50例是自测样本。这样的数据分析也能发到CELL顶刊！以小博大，这也是生信的核心魅力！！！）

机器学习、深度学习是当前的风口，与生信数据挖掘也是天然契合的！无论你是做哪个课题方向，AI+生信分析都能显著提高创新性，实现以小博大，0实验发文。小伙伴们如果不会落地，那就不要迟疑，滴滴馆长，立即获得性价比极高的个性化思路评估和数据分析服务！

定制生信分析

云服务器租赁

加好友备注“99” 领取试用

题目：使用人工智能筛选隐藏的RNA病毒

杂志： Cell

影响因子：4 5.5

发表时间：2024年 10 月 3 日

研究背景

RNA病毒广泛感染各类生物，在全球生态系统中扮演着重要角色。过去的研究依赖于RNA依赖性RNA聚合酶（ RdRP ）序列分析来鉴定新病毒，但仍有一些高度分化的RdRP 则难以被鉴定。因此需创新策略以全面识别新的 RNA病毒。

研究结果

1. 深度学习揭示全新RNA病毒

作者在基于 NCBI SRA、CNGBdb等数据库获取了 10,437份RNA测序数据进行挖掘，进行了广泛的RNA病毒多样性研究。识别了超过13.68亿个重叠群和8.72亿个预测蛋白。利用“LucaProt”深度学习模型和传统聚类方法“ClstrSearch”，作者准确鉴定了病毒 RNA依赖性RNA聚合酶（ RdRP ），展现了模型的高精确度和鲁棒性。

结合两种策略，作者识别了513,134个RNA病毒重叠群，代表161,979个潜在病毒种类，及180个超群。通过自动比对RdRP序列，LucaProt新鉴定了70,458种独特病毒种类。

2， LucaProt：基于数据驱动的深度学习模型

本研究构建了LucaProt深度学习模型，包含五个模块：Input、Tokenizer、Encoder、Pooling和Output。输入模块接收氨基酸序列；标记器将序列转换为模型可理解格式；编码器生成序列和结构矩阵；池化模块降维并提取特征；输出模块预测样本是否为病毒RdRP。

研究构建了包含235,413样本的数据集，优化模型精准度和泛化性。集合了5,979个病毒RdRP和229,434个非病毒RdRP样本，利用Transformer框架和结构特征，LucaProt在预测病毒RdRP上超越传统方法，有效整合序列与结构信息。

3， LucaProt 的性能和计算效率评估

与四款病毒探测工具对比，LucaProt保持低假阳性率，召回率最高。在计算效率测试中，LucaProt处理多长度数据集的平均耗时更优。

文章总结

中山大学这篇cell是要冲“诺奖”！？领军人才+人工智能领域，So年轻So帅，生信人不要错过“神仙导师”！数据挖掘发顶刊！

正文

请到「今天看啥」查看全文