人工智能(
AI
)刚得完双诺奖,现在又被
它给装到了
!
既然
AI能得
物理和化学奖,那医学奖也不是不可能!
(这样,所有理科生的吐槽机会就均等了,哈哈。)
本月,来自中山大学团队的一篇
cell就相当亮眼!
中山大学施莽团队与阿里云李兆融团队构建了深度学习模型---LucaProt,用来从海量的测序数据中识别出RNA病毒,发现16万余种全新RNA病毒,是已知病毒种类的近30倍!成果卓越!
好了,下面请全体同学起立,有请男神---
中山大学施莽教授
就位!
(图片来源百度百科,侵删)
这么年轻,这么帅,还这么有才!!!(真是既生瑜,何生亮啊!。。。轻点扔。。。)
施莽,中山大学医学院教授
,国家海外高层次人才计划青年项目,广东省珠江学者(青年项目),深圳市国家级领军人才获得者。专注于病原基因组学、新病原发现以及病原体和宿主之间的相互作用研究,并致力于将最前沿的
高通量测序技术、机器学习和生物信息学方法
应用于病原体研究。相关成果以第一作者/通讯作者在 Cell (2022,
2024
), Nature (2016, 2018),Nature Microbiology (2022), Nature Communications (2023), Microbiome (2022), Emerging Microbes & Infection (2020, 2022, 2023)等发表。(
搞生信的同学,可以往这个课题组挤挤,技术好,产出高
)
让我们回到这篇
cell文章。根据已知病毒的核酸序列,进行“序列同源性比对”鉴定新病毒,虽然常用,但是面对变异性强的RNA病毒,则经常失效。施莽教授团队利用深度学习模型构建LucaProt算法,通过对已有序列的学习,制定新的病毒筛选标准,在病毒识别中,表现出极高的准确性和特异性。
(
大道至简,重剑无锋!
本文中用到了全球生物环境样本的10,487份RNA测序数据进行挖掘,但是其中10,437例都来自NCBI的公共数据,只有50例是自测样本。
这样的数据分析也能发到CELL顶刊!以小博大,这也是生信的核心魅力!!!
)
机器学习、深度学习是当前的风口,与生信数据挖掘也是天然契合的!无论你是做哪个课题方向,AI+生信分析都能显著提高创新性,实现以小博大,0实验发文。
小伙伴们如果不会落地,那就不要迟疑,滴滴馆长,立即获得性价比极高的个性化思路评估和数据分析服务!
定制生信分析
云服务器租赁
加好友
备注“99”
领取试用
题目:使用人工智能
筛选
隐藏的RNA病毒
杂志:
Cell
影响因子:4
5.5
发表时间:2024年
10
月
3
日
研究背景
RNA病毒广泛感染各类生物,在全球生态系统中扮演着重要角色。
过去的
研究依赖于RNA依赖性RNA聚合酶
(
RdRP
)
序列分析
来鉴定
新病毒
,但
仍有一些高度分化的RdRP
则难以被鉴定。因此
需创新策略以全面识别
新的
RNA病毒
。
研究结果
1. 深度学习揭示全新RNA病毒
作者
在
基于
NCBI SRA、CNGBdb等数据库
获取了
10,437份RNA测序数据进行挖掘,进行了广泛的RNA病毒多样性研究。识别了超过13.68亿个重叠群和8.72亿个预测蛋白。利用“LucaProt”深度学习模型和传统聚类方法“ClstrSearch”,
作者
准确鉴定了
病毒
RNA依赖性RNA聚合酶
(
RdRP
)
,展现了模型的高精确度和鲁棒性。
结合两种策略,
作者
识别了513,134个RNA病毒重叠群,代表161,979个潜在病毒种类,及180个超群。通过自动比对RdRP序列,LucaProt新鉴定了70,458种独特病毒种类。
2,
LucaProt:基于数据驱动的深度学习模型
本研究构建了LucaProt深度学习模型,包含五个模块:Input、Tokenizer、Encoder、Pooling和Output。输入模块接收氨基酸序列;标记器将序列转换为模型可理解格式;编码器生成序列和结构矩阵;池化模块降维并提取特征;输出模块预测样本是否为病毒RdRP。
研究构建了包含235,413样本的数据集,优化模型精准度和泛化性。集合了5,979个病毒RdRP和229,434个非病毒RdRP样本,利用Transformer框架和结构特征,LucaProt在预测病毒RdRP上超越传统方法,有效整合序列与结构信息。
3,
LucaProt
的性能和计算效率评估
与四款病毒探测工具对比,LucaProt保持低假阳性率,召回率最高。
在计算
效率测试中,LucaProt处理多长度数据集的平均耗时更优
。
文章总结