专栏名称: 生信宝典
生物信息分析入门、晋级和经验分享。Linux、R、Python学习教程;高通量测序数据分析学习教程;生信软件安装教程。所有内容均为原创分享,致力于从基础学习到提高整个过程。
目录
相关文章推荐
BioArt  ·  Nature | ... ·  19 小时前  
生物学霸  ·  青云免疫论坛 | ... ·  2 天前  
BioArt  ·  无需蛋白酶的HCR™ ... ·  2 天前  
51好读  ›  专栏  ›  生信宝典

Nat. Mach. Intell | AI解读植物生命的密码:李珂/张铧坤/丁一倞组开发植物RNA可解释大语言模型

生信宝典  · 公众号  · 生物  · 2024-12-30 21:00

主要观点总结

本文介绍了英国埃克塞特大学、东北师范大学和英国约翰英纳森中心的科研团队利用AI技术开发的植物RNA可解释大语言模型(PlantRNA-FM)。该模型整合了来自1124个植物物种的RNA序列和结构信息,具有预测植物功能性RNA调控元件的能力。其可解释性分析框架成功识别出影响植物基因表达的关键RNA结构特征,为理解RNA如何调控植物生命活动提供了新的研究思路。该模型在植物特异性任务中展现出优异的预测性能,为优化植物基因表达和应对全球气候异常及粮食危机提供了新的策略。同时,文章还介绍了研究得到的支持及团队构成。

关键观点总结

关键观点1: 植物RNA可解释大语言模型(PlantRNA-FM)的开发和应用

该模型能够使用AI学习植物王国的生命语言,解码功能性RNA调控元件。它整合了来自1124个植物物种的RNA序列和结构信息,具有出色的预测性能,并成功识别出影响植物基因表达的关键RNA结构特征。

关键观点2: PlantRNA-FM在植物特异性任务中的表现

在基因区域注释任务中,PlantRNA-FM达到了0.974的F1评分,远超现有最佳模型的表现。在水稻和拟南芥翻译效率预测等关键任务中,它也表现出色,证明了其在植物特异性应用中的优越性。

关键观点3: PlantRNA-FM的可解释性分析框架

该框架帮助科学家发现了112个与翻译相关的RNA结构功能元件,并成功鉴定出RNA G-四链体(RG4)这一特殊RNA结构与翻译抑制的关系。实验验证表明,改变这些结构可导致翻译效率发生显著变化。

关键观点4: 研究的意义和前景

该研究为我们理解RNA如何调控植物生命活动提供了新的研究思路,并为优化植物基因表达以及应对全球气候异常和粮食危机提供了新的策略。此外,该研究展示了跨学科研究在推动生命科学发展中的重要价值。


正文

在庞大的植物王国中,从岩石上的苔藓到高耸入云的参天大树,都蕴含着生命的密码——核苷酸。其中,RNA(核糖核苷酸)参与调控了植物生长、发育和环境适应,对维持植物多样性和生存具有重要意义。近年来,以ChatGPT为代表的大型语言模型在理解人类语言方面取得了突破性进展。这项AI技术启发了植物科学家:如果人工智能能够掌握人类语言的复杂性,是否也能帮助解码植物“生命的语言”?


近日,英国埃克塞特大学李珂教授团队、东北师范大学张铧坤教授团队和英国约翰英纳森中心丁一倞教授团队在


上发表题为An Interpretable RNA Foundation Model for Exploration of Functional RNA Motifs in Plants的研究论文。研究团队开发出植物RNA可解释大语言模型(PlantRNA-FM),实现了使用AI学习植物王国生命的语言,解码功能性RNA调控元件。



PlantRNA-FM首次整合了来自1124个植物物种的RNA序列和结构信息,涵盖了从苔藓到开花植物的广泛物种多样性。与现有的DNA/RNA人工智能模型相比,PlantRNA-FM在植物特异性任务中展现出优异的预测性能。例如,在基因区域注释任务中,PlantRNA-FM达到了0.974的F1评分,远超现有最佳模型0.639的表现。在水稻和拟南芥翻译效率预测等关键任务中,PlantRNA-FM同样表现出色,证明了其在植物特异性应用中的优越性。


图1. PlantRNA-FM模型设计原理图


除了预测RNA二级结构以及相关功能性指标外,该研究团队所开发的PlantRNA-FM模型具有简单易用的可解释性,并成功识别出了影响植物基因表达的关键RNA结构特征。在AI技术之前,研究者通常是使用生信信息学工具分析鉴定RNA序列特征(如GC含量,T富集区等)与生物学功能的相关性。然而,由于巨大的碱基组合空间,现有的生物信息学分析工具仍然无法很好地解析更为深层次的科学问题,例如怎样的“GC”排列、“T”如何富集才可以影响生物学功能。


通过使用PlantRNA-FM的可解释性分析框架,科学家发现了112个与翻译相关的RNA结构功能元件,其中包括63个抑制翻译和49个促进翻译的结构功能元件。通过实验证实,改变这些结构可导致翻译效率发生显著变化,最高可达5.3倍。此外,PlantRNA-FM还成功鉴定出了RNA G-四链体(RG4)这一特殊RNA结构与翻译抑制的关系。实验验证表明,破坏这些结构可使翻译效率提升达5.8倍。


图2. PlantRNA-FM鉴定了关键的RNA结构功能元件


PlantRNA-FM帮助我们理解了RNA是如何通过其序列和结构来调控植物生命活动的。这为优化植物基因表达以及设计下一代优质作物以应对全球气候异常和粮食危机提供了新的研究思路。此外,通过人工智能技术解读植物生命密码,这项工作展示了跨学科研究在推动生命科学发展中的重要价值。


英国埃克塞特大学李珂教授、东北师范大学张铧坤教授和英国约翰英纳森中心丁一倞为共同通讯作者。英国约翰英纳斯中心于昊澎博士、英国埃克塞特大学杨恒、东北师范大学孙文青和英国约翰英纳斯中心闫宗运博士并列第一作者,中科院分子植物科学卓越创新中心杨小飞研究员在项目实施过程中给予重要的研究支持。该研究得到国家重点研发计划、国家重点研究与发展计划、国家自然科学基金、中央高校基本科研业务费、中国国家留学基金委、英国生物技术和生物科学研究委员会、欧洲研究理事会、人类前沿科学计划奖学金、未来领袖奖学金、靳同宝国际奖学金以及亚马逊研究奖、英国图灵研究院的支持。


论文链接:

https://www.nature.com/articles/s42256-024-00946-z


高颜值免费 SCI 在线绘图(点击图片直达)


最全植物基因组数据库IMP (点击图片直达)

往期精品(点击图片直达文字对应教程)

机器学习