综上,该研究构建了一系列植物基础DNA大语言模型,能够在单块消费级显卡上进行训练和推理,为个人或缺乏计算资源的实验室提供了选择。此外研究展现了植物基础DNA大语言模型在基因组预测中的强大能力,构建的DNA大语言模型和植物基因组预测数据,为后续更高性能的DNA大语言模型的开发提供了参考。可以预见DNA大语言模型的完善将为解析复杂的生命现象、推动作物改良事业作出不可替代的贡献。为了方便开发者使用相关模型,作者同时将模型的微调和推理代码上传到了GitHub (https://github.com/zhangtaolab/Plant_DNA_LLMs)和Gitee (https://gitee.com/zhangtaolabyzu/Plant_DNA_LLMs)上。同时已开放“植物大语言模型交流QQ群”(756369317),方便用户交流和讨论模型训练和推理时存在的问题。
扬州大学农学院张韬教授为该论文的通讯作者,扬州大学博士生刘冠卿为该论文的第一作者。该研究得到了国家自然科学基金、江苏省重点研发计划(现代农业)、钟山生物育种实验室课题、江苏省高校优势学科建设工程项目的资助。
参考文献:
Dalla-Torre, H., Gonzalez, L., Mendoza-Revilla, J., Lopez Carranza, N., Grzywaczewski, A.H., Oteri, F., Dallago, C., Trop, E., de Almeida, B.P., Sirelkhatim, H., et al. (2024). Nucleotide Transformer: building and evaluating robust foundation models for human genomics. Nat Methods 10.1038/s41592-024-02523-z.
Mendoza-Revilla, J., Trop, E., Gonzalez, L., Roller, M., Dalla-Torre, H., de Almeida, B.P., Richard, G., Caton, J., Lopez Carranza, N., Skwark, M., et al. (2024). A foundational large language model for edible plant genomes. Commun Biol 7:835. 10.1038/s42003-024-06465-2.
Nguyen, E., Poli, M., Faizi, M., Thomas, A.W., Sykes, C.B., Wornow, M., Patel, A., Rabideau, C., Massaroli, S., Bengio, Y., et al. (2024). HyenaDNA: long-range genomic sequence modeling at single nucleotide resolution. Proceedings of the 37th International Conference on Neural Information Processing Systems. Curran Associates Inc.
Zhou, Z., Ji, Y., Li, W., Dutta, P., Davuluri, R., and Liu, H. (2023). DNABERT-2: Efficient Foundation Model and Benchmark For Multi-Species Genome. arXiv 10.48550/arXiv.2306.15006.
来源:MPlant植物科学
高颜值免费 SCI 在线绘图(点击图片直达)
最全植物基因组数据库IMP (点击图片直达)
往期精品(点击图片直达文字对应教程)
机器学习