专栏名称: 生信宝典
生物信息分析入门、晋级和经验分享。Linux、R、Python学习教程;高通量测序数据分析学习教程;生信软件安装教程。所有内容均为原创分享,致力于从基础学习到提高整个过程。
目录
相关文章推荐
生信宝典  ·  西湖大学张骊駻组Chem. ... ·  2 天前  
生信宝典  ·  新课上线 | ... ·  3 天前  
生信宝典  ·  iMetaOmics | ... ·  5 天前  
BioArt  ·  Nat Struct Mol ... ·  4 天前  
华大集团BGI  ·  生命时空组学技术入选《全球工程前沿2024》 ·  6 天前  
51好读  ›  专栏  ›  生信宝典

Nature子刊:崔庆华团队开发新型AI算法,实现人类蛋白质重要性的预测分析

生信宝典  · 公众号  · 生物  · 2024-12-22 21:00

正文

编辑丨王多鱼

排版丨水成文


人类必需蛋白(Human essential protein,HEP)对于个体的生存和发育是必不可少的。然而,鉴定HEP的实验方法往往昂贵、耗时和劳动密集型的,例如CRISPR-Cas9基因敲除实验及基因过表达实验,且这些实验方法难以推广到人类全蛋白质组。


因此,亟需计算方法来快速准确预测人类全部蛋白质的重要性,但现有的计算方法只能在人源细胞系水平预测HEP,而实际上,HEP在人类、细胞系和动物模型中存在高度差异性。这就要求我们在设计预测算法时,不仅需要提升算法的预测精度,还要需要考虑蛋白质重要性存在的变异性


近年来,深度学习(Deep Learning,DL)大语言模型(Large Language Model,LLM)技术的快速发展,为蛋白质重要性预测提供了新思路。


2024年11月27日,崔庆华团队在 Nature 子刊 Nature Computational Science 上发表了题为:Comprehensive prediction and analysis of human protein essentiality based on a pre-trained protein large language model 的研究论文。

该研究通过微调预训练的蛋白质语言模型,开发了一个基于序列的深度学习模型——蛋白质重要性计算器(Protein Importance Calculator,PIC),实现人类蛋白必要性/重要性的综合预测和分析


该研究提出的PIC算法相较于此前最先进的计算方法DeepCellEss获得显著性能提升(AUROC和AUPRC分别提升9.64%和10.52%)

除了具有优异的性能外,PIC算法是首个可以同时预测蛋白质在人体人源细胞系小鼠中的重要性评分的工具,能够为人类所有蛋白质的重要性进行综合的预测评估在案例研究中,研究团队使用PIC算法成功预测了人类乳腺癌中的关键蛋白质靶点,并证明了其作为乳腺癌患者预后标志物的价值。


最后,研究团队使用PIC算法首次为617462种人类微蛋白(Human microproteins)的重要性进行了预测,这将为微蛋白的研究提供有力帮助。

北京大学基础医学院医学生物信息学系博士生康伯铭和已毕业博士樊锐为论文共同第一作者,崔庆华教授(现为武汉体育学院教授)为论文通讯作者,北京大学基础医学院为论文第一单位。

论文链接

https://www.nature.com/articles/s43588-024-00733-1


高颜值免费 SCI 在线绘图(点击图片直达)


最全植物基因组数据库IMP (点击图片直达)

往期精品(点击图片直达文字对应教程)

机器学习