专栏名称: BioArt
BioArt致力于分享生命科学领域科研学术背后鲜为人知的故事,及时报道和评论生命科学领域有料的动态,BioArt也是一个生命科学领域“百花齐放,百家争鸣”的舞台,循“自由之思想”与“独立之精神”为往圣继绝学。
目录
相关文章推荐
BioArt  ·  Nature | ecDNA在癌细胞中的遗传奥秘 ·  3 天前  
生物学霸  ·  邓宏魁获颁 2024 未来科学大奖 ·  5 天前  
生物制品圈  ·  中检院综述 | ... ·  1 周前  
生信宝典  ·  综述 | ... ·  6 天前  
51好读  ›  专栏  ›  BioArt

Nat Method | 张数一团队提出蛋白质序列-功能空间压缩的概念

BioArt  · 公众号  · 生物  · 2024-11-12 00:08

正文


蛋白质作为最重要的生命构建单元之一,其序列和功能之间的映射(适应性景观,Fitness landscape)的针对性研究对于蛋白质理性设计以及工程应用都有极大的意义。目前人们只能对于蛋白质序列-功能关系进行少量低纬度的点采样,例如深度突变搜索(DMS),单位点饱和突变【1-4】等,或是利用随机建库等方式以极低概率捕获序列与功能耦连的关键信息【5,6】。一些更高效的定向进化工具如PACE【7,8】,OrthoRep【9】等会使得蛋白质空间的搜索深度加深,但由于其专注于产生高适应性突变体的特征使得其对于蛋白功能的全局认知不足。一些计算方法成功构建起序列-结构之间的精确关联,例如2024年诺贝尔化学奖获奖者开发的AlphaFold, RoseTTAFold等结构预测或设计算法,并进一步试图利用深度学习构建序列和功能的映射关系,但由于缺乏高质量大规模的序列-功能映射数据,计算方法的可延展性始终有所限制。总之,受限于蛋白质序列空间的高维度与复杂性(例如,100个氨基酸的蛋白质设计空间达到10130,远超宇宙中的原子数目~1080,我们对这个空间及其映射规律的理解尚浅,亟待丰富与完善。

2024年11月11日,来自清华大学的张数一团队在Nature Methods上发表了名为EvoAI enables extreme compression and reconstruction of the protein sequence space的文章。提出了对蛋白质序列-功能空间进行压缩的概念,开发了进化扫描系统,可以高效获取空间压缩后的锚点(Anchor),并开发了相应的EvoAI系统,实现了对蛋白质序列-功能空间的进化压缩和AI重构,压缩比可以达到1048,对于理解蛋白质序列-功能空间映射关系引入了新的视角。


研究人员首先构建了进化搜索系统(Evolutionary Scanning, EvoScan)用以对蛋白进行分区域定向进化,如图一所示。该系统改造了噬菌体辅助的连续定向进化系统(PACE)。其中,突变体系来源EvolvR系统中enCas9-PolIM5复合蛋白【10】,通过构建其诱导表达体系来创建靶向分区域突变质粒(TP)。为了测试系统的可行性,研究人员先后利用了绿色荧光蛋白EGFP的纳米抗体突变体的回复突变实验测试蛋白-蛋白相互作用的靶向进化,以及利用SARS-CoV-2主蛋白酶Mpro蛋白对其抑制剂的逃逸效应的进化测试蛋白-配体相互作用的靶向进化,证明该系统可以对gRNA覆盖的上下游约30bp的区域进行靶向进化并得到功能提升的突变体。随后,研究人员利用EvoScan进化了转录因子AmeR对于特定DNA序列的抑制能力,设计了13条gRNA对于蛋白进行区域分割,最终在8个区域中找到氨基酸突变。研究人员对这些区域进行随机排序,构建了8个不同的进化路径,使进化过程可以遍历以上8个区域,最终产生了82个功能提升,维度各不相同的锚点,并对上述锚点进行基于流式荧光的功能测试,系统生物学分析以及上位效应(Epistasis)的分析与计算等。其结果显示,尽管绝大多数突变对于蛋白功能都有不同程度的提升,但不同的单点突变对于不同的突变组合而言,产生的功能效应并非都是提升,一些突变位点能够提升蛋白功能,但会干扰其他的突变位点的效应,这反映了蛋白质序列空间的高复杂度。

图一. EvoScan系统构成和蛋白质序列-功能空间压缩

为了理解和重构这个高纬度复杂空间,研究人员设计了与EvoScan配套的深度学习算法,并命名为EvoAI,如图二所示。该方法结合了预训练的GeoFitness模型和蛋白质语言模型(ESM-2),加上多层感知器(MLP),以提高预测蛋白质突变效应的准确性。在本研究中EvoAI利用AmeR蛋白82个突变体的序列-功能映射信息对模型加以训练,并生成了不同于上述突变体的共1093个新蛋白,通过对于预测强度的排序,研究人员测试了预测强度最高的10个突变体,并将其与仅利用传统DMS方法预测得到的10个具备相同突变数量的,强度最高的10个突变体进行强度对比,结果显示,通过EvoAI预测得到的突变体均有显著的功能提升,而DMS方法得到的突变体多数均无显著功能提升,甚至某些突变体不再具备明显的抑制功能。这表明EvoAI系统识别到了通过信息压缩得到的高维度蛋白信息,并有效地生成了具备功能的突变体。

图二. EvoAI原理示意图和蛋白质序列-功能空间重构

与现有方法相比,该方法有几个重要优势。首先,它实现了序列空间的广泛,均匀且精确的采样,这可以快速探索高维并生成更多样化和功能性的突变体,并提供有关序列-功能映射的更丰富信息。其次,该方法整合了基于经验的进化扫描和深度学习模型,充分利用了这两种不同方法的优势。研究人员可以使用深度学习得到的关键特征来动态地指导扫描过程。可解释性深度学习在未来的进一步发展可能会揭示潜在的进化规则,并为蛋白质如何适应和克服进化限制提供见解。第三,该方法可以进化和研究缺乏结构信息或涉及具有挑战性的相互作用的蛋白质。EvoScan可以针对不同的蛋白质相互作用捕获蛋白质锚点,如蛋白质-蛋白质、蛋白质-配体和蛋白质-核酸相互作用。文章中提出的蛋白质序列-功能空间压缩的概念也有望应用于不同种类的蛋白质,并对自然界如何在有限时间内完成蛋白质空间的搜索和物种的高效进化产生一定的启发作用。

清华大学药学院博士生马梓源,李文杰,沈运浩及清华大学生命学院博士生徐运昕为论文共同第一作者,清华大学药学院张数一老师为论文通讯作者。

原文链接:
https://www.nature.com/articles/s41592-024-02504-2


招聘信息:博士后招聘广告
张数一,清华大学药学院副教授,博士生导师,清华大学合成与系统生物学研究中心PI,分子肿瘤学全国重点实验室PI,入选国家高层次人才计划青年项目。本科毕业于清华大学生物科学与技术系;博士毕业于宾夕法尼亚州立大学;之后在美国麻省理工学院进行博士后研究;2019年加入清华大学药学院。主持国家自然科学基金联合基金重点项目,国家自然科学基金面上项目,国家科技重大专项“重大新药创制”课题,国家重点研发计划课题等。担任中国生物工程学会合成生物学分会青年工作组委员,中国医药生物技术协会合成生物技术分会委员,中国生物信息学会(筹)计算合成生物学专业委员会委员等。长期致力于合成生物学和关键生命过程的研究,相关论文发表在Science,Nature Methods,Nature Biotechnology等。基于“还原论”的研究思路,聚焦在代谢通路、能量摄取、调控网络等领域,研究生物结构的多样性潜力和进化可能性,有些研究成果已经改写并被收录世界经典教科书。目前有机结合“重构论”的思路进行生物学研究,从而突破“还原论”研究思路的局限。侧重在优良蛋白质元件的计算机辅助从头理性设计、自动化平台赋能的高通量表征、连续定向进化系统辅助的快速精准优化等,实现蛋白质序列-结构-功能映射的建立;以及将这些设计和改造后的元件有机耦合基因线路和调控网络,从头搭建能自我复制的生命系统,从而实现对生命的重构理解和认知,并有效地应用于疾病诊断和治疗等领域。课题组长期招聘相关方向博士后,有意者请投递简历。

制版人:十一


参考文献


1 Fowler, D. M. & Fields, S. Deep mutational scanning: a new style of protein science. Nat. Methods 11, 801-807 (2014).
2 Stiffler, M. A., Hekstra, D. R. & Ranganathan, R. Evolvability as a function of purifying selection in TEM-1 β-lactamase. Cell 160, 882-892 (2015).
3 Zheng, L., Baumann, U. & Reymond, J.-L. An efficient one-step site-directed and site-saturation mutagenesis protocol. Nucleic Acids Res. 32, e115 (2004).
4 McLaughlin Jr, R. N., Poelwijk, F. J., Raman, A., Gosal, W. S. & Ranganathan, R. The spatial architecture of protein function and adaptation. Nature 491, 138-142 (2012).
5 Cadwell, R. C. & Joyce, G. F. Randomization of genes by PCR mutagenesis. Genome Res. 2, 28-33 (1992).
6 Vanhercke, T., Ampe, C., Tirry, L. & Denolf, P. Reducing mutational bias in random protein libraries. Anal. Biochem. 339, 9-14 (2005).
7 Esvelt, K. M., Carlson, J. C. & Liu, D. R. A system for the continuous directed evolution of biomolecules. Nature 472, 499-503 (2011).
8 Miller, S. M., Wang, T. & Liu, D. R. Phage-assisted continuous and non-continuous evolution. Nat. Protoc. 15, 4101-4127 (2020).
9 Ravikumar, A., Arzumanyan, G. A., Obadi, M. K. A., Javanpour, A. A. & Liu, C. C. Scalable, Continuous Evolution of Genes at Mutation Rates above Genomic Error Thresholds. Cell 175, 1946-1957.e1913 (2018).
10 Halperin, S. O. et al. CRISPR-guided DNA polymerases enable diversification of all nucleotides in a tunable window. Nature 560, 248-252 (2018).
(可上下滑动阅览)


BioART战略合作伙伴

(*排名不分先后)


BioART友情合作伙伴
(*排名不分先后)

转载须知


【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。





BioArt

Med

Plants

人才招聘

会议资讯



近期直播推荐