专栏名称: BioArt
BioArt致力于分享生命科学领域科研学术背后鲜为人知的故事,及时报道和评论生命科学领域有料的动态,BioArt也是一个生命科学领域“百花齐放,百家争鸣”的舞台,循“自由之思想”与“独立之精神”为往圣继绝学。
目录
相关文章推荐
生信宝典  ·  生信入门一对一,数据操作带你飞 ·  4 天前  
生物学霸  ·  miRNA 结合多个领域研究的前沿文献精选 ·  4 天前  
BioArt  ·  Cancer Cell | ... ·  6 天前  
51好读  ›  专栏  ›  BioArt

Nature | 蛋白质稳定性的遗传结构

BioArt  · 公众号  · 生物  · 2024-10-19 08:51

正文

撰文 | 阿童木

针对单氨基酸突变体或双突变体的表型验证和功能研究往往较为简单,然而,随着突变体复杂度的增加,尤其是涉及多重突变的情况,实验设计和功能分析的难度也呈指数级上升【1】。究其原因,在于可能基因型组合的爆炸性增长,例如,当对34个位点分别进行一次突变时,其组合数量超过了 1010种。鉴于当前实验技术的限制,如此庞大的基因型空间难以通过实验手段完全探明。到目前为止,能够实际分析的基因型序列空间大约仅为106这一数量级【2】

面对高维序列空间探索的挑战,深度学习模型提供了一条有效的途径。具有数百万参数的深度神经网络已经在各种蛋白质效应预测和设计任务中展现了其成功性,包括预测组合突变体的功能等【3,4】。尽管如此,对于广大生命科学从业者来说,这些深度学习模型往往架构复杂且难以解释。

蛋白质的基因型-表型关系往往非常复杂,准确的预测通常依赖于多个突变之间的相互作用。然而,这些关系也可能通过更简单的统计模型来描述,这些模型依赖于基于能量的测量和推断。简单模型的优点在于参数较少,易于理解,这对理解生物学意义和相关性至关重要。

近日,巴塞罗那科学技术研究所的Ben Lehner团队领衔在Nature杂志发表了题为The genetic architecture of protein stability的研究文章。通过富集功能性蛋白质序列,作者探索了具有超过30维和超过1010种基因型的高维蛋白质序列空间的遗传结构。结果表明,蛋白质的遗传结构相对简洁,加性能量模型(additive energy model)在预测性能上表现优异。此外,本研究通过量化突变之间的成对能量耦合,显著提高了模型的预测能力,且这些耦合与蛋白质的三维结构密切相关。总体而言,蛋白质的遗传结构简单且易于理解,在一定程度上可归结为加性能量与少量稀疏的成对结构耦合的共同作用。


在研究高维序列空间中的基因型时,作者使用启发式技术,通过保留组合突变的折叠和功能进行富集。以GRB2-SH3蛋白为例,作者合成了包含34个氨基酸突变组合的文库,并测定了约12.9万个基因型的细胞丰度。结果显示,基因型频率呈现对称的荚状分布,且尽管有大量氨基酸替代,仍有许多基因型保持了与野生型相似的丰度,表明在复杂突变组合中,许多基因型依然能够维持功能性结构

通过量化多重突变对基因型-表型预测模型的贡献度,作者发现基于单突变和双突变训练的能量模型能够解释组合突变体中的显著表型方差,而线性模型则表现较差。实验结果表明,加性能量模型能够更好地泛化预测,且随着训练数据增多,其在解释蛋白质热力学相关的突变效应上表现出更高的精确性。此外,将二阶能量耦合纳入模型后,预测的性能提升了9%,进一步确认了二元效应是蛋白质中基因互作的重要来源。相较于一阶项的强效应,二阶耦合效应的强度相对较小且分布在零附近。

随后,作者探索了蛋白质中的遗传相互作用与其结构的关联性。通过对561对能量耦合的分析,作者发现最强的能量耦合发生在结构上接近的残基之间,且耦合强度与三维结构中的距离呈负相关。进一步分析显示,耦合强度与主链残基距离也有显著的逆相关性。利用12个结构特征建立的线性回归模型有效预测了耦合强度,验证了能量耦合与蛋白质结构互作之间关系密切

通过设计组合饱和突变实验,作者验证了主链残基距离与能量耦合强度的相关性。结果表明,尽管残基在三维结构中相互接近,其主链中的相对位置对耦合强度的影响更为显著。主链距离与耦合强度高度相关,表明蛋白质序列中残基位置对于能量耦合强度具有独立影响。

在含有多重突变的GRB2-SH3基因型中,作者鉴定到大量的高丰度变体,并发现绝大多数高丰度的多重突变体能够正确折叠并保持功能,尤其在与配体结合能力方面。在验证了高丰度突变体的构象和功能性后,作者发现其中96%的高阶突变体能够结合配体,表明这些多重突变并未显著破坏蛋白质的结构和功能。

通过测定与蛋白质折叠和结合相关的单突变和双突变效应,作者收集了大量数据,发现热力学两态模型在预测蛋白质丰度表型上表现优异,甚至优于包含复杂遗传互作的线性模型。此外,引入的三态平衡模型能够同时推断蛋白质的折叠和结合自由能变化及能量耦合,且推断结果与独立实验数据高度一致。研究还发现,突变对蛋白质折叠能量的影响通常大于对结合能量的影响,且折叠能量耦合效应显著高于结合能量耦合效应。这些结合效应主要通过变构机制产生,尤其在距离结合位点较远的残基中尤为明显。此外,数据表明,变构能量耦合不仅由残基的序列位置驱动,还可能由其3D结构接触决定,突显了蛋白质结构在突变效应中的重要性。

最后,通过对Src蛋白的实验验证,研究进一步证明了二阶能量模型在预测蛋白质突变对结构和功能影响的广泛适用性。无论是GRB2-SH3还是Src蛋白,二阶能量耦合效应均可通过残基的3D空间和骨架距离来预测,表明这些机制不仅适用于特定蛋白质,且具有普遍性,这为深入理解蛋白质突变的功能和结构变化提供了有力支持。

综上所述,尽管蛋白质序列空间极其庞大且难以全面探索,但本研究表明通过实验采样和能量模型可以对其进行精准的遗传预测,能量模型显示出蛋白质自由能与表型之间的非线性关系,但其核心机制较为简单,主要表现为自由能的加性变化,且少量的能量耦合与蛋白质结构的接触和主链接近性相关

原文链接:
https://doi.org/10.1038/s41586-024-07966-0

制版人:十一



参考文献


1. Olson, C. A., Wu, N. C. & Sun, R. A comprehensive biophysical description of pairwise epistasis throughout an entire protein domain. Curr. Biol. 24, 2643–2651 (2014).
2. Tsuboyama, K. et al. Mega-scale experimental analysis of protein folding stability in biology and design. Nature 620, 434–444 (2023).
3. Dauparas, J. et al. Robust deep learning-based protein sequence design using ProteinMPNN. Science 378, 49–56 (2022).
4. Madani, A. et al. Large language models generate functional protein sequences across diverse families. Nat. Biotechnol. 41, 1099–1106 (2023).


BioART战略合作伙伴

(*排名不分先后)


BioART友情合作伙伴
(*排名不分先后)

转载须知


【原创文章】BioArt原创文章,欢迎个人转发分享,未经允许禁止转载,所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利,违者必究。





BioArt

Med

Plants

人才招聘

会议资讯



近期直播推荐