近日,发表了题为“Mapping targetable sites on the human surfaceome for the design of novel binders”的文章,构建了所有人类可靶表面蛋白数据库,对可靶向位点进行了全面分析,同时构建了2轮迭代的蛋白结合剂设计流程(rosetta, ProteinMPNN, AF2),并对3个靶点的
6个候选结合剂进行了实验验证。
1. 人类细胞表面蛋白(surfaceome)的计算分析过程
人类细胞表面蛋白(surfaceome)是细胞间通信和信号传递的关键组成部分,也是药物开发的重要靶点。然而,由于靶点数量庞大且结合位点信息有限,传统实验方法难以高效识别结合剂。
通过计算分析全面评估人类 surfaceome 的靶点性,预测结合位点,并生成高质量的结合种子,为后续蛋白设计和药物开发提供基础。
计算分析的整体流程图
数据收集:
(1)从SURFY数据库中收集了2,886个预测为人类细胞表面蛋白的条目。(2)使用 AlphaFold2(AF2) 模型预测每个蛋白的结构,并根据pLDDT分数(>0.6)筛选高置信度的结构。
结合位点预测:
(1)使用MaSIF-site框架对蛋白表面进行点云分析,预测可能的结合位点。(2)通过DBSCAN聚类算法对预测点进行聚类,定义结合位点的边界。(3)排除跨膜区域的结合位点,最终得到4,500个结合位点。
结合位点性质分析:
计算每个结合位点的几何和化学性质,包括形状指数、曲率、溶剂可及表面积(SASA)、疏水性等。
结合种子生成:
用MaSIF-seed算法从640,000个蛋白片段中筛选出高结合倾向的种子,并通过30亿次对接计算生成最终的结合种子列表。
蛋白设计:
包括骨架设计和环肽设计,应用于代表性蛋白质上,以在实验设置下评估
种子(此处指蛋白质设计中的起始结构或模板)的质量。
GPCR 和 SLC 家族的结合位点数量较少,主要集中在跨膜区域。
激酶(Kinase)和其他受体(Other Receptors)家族的结合位点数量较多,平均每个蛋白有6个结合位点。
Miscellaneous和Transporter类蛋白中,部分成员具有多个结合界面,有些粘附蛋白(adhesion proteins)甚至包含超过12个结合界面。
这些结果表明,不同蛋白家族的结合位点分布具有显著差异,激酶和受体类蛋白是潜在的高价值靶点。
图A:亮氨酸(Leucine)是结合位点中最常见的氨基酸,尤其是在 Transporter 家族中。缬氨酸(Valine)和丝氨酸(Serine)分别是第二和第三常见的氨基酸。
图B:检测到的β种子数量多于α种子,主要是由于初始数据库中β种子的数量较多。具有更多结合位点的蛋白家族通常生成更多的结合种子,例如免疫球蛋白(Ig)亚家族对β种子表现出较高的结合能力。
这些分析揭示了结合位点的化学特性和结合种子的分布规律,为后续结合剂设计提供了重要参考。
图C中展示了天然结合剂(灰色和红色)与检测到的抑制性结合种子(蓝色)的对比,表明结合种子能够有效破坏蛋白-蛋白相互作用。图D,所有生成的数据都被整合到SURFACE-Bind数据库中,并通过静态和交互式HTML页面向公众开放。
这些结果表明,结合种子不仅具有潜在的功能性,还可以通过数据库为研究者提供开放的资源。
结合种子的优化和实验验证进一步证明了计算分析的有效性:
优化过程:
使用 ProteinMPNN 对结合种子进行序列优化,保留界面残基或完全重新设计序列。使用 AF2 预测优化后的折叠能力(pLDDT)和界面质量(ipTM)。
优化后的设计(rd2)在单体折叠能力(pLDDT)和复合物界面质量(ipTM)上显著优于初始设计(rd1)。
超过50%的rd1序列被重新设计,优化后的设计在实验中的成功率提高了8-11倍。
界面突变实验和竞争实验的结果,与设计的结合模式一致。
这些结果表明,结合种子的优化显著提高了实验成功率,验证了计算分析的有效性。
2. 对三种重要细胞表面受体(FGFR2、HER3 和 IFNAR2)开发全新的蛋白结合剂
利用计算设计方法开发针对三种重要细胞表面受体(FGFR2、HER3和IFNAR2)的全新蛋白结合剂(binders)。
使用 MaSIF-site 对目标蛋白的表面进行分析,预测可能的结合位点。
图中红色区域表示高结合倾向的界面,蓝色区域表示低结合倾向。
对FGFR2、HER3和IFNAR2的分析结果表明,所有预测的结合位点都位于或接近已知的结合界面。
MaSIF-site 的预测结果为后续结合剂设计提供了高置信度的结合位点。
结合剂设计与多样性分析
使用 MaSIF-seed-search 从 640,000 个种子结构中筛选出高结合倾向的种子。
将这些种子通过 Rosetta 建模嫁接到受体蛋白骨架上,生成约 2,000 个初始设计(rd1)。
通过多维尺度分析(MDS)展示了设计的折叠多样性,基于所有设计的RMSD(均方根偏差)进行聚类。结果显示,设计涵盖了多种结构类型,确保了设计的多样性。
通过多样化的设计策略,研究团队能够探索不同的结合模式,提高实验成功率。
图C:从2,000个初始设计中筛选出6个候选结合剂,并通过实验验证其结合能力。
图中展示了6个结合剂的计算模型,目标蛋白以灰色表示,结合剂分别以蓝色(FGFR2)、绿色(IFNAR2)和黄色(HER3)表示。
图D:结合剂的亲和力范围从高纳摩尔到低微摩尔,表明其具有较强的结合能力。结合剂的亲和力测量结果进一步验证了其功能性。
使用流式细胞术(flow cytometry)测量结合剂的结合信号。通过竞争实验验证结合剂的结合特异性。
结果显示,结合剂在竞争蛋白存在下的结合信号显著降低,表明其结合特异性。
使用ProteinMPNN对初始设计(rd1)进行序列优化,保留界面残基或完全重新设计序列。
使用AF2预测优化后的设计(rd2)的折叠能力和界面质量。
优化后的设计在AF2预测中的折叠能力(pLDDT)和界面质量(ipTM)显著提高。
超过50%的rd1序列被重新设计,优化后的设计在实验中的成功率提高了8-11倍。
rd2设计的ipTM分数显著高于rd1(0.85 vs. 0.67),表明优化后的设计具有更高的界面质量。
rd2设计的实验成功率显著提高:FGFR2的成功率从0.1% 提高到1.1%,提升了11倍。HER3的成功率从0.1%提高到 0.8%,提升了8倍。
IFNAR2的rd1设计在表达阶段失败,但rd2设计成功生成了低微摩尔亲和力的结合剂。
优化后的设计在计算预测和实验验证中均表现出显著改进,进一步证明了优化流程的有效性。