专栏名称: 生命科学前沿

以病毒学为特色，探讨生命科学前沿，普及生命科学知识。生命科学之家！

构建了所有人类可靶表面蛋白信息的数据库与全新Binder设计流程

生命科学前沿 · 公众号 · · 2024-12-23 00:05

正文

近日，发表了题为“Mapping targetable sites on the human surfaceome for the design of novel binders”的文章，构建了所有人类可靶表面蛋白数据库，对可靶向位点进行了全面分析，同时构建了2轮迭代的蛋白结合剂设计流程(rosetta, ProteinMPNN, AF2)，并对3个靶点的 6个候选结合剂进行了实验验证。

1. 人类细胞表面蛋白(surfaceome)的计算分析过程

人类细胞表面蛋白（surfaceome）是细胞间通信和信号传递的关键组成部分，也是药物开发的重要靶点。然而，由于靶点数量庞大且结合位点信息有限，传统实验方法难以高效识别结合剂。

通过计算分析全面评估人类 surfaceome 的靶点性，预测结合位点，并生成高质量的结合种子，为后续蛋白设计和药物开发提供基础。

1.1 计算分析的流程

数据收集： (1)从SURFY数据库中收集了2,886个预测为人类细胞表面蛋白的条目。(2)使用 AlphaFold2(AF2) 模型预测每个蛋白的结构，并根据pLDDT分数（>0.6）筛选高置信度的结构。

结合位点预测： (1)使用MaSIF-site框架对蛋白表面进行点云分析，预测可能的结合位点。(2)通过DBSCAN聚类算法对预测点进行聚类，定义结合位点的边界。(3)排除跨膜区域的结合位点，最终得到4,500个结合位点。

结合位点性质分析： 计算每个结合位点的几何和化学性质，包括形状指数、曲率、溶剂可及表面积（SASA）、疏水性等。

结合种子生成： 用MaSIF-seed算法从640,000个蛋白片段中筛选出高结合倾向的种子，并通过30亿次对接计算生成最终的结合种子列表。

蛋白设计： 包括骨架设计和环肽设计，应用于代表性蛋白质上，以在实验设置下评估 种子（此处指蛋白质设计中的起始结构或模板）的质量。

1.2 结合位点的分布和性质

GPCR 和 SLC 家族的结合位点数量较少，主要集中在跨膜区域。

激酶(Kinase)和其他受体(Other Receptors)家族的结合位点数量较多，平均每个蛋白有6个结合位点。

Miscellaneous和Transporter类蛋白中，部分成员具有多个结合界面，有些粘附蛋白(adhesion proteins)甚至包含超过12个结合界面。

这些结果表明，不同蛋白家族的结合位点分布具有显著差异，激酶和受体类蛋白是潜在的高价值靶点。

1.3 结合位点的氨基酸组成与结合种子分布

图A：亮氨酸（Leucine）是结合位点中最常见的氨基酸，尤其是在 Transporter 家族中。缬氨酸（Valine）和丝氨酸（Serine）分别是第二和第三常见的氨基酸。

图B：检测到的β种子数量多于α种子，主要是由于初始数据库中β种子的数量较多。具有更多结合位点的蛋白家族通常生成更多的结合种子，例如免疫球蛋白(Ig)亚家族对β种子表现出较高的结合能力。

这些分析揭示了结合位点的化学特性和结合种子的分布规律，为后续结合剂设计提供了重要参考。

1.4 结合种子的功能验证与数据库构建

图C中展示了天然结合剂（灰色和红色）与检测到的抑制性结合种子（蓝色）的对比，表明结合种子能够有效破坏蛋白-蛋白相互作用。图D，所有生成的数据都被整合到SURFACE-Bind数据库中，并通过静态和交互式HTML页面向公众开放。

这些结果表明，结合种子不仅具有潜在的功能性，还可以通过数据库为研究者提供开放的资源。

1.5 结合种子的优化与实验验证

结合种子的优化和实验验证进一步证明了计算分析的有效性：

优化过程： 使用 ProteinMPNN 对结合种子进行序列优化，保留界面残基或完全重新设计序列。使用 AF2 预测优化后的折叠能力（pLDDT）和界面质量（ipTM）。

实验验证：

优化后的设计（rd2）在单体折叠能力（pLDDT）和复合物界面质量（ipTM）上显著优于初始设计（rd1）。

超过50%的rd1序列被重新设计，优化后的设计在实验中的成功率提高了8-11倍。

界面突变实验和竞争实验的结果，与设计的结合模式一致。

这些结果表明，结合种子的优化显著提高了实验成功率，验证了计算分析的有效性。

2. 对三种重要细胞表面受体（FGFR2、HER3 和 IFNAR2）开发全新的蛋白结合剂

利用计算设计方法开发针对三种重要细胞表面受体（FGFR2、HER3和IFNAR2）的全新蛋白结合剂（binders）。

2.1 计算设计流程

1.界面预测

使用 MaSIF-site 对目标蛋白的表面进行分析，预测可能的结合位点。

图中红色区域表示高结合倾向的界面，蓝色区域表示低结合倾向。

对FGFR2、HER3和IFNAR2的分析结果表明，所有预测的结合位点都位于或接近已知的结合界面。

MaSIF-site 的预测结果为后续结合剂设计提供了高置信度的结合位点。

2.结合剂设计与多样性分析

使用 MaSIF-seed-search 从 640,000 个种子结构中筛选出高结合倾向的种子。

将这些种子通过 Rosetta 建模嫁接到受体蛋白骨架上，生成约 2,000 个初始设计（rd1）。

这些设计涵盖了广泛的折叠和拓扑结构。

通过多维尺度分析（MDS）展示了设计的折叠多样性，基于所有设计的RMSD（均方根偏差）进行聚类。结果显示，设计涵盖了多种结构类型，确保了设计的多样性。

通过多样化的设计策略，研究团队能够探索不同的结合模式，提高实验成功率。

2.2 实验验证

1.计算模型与实验验证的结合剂

图C：从2,000个初始设计中筛选出6个候选结合剂，并通过实验验证其结合能力。

图中展示了6个结合剂的计算模型，目标蛋白以灰色表示，结合剂分别以蓝色（FGFR2）、绿色（IFNAR2）和黄色（HER3）表示。

这些结合剂在实验中表现出良好的结合能力。

图D：结合剂的亲和力范围从高纳摩尔到低微摩尔，表明其具有较强的结合能力。结合剂的亲和力测量结果进一步验证了其功能性。

2.结合特异性验证

使用流式细胞术（flow cytometry）测量结合剂的结合信号。通过竞争实验验证结合剂的结合特异性。

结果显示，结合剂在竞争蛋白存在下的结合信号显著降低，表明其结合特异性。

3.结合剂优化与性能提升

使用ProteinMPNN对初始设计（rd1）进行序列优化，保留界面残基或完全重新设计序列。

使用AF2预测优化后的设计（rd2）的折叠能力和界面质量。

优化后的设计在AF2预测中的折叠能力（pLDDT）和界面质量（ipTM）显著提高。

超过50%的rd1序列被重新设计，优化后的设计在实验中的成功率提高了8-11倍。

rd2设计的ipTM分数显著高于rd1（0.85 vs. 0.67），表明优化后的设计具有更高的界面质量。

rd2设计的实验成功率显著提高：FGFR2的成功率从0.1% 提高到1.1%，提升了11倍。HER3的成功率从0.1%提高到 0.8%，提升了8倍。

IFNAR2的rd1设计在表达阶段失败，但rd2设计成功生成了低微摩尔亲和力的结合剂。

优化后的设计在计算预测和实验验证中均表现出显著改进，进一步证明了优化流程的有效性。