专栏名称: 生物制品圈
资源分享,行业交流!
目录
相关文章推荐
生物学霸  ·  顶尖科学家被曝上百篇论文造假,183 ... ·  3 天前  
BioArt  ·  Science | ... ·  4 天前  
生物探索  ·  Cell | ... ·  5 天前  
BioArt  ·  Nat Commun ... ·  5 天前  
51好读  ›  专栏  ›  生物制品圈

基于计算和人工智能的抗体开发方法

生物制品圈  · 公众号  · 生物  · 2024-10-15 11:42

正文

摘要:由于它们高度的靶向特异性和结合亲和力,治疗性抗体目前是生物治疗药物中最大的类别。传统的抗体开发过程主要是经验性的,虽然成熟且稳健,但繁琐且存在显著的局限性。最近在计算和人工智能(AI)技术方面的重大进展现在开始克服这些局限性,并且越来越多地被整合到开发流程中。在这里,我们提供了一份针对抗体开发相关的AI方法的概述,包括数据库、抗体属性和结构的计算预测器,以及强调机器学习(ML)模型的计算抗体设计方法,以及补体决定区(CDR)环的设计,这是抗体结构中对结合至关重要的组成部分。

1.在抗体开发中对计算/基于人工智能的方法的需求

治疗性抗体是非常成功的生物治疗药物,并且在2021年销售额最高的十种治疗药物中占据了四种。此外,基于抗体的生物治疗药物,如抗体-药物偶联物和双特异性抗体,也是具有前景的治疗方式。传统的抗体发现和开发主要由实验方法驱动,例如,通过噬菌体或酵母展示技术进行定向进化(参见术语表),或通过动物免疫。然而,这些方法耗时且费力,并且存在几个局限性,包括在指定抗体结合位点(表位)方面的困难,以及在获得可大规模生产的抗体方面的问题(方框1)。

尽管已有几种优化实验工作流程的策略被报道,但重大挑战仍然存在。近年来,基于计算/人工智能的抗体开发方法在这一工作流程的许多部分变得越来越重要。这与小分子药物发现类似,计算方法已经取得了显著进展;特别是药物-靶标相互作用的预测在很大程度上是由计算方法性能的显著提高所驱动的。此外,拥有自己抗体发现计算方法的新型生物技术公司正在出现。在这篇综述中,我们涵盖了与抗体开发相关的计算和基于人工智能方法的最新进展。特别是,我们提供了数据库的概述,这些数据库已经积累了数据,允许数据驱动的抗体开发,预测器已经开发出来,涵盖了抗体的序列、结构和功能属性,以及利用这些数据库和预测器改进实验抗体开发的计算模型。我们强调了这些方法的优势和局限性,以及实现这些方法在治疗性抗体开发中实际应用所需的步骤。

2.抗体序列和结构的数据库

对于抗体的开发和工程化,包括抗原靶向能力和功能属性,如抗原结合亲和力、目标特异性、通过表位分析的生物学效应以及可开发性属性都被认为是重要的(图1A)。这些能力和属性由抗体序列和结构决定。因此,关于抗体序列、结构及其相关属性的信息对于新抗体的设计一直很有启发性。

图1. 为提高效能和功能属性而进行的抗体工程。(A) 抗体命中/候选物通常利用蛋白质工程进一步开发,不仅增强了抗原结合亲和力、目标特异性和通过表位分析的生物学效能,还包括可开发性属性,包括免疫原性、溶解度和药代动力学,以确保后续可制造性。(B) 抗体(免疫球蛋白G)的示意图。抗体的重(H)链以紫色表示,而轻(L)链以洋红色显示。两条链均标有C代表恒定区,V代表可变区。可变片段(Fv)区域由重链和轻链的可变区之间的相互作用组成。(C) Fv区域的补体决定区(CDRs)的代表性排列。CDRs由重链和轻链的可变链的三个相应环组成。六个CDR可以与抗原相互作用,调节抗体的特异性和效力。CDR环被突出显示并标记(蛋白质数据银行:1N8Z)。

已经发布了一些抗体序列、结构及其属性的数据库,这些数据库使得后续计算方法的开发成为可能(表1)。这些数据库对于为深度学习(DL)模型提供训练数据至关重要。

2.1.抗体库的序列数据库

在人类免疫系统中,抗体由B细胞产生,其库估计有大约1013个独特序列。抗体由两种类型的蛋白质链组成,称为重链(HC)和轻链(图1B)。每条链由多个基因片段(V、D和J片段)编码,这些片段通过V(D)J重组过程拼接在一起。通过这一过程,可以产生多样化的抗体序列范围。现在可以使用下一代测序(NGS)方法获得这种库的大量快照。已经做出了努力,为这些测序数据创建标准化的、公开可用的存储库。这些数据库为研究人员提供了轻松访问大量序列的机会,并为大规模数据挖掘创造了机会。观察到的抗体空间(OAS)汇编了可变片段(Fv)序列,并包含近20亿个序列,涵盖68个不同的研究。已经在OAS数据库上训练了几个深度学习模型,作为辨别和生成人源化抗体序列的手段(在“计算抗体设计”部分详细描述)。此外,一些新工具利用这些数据集进行全面分析抗体序列(表1)。例如,AbDiver是一个工具,它采用公开策划的B细胞受体NGS数据集,并将设计序列与自然库进行比较。这个工具有助于在广泛的抗体突变空间中导航,目的是合理设计和工程化治疗性抗体。此外,开发者确定它可以为742种治疗性抗体找到合适的配置文件。另一个工具,带有集成抗体数据库的抗体库测序数据集分析平台(RAPID),包括从人类HC库测序中提取的超过3亿个克隆。它还包含了一个大型抗体数据库,包括521种治疗性抗体和88,059种针对特定抗原或在特定疾病患者中产生的抗体。这种策划的抗体-抗原信息最终可能导致一个纯粹的基于序列的抗体-抗原问题的解决方案(即,预测任何给定的抗体结合的抗原),但可能需要更大的数据集才能实现这一点。

2.2.抗体结构数据库

抗体的Fv结构域由CDRs(补体决定区)、高度可变的序列和保守序列框架组成(图1C)。六个CDR环,重链(VH)和轻链(VL)的可变域上各有三个,参与抗原结合。因此,抗体的3D结构决定了它如何与抗原相互作用,并控制其结合特性。研究人员可以利用从抗体结构中获得的信息来增加结合亲和力,或者开发预测表位和互补位的方法。基于结构的方法仍然是抗体设计的最有前途的途径,因此结构数据库对于训练和评估此类模型非常重要。

蛋白质数据银行(PDB)中的抗体结构已被提取并编译成各种数据集。抗体的Fv区域已在抗体结构数据库(AbDb)中更新,使用来自抗体晶体结构摘要(SACS)数据集的信息。同样,根据特定标准,PDB中的抗体结构在结构抗体数据库(SAbDab)中列出,截至2022年6月,该数据库包含12,367个Fv区域结构,以及abYsis。此外,治疗性结构抗体数据库(Thera-SAbDab)是一个治疗性结构抗体数据库,包括抗体和纳米抗体相关的生物治疗药物。截至2022年7月,该数据库跟踪748种独特的治疗药物,包括单克隆抗体和双特异性治疗药物。它还为每个治疗条目提供了额外的元数据,如临床试验状态、目标抗原特异性和参与开发的公司。

其他专门的数据集总结了有关抗体属性和结构的策划信息。这些数据库包括变异蛋白相互作用的动力学和能量学的结构数据库(SKEMPI)[17]和抗体结合突变数据库(AB-Bind)。此外,还有更专注的抗体存储库,如针对抗冠状病毒抗体的CoV-AbDab,以及针对单域抗体和相关类别蛋白的sdAb-DB。此外,Antibodypedia提供了商业可获得抗体的验证信息,是数据集策划的另一个有用资源。这些单独的存储库可以通过提供训练数据集或分析已设计抗体序列,引导特定深度学习(DL)模型的开发。虽然这些数据集本身相对较小,但这些存储库可以通过转移学习技术(即,将从一项任务中学到的信息应用于相关任务的过程,例如,用另一项任务的额外数据完善一个在一项任务的数据上训练的模型)与其他数据集一起使用。

3.抗体属性的预测器

除了结合特异性和亲和力外,可开发性对新型抗体治疗药物的开发至关重要。可开发性属性影响抗体候选药物在适当效力的情况下能否进入临床使用的可能性。可开发性的几个主要属性包括:固有免疫原性、聚集/不溶性、粘度和半衰期。为了减少工业应用的可开发性问题,在早期开发阶段需要评估治疗性抗体的特性。最近,已经开发并可以使用基于经典统计或机器学习(ML)的计算工具或方法来快速预测抗体候选药物的可开发性。

通常,抗体的可开发性主要可以通过氨基酸序列的物理化学属性来预测,如疏水性、静电电荷和它们在拓扑模式中的相互作用。例如,治疗性抗体分析(TAP)模拟了一组1期临床阶段后抗体治疗药物的集合,作为五个与较差可开发性相关指标的分布:CDRs的总长度、表面疏水性的程度、CDRs中的正负电荷,以及重链和轻链表面电荷的不对称性。TAP还为每个指标提供了指导性截止值,这些截止值被集体用于筛选出可开发性较差的抗体候选药物。此外,还有一些ML模型使用抗体序列或结构来预测整体可开发性。例如,Chen等人构建了一个ML管道,使用来自SAbDab数据库的2400个抗体序列数据集来预测抗体的可开发性。

虽然上述工具预测了整体可开发性,还有其他工具估计治疗性抗体候选药物的一个特定属性。

3.1.聚集

疏水性可能与蛋白质的聚集倾向、溶解度、粘度、自相互作用和蛋白稳定性相关,因此它有助于预测潜在的下游风险。抗体治疗药物的聚集可能导致沉淀并缩短药物在给药前的储存期限,而体内的聚集可能增加药物的免疫原性。为了预测蛋白质的溶解度和聚集倾向,已经开发了几种预测工具,如Camsol和SOLart,SOLart目前具有最先进的性能。此外,还有一些基于机器学习(ML)模型,使用抗体序列或结构来预测聚集倾向。基于结构的聚集预测工具AGGRESCAN 3D(A3D)允许设计抗体,显著降低聚集倾向。Trout小组提出了一个从各种模型中获得的ML框架,包括线性回归、支持向量回归和最近邻回归,用于预测抗体的聚集率,形式如下:聚集率 = -0.34 × SCM positiveFv + 0.29 × SASACDRH2H3 + 0.84:(1) 该小组确定了Fv区域的空间电荷图(SCM)阳性,它描述了可变区域中所有正电荷斑块的总和,以及CDR-H2和H3的可接触表面积(SASA)作为他们模型中最重要的两个分子动力学(MD)模拟特征。这些方法可以用来指导抗体候选物的工程化,并避免“可开发性陷阱”(例如,具有非常差的聚集或粘度特性的抗体)。

3.2.免疫原性

抗体治疗药物通常来源于小鼠或其他非人类生物,因此它们是可能被B和T细胞识别的潜在表位(B和T细胞表位)。当免疫系统识别抗体治疗药物的B和T细胞表位时,就会发生免疫原性反应,从而引发抗药抗体的产生。免疫原性通过诱发不良药物反应,对治疗效果产生负面影响,并对安全性产生影响。因此,预测免疫原性是评估抗体治疗药物临床安全性和有效性的关键部分。因此,已经开发了预测免疫原性序列并使它们人性化的方法。已经开发了用于从蛋白质/抗体预测表位的经典技术和基于AI的计算工具。这些工具通常检查抗体的一级序列以识别B和T细胞表位。免疫表位数据库分析资源(IEDB-AR)是一个综合性网站,提供几种专注于预测和分析B和T细胞表位的计算工具。此外,Deane小组使用了OAS中可用的近20亿个抗体序列,跨越生物体,所有人类序列被标记为正类,而其他被标记为负类,并训练了一个随机森林分类器模型,产生一个“人性化得分”。随机森林分类器由200个决策树组成,每个决策树单独使用它们的特征将输入序列分离为类别(人类或其他物种)。输出分数不仅区分了可变区域中的人类V基因和非人类序列,还指示了免疫原性风险水平。此外,该分数被用来构建一个名为HuAb的人性化工具,该工具建议突变以降低免疫原性风险。同样,Merck®和Bitton小组训练了一个基于Transformer编码器的语言模型,称为Sapiens,用于序列人性化。Transformer架构是自然语言处理(NLP)模型,采用注意力概念。在这里,每个输入标记嵌入(例如,一个氨基酸)将从输入中的其他标记接收更新,由学习到的重要性加权,即前述的注意力。请参阅http://nlp.seas.harvard.edu/ annotated-transformer了解有关Transformer和注意力的详细介绍。他们在OAS数据库中的自然人类Fv序列中随机掩蔽或突变氨基酸,并要求Sapiens基于剩余序列预测原始氨基酸。Transformer使用注意力机制在输入序列中的不同氨基酸上施加不同的权重,揭示了残基与整个序列之间的不同依赖性。他们提供了一个名为BioPhi的开源平台,整合了Transformer和评估方法,以帮助抗体人性化。

3.3.药物动力学清除

药物动力学(PK)清除率决定了抗体的半衰期,因此决定了抗体药物在给药后能在体内保持多长时间。等电点(pI)、粘度、免疫原性、非特异性、聚集性和稳定性是与临床PK清除率相关的因素。为了通过这些因素的综合评估来预测清除率,Grinshpun等人收集了64种已获批或处于2期和3期临床试验的单抗及其公布的清除数据,并训练了一个随机森林分类器来区分不同清除水平的抗体。他们发现pI是区分快速清除和慢速清除抗体的最重要特征。同样,Labute等人报告了基于结构的电荷计算以预测PK清除率。

4.基于计算的抗体设计

4.1.基于ML的抗体结构建模

抗体结构信息对于理解设计抗体的特性(如特异性和亲和力)至关重要,因此实验预测设计的结构对于模型开发至关重要。对于六个CDR中的五个(H1、H2、L1、L2和L3),结构多样性有限,并且这些环通常遵循规范构象;因此,这些环具有更多的结构约束,允许更容易的预测。相反,CDR-H3环具有高度的构象多样性,即使在序列相似性高的情况下也是如此,因此CDR-H3建模是一个限制更少、更困难的问题。

许多实验性抗体设计技术产生序列信息而没有相关的结构。在进行大规模筛选时,独立确定所有抗体环结构及其与抗原的界面是不切实际的。传统上,使用基于物理的建模(如MD模拟)、同源建模或组合方法(如MODELLER)来预测抗体结构。

与基于物理的建模相比,还开发了计算效率高的深度学习(DL)模型用于抗体结构建模(表2)。例如,ABodyBuilder是一个自动化的抗体同源建模流水线,遵循四个步骤:模板选择、方向预测、CDR环建模和侧链预测。ABlooper使用图神经网络,可以直接在结构文件的3D坐标数据上工作,预测六个CDR环的所有骨架原子(Ca、N、C和Cb)的位置。相比之下,来自Gray小组的DeepAb预测不变特征,然后用于Rosetta重建结构。最终,DeepAb在H3环的预测精度上达到了均方根偏差(RMSD)2.33Å,而ABlooper和ABodyBuilder分别达到了2.49Å和3.25Å。由于DeepAb依赖于Rosetta,它的预测速度较慢(一个结构需要10分钟)。Gray小组最近建立了一个基于蛋白质语言的模型IgFold,可以更快地预测结构(不到1分钟一个结构)。与ABlooper和DeepAb不同,IgFold结合了模板结构,从而实现了更准确的预测,特别是在纳米抗体结构上。

尽管这些结果展示了抗体结构建模的显著进步(主要由采用DL技术推动),但仍需要更多的工作,并且可靠地建模抗体/抗原复合物结构仍然是一个未解决的问题。CDR-H3环建模仍然具有挑战性,改进的架构可能更好地利用领域特定知识,从而提高模型预测精度(即,调整现有模型架构以纳入关于CDR环的生物学知识)。然而,正如前所述,这是具有挑战性的,因为生物学家发现具有非常相似序列的CDR-H3环采用完全不同的结构构象。AlphaFold2在从序列预测蛋白质结构方面已经证明是革命性的。它的工作原理是输入一个多重序列比对(MSA),该比对通过进化历史提供重要的结构信息,以及模板PDB结构,为模型提供进一步的结构约束。AlphaFold2广泛使用了在NLP中占主导地位的注意力机制,以及几何启发的注意力变体,如三角形自注意力。AlphaFold2中也引入了不变点注意力(IPA),允许在全局框架中生成3D原子坐标。目前,它在预测孤立蛋白的结构方面存在困难,MSA生成证明是一个主要的计算瓶颈。在抗体设计的背景下,由于AlphaFold2依赖于同源序列的MSA,由于数据库中可用的抗体结构有限以及CDR-H3环的多样性,它不适用于CDR-H3建模。当前的工作正尝试仅从单一序列输入生成结构,以解决依赖于MSAs的挑战。来自Genetech®的EquiFold[50]在抗体结构上表现良好。AlphaFold2-Multimer也可能被用来指导抗体设计,通过生成输入抗体和抗原序列的复合结构,具有很好亲和力的结合物可能具有非常有信心的结构预测。然而,AlphaFold2-Multimer的性能仍然不是最优的。此外,基于Rosetta抗体包的方法,如DeepAb,受到其内置评分函数准确性的限制,即蛋白质系统能量的数学模型。最后,由于与抗原结合可能导致构象变化,因此在预测Fv或CDR-H3环结构时,将抗原信息纳入当前模型中是至关重要的。

DL在帮助抗体筛选方面证明是有用的。例如,DLAB定位抗体和抗原的界面,并使用基于3D卷积的神经网络生成结合分数。这些模型的限制包括必要的离散化(将蛋白质结构分割成用户定义的细度的3D网格,其中每个网格元素可能包含有关不同类型(如碳和氧)的原子密度信息);由于正确的细度事先未知,可能会有大量信息丢失的潜力。此外,数据集的限制包括依赖于特定对接算法进行数据生成或数据集中具有克隆相关序列。

4.2.基于结构的深度学习模型用于设计和分析

为了克服经典抗体设计技术的局限性(方框2),最近将机器学习(ML)应用于抗体设计的努力,特别是CDR-H3环,通常分为两类(表3,关键表格)。首先,有一些模型尝试通过生成3D坐标来为CDR-H3s设计现实的主链。例如,IG-VAE模型,它建立在Huang小组的先前工作基础上,通过实现一个变分自编码器来生成包括所有3D坐标的完整主链,该自编码器被训练以从学习到的潜在空间中准确重建3D坐标、扭转角度和距离图。使用这个空间中的随机初始化和梯度下降,模型能够以指定约束产生免疫球蛋白的完整3D主链结构。Shan等人通过使用涉及学习蛋白质结构图嵌入的模型重新设计CDR区域,开发了严重急性呼吸综合征冠状病毒2(SARS-CoV-2)抗体,以预测在环中引入特定突变时ddG的变化。仅主链生成的缺点是它们依赖于Rosetta中的外部工具来设计可以折叠成指定结构的序列。此外,这些基于结构的模型不允许根据特定表位进行条件设置,这也是不可取的。

4.3.基于序列的深度学习模型设计和分析

在第二类中,有些深度学习模型尝试仅从它们的序列中学习抗体的总体特征(表3)。这些模型的核心是学习抗体序列的相互依赖性;自回归或生成模型的兴起随后允许可以生成“类似抗体”序列的模型。在一种早期方法中,Shin等人应用因果膨胀卷积来学习自回归模型中的序列中的长期关系(即,一个模型,每次预测一个氨基酸,使用先前的预测作为下一个模型输入)。他们训练的模型被用来生成纳米抗体库,完全设计了CDR1、CDR2和CDR3区域。从那时起,由于Transformer-based模型如BERT的发展,NLP取得了巨大进步。然后将这些模型应用于蛋白质序列:BERT架构直接在Uniref100和BFD-100数据集上训练,创建了用于蛋白质序列预测的ProtBERT模型。类似地,在ESM-1b中,使用了2.5亿个蛋白质序列来训练一个语言模型,该模型学习了编码重要生物学属性的嵌入,这些属性可以使用训练的线性层轻松恢复。ProtBERT和ESM-1b都成功地捕获了许多或大多数蛋白质序列的属性。AbLang模型在预测OAS数据库中缺失的氨基酸方面表现出色,其中40%的序列缺失了15个或更多的氨基酸。Akbar等人仅使用序列信息在预测与3D抗原结构的结合亲和力方面表现出了有希望的性能。AntiBERTy模型,一个特定于抗体的基于BERT的模型,在5.58亿个抗体序列上进行了训练,具有嵌入,这些嵌入聚集到定向进化轨迹中,并能够检测互补位结合残基。Shuai等人使用免疫球蛋白语言模型(IgLM),在生成免疫球蛋白序列方面取得了巨大成功。Hie等人展示了NLP模型可以用于即使是临床级抗体的亲和力成熟,这是一个令人惊讶的结果,因为亲和力成熟可以在没有任何明确的抗原建模的情况下进行;从某种意义上说,他们通过自身优化抗体。

相比之下,另一种仅序列方法确实使用了抗原特异性数据:在工业界开始采用的一种方法中,Mason等人提出了一种方法,通过训练一个卷积神经网络在定向进化实验的结果上,以生成改进的库。已经开发了几种使用ML模型从定向进化实验中学习序列模型的相关方法。未来的模型可能会结合语言模型的特征,然后训练在某种实验数据上,以获得针对抗原结合优化的现实抗体。然而,目前,纯粹的基于序列的模型要么对抗原不敏感,要么需要外部实验数据,并且在生成过程中将受益于纳入结构信息。

4.4.利用结构和序列信息的DL模型是ML基础抗体设计的未来

除了前面讨论的经典工作,更多的基于AI的方法开始被开发。例如,Jin等人开发了一个模型,以自回归的方式生成CDR-H3环的序列和结构,类似于Huang小组在一般蛋白质序列设计上进行的工作。下一个氨基酸预测是在一个粗略的抗体框架表示和生成环中当前氨基酸的条件,包括结构。该模型为环中的下一个氨基酸生成概率预测,并可以为环中生成的下一个残基生成相应的3D原子坐标。他们在开发可能干扰SARS-CoV-1和SARS-CoV-2的抗体方面展示了有希望的结果。尽管令人兴奋,但该模型没有对特定表位进行条件设置,为模型改进留出了空间。Kang等人采取了更简单的方法,其中抗体和抗原氨基酸被表示为图中的节点,界面结构通过界面残基节点之间的边捕获。尽管在某种程度上成功,但该模型显示出对训练数据的显著过度拟合。CDR-H3环设计的未来将在于能够完全生成序列和结构的模型,同时适当地对目标表位进行条件设置。

4.5.结合AI蛋白质设计方法可以改善抗体开发

最后,也很重要的是考虑将深度学习用于通用蛋白质设计的一般发展,以适应成功的技术到抗体设计任务。最近在将幻觉技术应用于通用蛋白质设计方面也取得了成功。在这种方法中,随机选择蛋白质序列,然后将其“折叠”成3D结构(通过主链α-碳距离图预测),使用现有的ML模型,提供一个起点,然后通过蒙特卡洛过程引入突变,使蛋白质与真实蛋白质的折叠更加现实。此外,扩散概率模型已成功应用于蛋白质主链设计。在这个框架中,将噪声应用于蛋白质的表示,直到蛋白质表示完全是高斯噪声。然后训练一个深度学习模型来撤销这个噪声过程,允许采样高斯噪声(一个简单任务)并转换为现实的蛋白质结构。最近,RFdiffusion和Chroma,这两种基于评分的生成模型,已经能够为新型蛋白质生成全原子坐标,Chroma创建了具有数千个氨基酸的蛋白质。显然,这些方法适用于CDR区域的设计,未来的工作将涉及实施它们。

5.结论和未来展望

我们总结了当前用于治疗性抗体开发的计算方法,适用于预测结构、表位,并解决可开发性问题(图2A、B)。

图2. 近期开发的抗体设计计算方法。(A) 用于分析和预测抗体结构、序列和属性的当前计算工具概览。抗体结构是通过基于物理或基于深度学习的建模方法从结构数据库中预测的。序列数据库提供了抗体库的下一代测序(NGS)数据或已发布抗体序列和相关信息的存储库。最后,已经发布了几种抗体属性预测器。(B) 基于数据库/工具的深度学习方法进行新型抗体设计。这些方法包括基于序列的模型、基于结构的模型以及基于结构和序列的模型。缩写:AbDb,抗体结构数据库;CNN,卷积神经网络;IgLM,免疫球蛋白语言模型;NLP,自然语言处理;NN,神经网络;OAS,观察到的抗体空间;PDB,蛋白质数据银行;RAbD,Rosetta抗体设计;SAbDab,结构抗体数据库;SACS,抗体晶体结构摘要;TAP,治疗性抗体分析;Thera-SAbDab,治疗性结构抗体数据库。

这些方法不仅可以提高可开发性,还可以降低成本、减少劳动力,并支持更广泛地获取其他生物治疗药物。例如,AlphaFold2将数周的工作量减少到数小时或数分钟。这种计算工具的价值之一在2019年冠状病毒病(COVID-19)大流行期间的药物发现中得到了体现。在COVID-19药物发现研究中,许多案例要么是纯粹的计算研究,要么是计算机辅助的实验研究。计算方法的改进可能有助于加速新型药物的开发,以解决未来的大流行。理想的计算抗体设计平台将允许同时生成抗体序列和结构,同时对目标表位进行条件设置。朝着这个目标已经取得了进展,并且已经出现了解决这个问题的子集的方法。进一步的进展可能来自于持续开发基于结构的深度学习方法用于蛋白质设计(见突出问题)。在蛋白质设计中,解决相关、更模块化的问题的改进解决方案持续被开发。预测一种可以折叠成特定结构的蛋白质序列(逆向蛋白质折叠)的问题,例如,已经看到了持续的改进;最先进的方法整合了捕捉蛋白质不变性的同时在局部和全局坐标框架中推理蛋白质残基的当代架构。这个问题直接关系到给定主链结构时CDR序列的设计。同样,在无条件和有条件的蛋白质主链生成的补充问题上也取得了进展。这些方法显著受益于现代生成框架的发展,即扩散,并且可以直接应用于抗体框架中的环生成。最近,基于评分的生成模型(扩散模型的现代表述)已被证明在生成新型蛋白质折叠方面表现良好,并且它们似乎也可以应用于抗体生成。基于深度学习的蛋白质设计方法还从AlphaFold2在蛋白质结构预测方面的范式转变工作中受益。使用AlphaFold2进行数据增强,其中AlphaFold2预测被用作额外的训练数据,有助于改进逆向蛋白质折叠。竞争性的RoseTTAFold方法通过训练一个专门用于在给定上下文的情况下填充蛋白质部分的类似模型,允许通过网络幻觉进行从头设计。这种基于马尔可夫链蒙特卡洛方法或梯度更新的引导搜索通常用于条件生成,并且可以用来指导基于结构的生成框架中的抗体设计。最近,AlphaFold2引入的IPA模块被改编为用于蛋白质结构和序列设计的生成模型。IPA只是AlphaFold2引入的众多架构创新之一。直接将这些思想纳入生成环境的未来工作有可能进一步提高基于深度学习的蛋白质工程的性能。就有用的未来方向而言,可能还需要包括密码子优化来完成设计。密码子优化不仅可以提高蛋白质表达产量,还可以提高抗体组装、亲和力和生物活性。Novimmune®通过密码子优化优化了双特异性抗体的组装。此外,Rosenberg等人表明,蛋白质结构坐标的数学计算取决于密码子使用。基于这种方法,可以开发深度学习方法。目前尚不清楚是否可以将基于蛋白质结构和序列设计的各种进步整合到一个端到端可微的流程中,用于在不影响各个组件性能的情况下进行表位条件的抗体生成。这将与将无约束生成与结合预测器和广泛的序列和结构空间搜索的传统方法形成对比。即使有引导搜索策略,直接在表位背景下生成抗体可能会允许更有效地识别结合物。这在执行必要的可开发性约束以促进有效的治疗开发时尤为重要。鉴于深度学习在结构和蛋白质生物学中迅速变化的格局,未来几年可能会在实现这一全面抗体开发平台的目标上取得巨大进展。