随着全球医药与公共卫生行业开始加速创新,以求更有效地应对日益复杂且多变的医疗健康与公共卫生挑战,如新发疾病和传染病、人口老龄化、慢性病及抗药性等,人工智能辅助药物开发 (Artificial Intelligence Drug Development,AIDD) 技术开始凭借更高的研发效率,更为自动化及智能化的运作方式与流程,以及更短耗时与更低成本,成为行业机构与投资机构、专业人士与普罗大众共同关注的议题。
对传统制药领域“双十定律”的突破,是AIDD为人津津乐道的优势之一,即它能以短至十数月的耗时,及低至以百万美元计的费用,击穿过去动辄十年用时+10亿美元成本起步的新药研发“天花板”;它另一个突出的表现就是普及或浸入业务场景进度非常快,制药领域几乎所有主要场景,包括
靶点识别
、
药物分子发现与筛选
、
药效预测
与
临床试验数据分析
,如今都在通过深度学习、机器学习等AI方法,借助重新设计的创新工作流程和模式提升药物研发效率和成功率。
然而需要客观看待的是,AIDD确实带来了革新与变化的机会,但它对于此前已经广为应用的计算机辅助药物发现(Computer Aided Drug Design,CADD)而言,更像是2.0与1.0版本的差别,或者说是CADD的演进与补充。如果用AI三要素——数据、算法与算力的维度来解析,两者最明显的差别就在于算法或应用不同——
AIDD采纳了更智能、更自动化、更能减少人工介入和人力投入,并能因此大大节省时间和成本的AI算法。
不过这并不意味着传统的CADD应用与算法就会从此消失,新药研发中有很多科学计算类应用(与计算物理或计算化学相关)依然在扮演关键角色,或者说,AIDD与CADD不但存在演进的关系,在相当一段时间内也会处于共生共用的状态。
算法在演进、迭代,数据规模也在不断暴涨,而且随着它们遍及和深入药物研发的每一个环节,算力也成为CADD与AIDD共同的核心需求,且要面对需迅速进化并覆盖端到端或全链路的考验。作为算力芯片及平台的提供商,英特尔正在凭借更强的通用计算性能与兼顾AI推理加速的至强
®
平台,为相关企业与机构提供或基于公有云、或面向私有化部署环境的端到端算力解决方案,以求为CADD与AIDD融合的药物研发与设计流程提供更实用、更好用也更易用的支持。
解析:
CADD
与
AIDD
如何在药物发现与设计
中发挥作用
如图一所示,现代药物研发的流程,简而言之为:
•
首先要通过医学、生物学和药理学等领域的研究,对潜在的药物作用靶点进行识别;
•
再借助计算或实验方法,发现并筛选出能与靶点相互作用的药物分子并进行药物设计;
•
再经过药效学、药代动力学以及安全性等方面的临床前研究后, 进入临床试验并最终审核上市。
图一 药物研发基本流程
基于对药物疗效和安全性的考量,这个全流程往往涉及海量计算、实验、临床试验以及其它优化迭代过程,并因此在各方面都促生了非常严苛的挑战,包括:
•
高昂的研发成本:
从早期研究到最终市场推广,新药研发成本往往数以十亿计,药物研发企业承压巨大;
•
漫长的研发周期:
新药从研究疾病的发生发展机理起直至患者使用,平均周期在十年以上,让很多患者“望穿秋水”;
•
不确定的临床成功率:
复杂的药物作用机制和不能完全预知的临床试验结果,使临床成功率徘徊在低位。
这些挑战,其实已是CADD得到普遍应用并初步加速了制药行业效率及降低其成本之后的结果。CADD是以量子力学和分子生物学为基础,借助基于计算机的分子图形学、分子建模技术与虚拟高通量筛选等关键技术,来了解、模拟和预测药物与靶标分子之间的作用,并筛选、设计和优化药物所需的化合物。它经过近半世纪的发展,相较更加传统的依靠直觉与反复实验的制药研发流程而言已进步巨大,但与崛起和应用速度更快的AIDD相比,其对专业人员与传统实验手段还较为依赖,主要是辅助专家的工作,智能化程度不足,也缺乏自主学习与进化的能力。
可以说,AIDD的优势,几乎都是面向CADD有的放矢的补成,它不但可用于新药研发的各个环节,包括靶点识别、药物分子筛选及ADMET(吸收、分布、代谢、排泄和毒性)预测、晶型预测等,更可以开辟新赛道,如实验室自动化测试等。相较于CADD,AIDD具备更智能、可自主演进与高度自主推进工作的特点,这也让大幅提升新药研发的各个环节效率与结果精度,并显著降低计算与实验成本成为可能。新药研发的用时更短、成本更低,就意味着这项工作
能以更高的并行度及更快的速度推进,进而能更有效地应对药物研发成功率过低的终极难题,不仅能为病患带来福祉,也能让相关的企业与机构获得可观的经济收益或投资回报。
举例来说,AIDD带来的收益在药物分子筛选、药物设计等环节尤为明显。有药物研发企业通过实践验证,
将AI方法引入药物分子筛选流程后,能更快地在大型化合物数据库中快速识别出有潜力的候选分子,提升筛选效率。
这些AI方法与其创新的多层次、虚实结合的药物分子发现流程相融合,
被证实能有效减少流程迭代的次数,降低合成与测试的成本,加快研发速度。
同时,融合了科学计算与AI优势的AlphaFold,也能对蛋白质三维结构进行高效预测,可在靶点识别、药物优化设计等环节中起到重要作用。
方案:英特尔如何为
CADD
与
AIDD
全流程提
供算力支持
如前文所述,不论是现阶段主打科学计算应用的CADD,还是新兴的AIDD,对于算力的渴求都在与日俱增。再考虑到新药研发各环节的计算特点,它们对算力的需求还有周期性强、峰值需求量高等特点。虽然目前科学计算与AI都开始出现通用计算平台与专用加速芯片并行演进的局面,但应用历程更久的CPU平台相比专用加速芯片,不仅有部署和应用基础更为广泛的特点,还在总拥有成本(TCO)、性价比、易用性和易获取方面有更强的优势,能帮助更多用户缓解算力紧张的局面,从而能切实作用于新药研发的加速。
基于此,英特尔与众多生态系统合作伙伴及药物研发机构携手,通过不断的协作与探索,打造了一套基于通用算力也能卓有成效加速CADD及AIDD任务的方案组合。
1、
基于第五代英特尔
®
至强
®
可扩展处理器加速基因组分析
基因组分析与整个药物的发现与设计,特别是靶点识别密切相关,可以说是其前置的环节,也是生命科学与药物研发所共同关注的领域及基础。从这一源头开始加速,也意味着后续全程效率的提升。
英特尔在这方面的投入已经有多年历史,主要伙伴为隶属于美国麻省理工学院和哈佛大学的博德研究所,双方合作的成果聚焦于“基因组分析工具包”,即GATK(Genomics Analytics Toolkit)。这一工具包现已在全球基因组研究与分析项目中得到了比较广泛的应用,而英特尔的参与则为其
性能、成本、部署、应用
等方面提供了持续且颇具价值的优化支持。
英特尔针对GATK最新的优化是围绕2023年末发布的第五代至强
®
可扩展处理器展开,目标是让该工具包能充分利用该处理器微架构上的提升,如相比前一代产品1.5倍的内核数量、更高的主频(2.3GHz对比2.0GHz)、更强的内存子系统(5,600MT/s对比 4,800MT/s)以及更大的末级缓存容量,并进一步释放其专攻科学计算加速的指令集——英特尔
®
高级矢量扩展512(英特尔
®
AVX-512)带来的性能增益。
优化的结果令人满意,如图2所示,GATK在这款全新且主流的英特尔CPU平台上,
实现了比上一代平台高出61%的吞吐量,
或具体来说为每天每节点高达14.81个WGS样本。
而与更早之前的数代至强
®
平台(最早至2018年的第一代至强
®
可扩展处理器) 相比,升级到第五代至强
®
可扩展处理器后,每节点每天能处理的WGS样本数量可增至其三倍以上(见图三)。
图二 GATK在第四代与第五代至强
®
可扩展平台上的性能比较
图三 至强
®
平台的持续革新为GATK带来持续的性能优化
如欲了解该方案更多详情,请访问:
https://www.intel.cn/content/www/cn/zh/customer-spotlight/cases/accelerate-genomicsanalytics-with-5th-gen-xeon.html
2、基于英特尔
®
架构的AlphaFold2解决方案
在药物分子发现与筛选环节引入AI,当属目前AIDD中最引人瞩目的应用切口。这一环节简言之,就是针对给定的靶点,找到满足各种药物性质 (包括活性、选择性、安全性等多种目标性质) 的分子的过程。传统上,研究人员需要从海量的化合物数据库中筛选出具有潜在活性的化合物,并采用多次的设计 - 合成 - 测试 - 分析的循环迭代来找到满足要求的候选分子。这个过程一方面需要使用高通量筛选技术,涉及巨大的高通量计算过程,同时各种药物性质也需要通过实验室测试来验证,需要付出巨大的计算成本以及人力、物料和时间成本。
AI或AI for Science的力量,则可帮助相关的企业或机构构建全新的、更高效的药物分子发现与筛选流程。
以AlphaFold2的应用为例——在发现与筛选治疗某些疾病的候选药物分子时,研究人员可借助AlphaFold2对疾病相关的蛋白质进行结构预测,并通过对结构的分析找到候选药物与蛋白质相互作用的关键点,由此实现更为有效的药物筛选。
英特尔对AlphaFold2提供算力支持与优化,最初成果见于第三代至强
®
可扩展处理器时,并于第四代至强
®
可扩展处理器发布后得到进一步提升,特别是充分利用了这一代产品内置的AI加速技术——英特尔
®
高级矩阵扩展(英特尔
®
AMX)的助力,以及至强
®
CPU Max所集成的高带宽内存的增益。这些优势的组合不仅能有效应对AlphaFold2带来的高通量计算与推理压力,还能
有效缓解其推理任务中大张量运算造成的高内存容量需求,从而能实现对更长蛋白质序列的预测,并以更高内存带宽实现显著的访存通量提升,以降低整体推理时长。
英特尔目前已经基于第四代至强
®
可扩展处理器、至强
®
CPU Max系列处理器,以及一系列软硬协作的优化方法形成了完整、 易获取的基于英特尔
®
架构的AlphaFold2解决方案。经过测试,如图四所示,该方案(测试组)的端到端处理性能与基于第三代至强
®
可扩展处理器并未经优化的方案(对比组1)相比,可实现高达33.97倍的通量提升。在另一项基于某公有云服务的测试中,这一方案不但在性能上获得了远优于某高端GPU平台的表现,也同时优于由CPU与GPU混合构建的方案。且该方案的用途还不仅限于预测单个蛋白质三维结构的 AlphaFold2 Monomer,亦可为能对多个蛋白质分子之间相互作用及所形成的复合体结构进行预测的AlphaFold2 Multimer提供同样的优化支持。