一款新药的诞生,研发周期通常在十年以上,花费至少数亿美元。正因如此,尽管中低收入国家承担了全球90%的传染病负担,但全球药物研发支出中只有10%用于治疗对这些人群影响特别大的疾病。例如,在贝达喹啉问世之前,结核病已有近50年没有新药推出;而半个多世纪以来,青蒿素类药物也一直是治疗疟疾的首选。因为针对这些重大传染病的创新药的乏善可陈,病原体对现有药物的耐药性不断增加,数以亿计的人口正面临着更大的死亡威胁。
为了应对这一挑战,盖茨基金会与清华大学和北京市政府于2016年共同成立了全球健康药物研发中心(GHDDI),希望汇集全球顶尖科学家的力量,加速这些被忽视的疾病的药物研发。
然而,作为有二十多年药物研发经验的前从业者,我深知药物研发的难度。据估计,2000年至2015年间开发的候选药物中,有86%未达到既定目标。如何在提高药物研发的成功率的同时降低成本一直是业界的一个难题。因此,在GHDDI成立之初,我们就着手支持人工智能团队的建立,期待通过跨领域、跨学科的协作和积累,让AI早日成为药物开发的重要变革力量。
今天,我很高兴看到GHDDI已经有了自己的AI平台来加速新药的研发进程,并找到了一些有潜力的药物候选分子。未来,期待能有更多的合作伙伴使用上这个开放性的平台,共同加速寻找更有效,更安全的候选药物的进度,为那些最需要帮助的人们尽早找到救命的良方。
2019年,计算机专业的郭晋疆,面临职业选择。
当时,他关注到生物制药领域逐渐开始使用人工智能技术。在他看来,自己的专业技能,如果能用在药物研发上,或许会更有意义。
郭晋疆的姑姑,是一位支援非洲的妇产科医生。“她对我影响非常大,她在赤道几内亚待了8年。当我再次面临选择职业的时候,医学、制药是我非常重要的考量方向。”
或许正是因为家人的这段经历,郭晋疆最终选择来到了全球健康药物研发中心(GHDDI)。这是一个非营利机构,主要针对那些影响发展中国家最贫困人口的重大疾病,比如疟疾、结核病等进行药物研发——因为缺乏高额利润和市场预期,这些肆虐于发展中国家的疾病少有人问津。例如疟疾,尽管每年导致60万人死亡,但全球用于疟疾研发的资金只有6.3亿美元,尚不足研发治疗脱发资金的三分之一。
GHDDI的愿景,正是为了这些被忽视的疾病,寻找新药。
药物就像对抗疾病的武器。要想发挥功效,就要有攻击目标,也就是找到药物“靶点”。而新药发现中最关键的步骤,就是找到那些能跟“靶点”顺利结合的有活性的化合物。
传统的药物研发,有点像“撞大运”,要在数百万的化合物里“大海捞针”。最传统的生物化学实验方式,需要人工一个一个将化合物和靶点比对,效率很低。后来有了高通量筛选——在先进的数据处理系统的支持下,利用自动化设备和机器人手臂同时进行大量实验,筛选速度有了很大提升,但仍旧耗时不短。
2014年,为了寻找潜在的抗疟疾药物,一个药物研发团队筛选了25万个化合物。即使是利用高通量筛选,也花了大半年时间。并且,他们筛选出的有效分子命中率只有0.77%,也就是说,只有0.77%的化合物对疟原虫有抑制效果。
刚开始步入医药领域时,郭晋疆以为,用AI做一款新药,应该是件很简单的事。
因为,在郭晋疆以前从事的人像识别领域,引入人工智能技术后,识别准确率能达到99%以上,所以他曾经“天真”地以为,在利用人工智能技术后,药物筛选的准确率应当会有一个很大的提升。
但很快他就发现,自己想的太简单。“即便我们用了各种各样的先进算法,成功率依然很低,甚至有的时候,跟传统实验或者高通量筛选的成功率差不多。”
是AI算法失灵了吗?还是之前的算法并不适合生物制药领域?郭晋疆和同事发现,最重要的原因还是——数据。
相比传统的图像、声音这类数据,生物制药领域的数据要复杂的多。首先,它的种类很多:DNA/RNA结构、蛋白质结构、化学分子的结构,以及它们的相互作用关系,这些类型的数据都可能出现。此外,不同实验室产生的数据之间,还可能会有冲突。例如,哪怕只是实验过程中一个小小的参数改变,也会可能会导致实验的结果完全不同。
因此,要想利用好生物制药领域的数据,一定要能理解数据背后的科学规律,需要对生物、化学、物理有比较深的理解。
显然,这不再是计算机科学家能够独立完成的工作,而是需要多个领域的专家,跨学科地协作。
首先,生物学家会向团队解释生物机制的背景,并且详细分析数据背后的实验条件,化学家和物理学家则会讲解化合物、靶点之间的相互作用关系,计算机科学家再根据他们提供的经验,构建一种能学习理解这样复杂数据的计算机制。
团队共同整理、标注好数据后,再来训练AI模型,但这并不是一次性的工作。AI生成的数据,还会交给生物学家或者化学家,进行传统的实验验证,而计算机科学家会依据他们的数据,再次训练模型,进行进一步的迭代、学习。
利用这样的方法,郭晋疆和同事训练了一种AI模型用来寻找潜在的抗疟疾药物。用它去做虚拟的高通量筛选,一个40万的化合物库,仅用时一、两个小时就能够筛选完毕。AI会根据模型预测活性较高的化合物,并给它们排序。研究人员从中挑选出了186个化合物进行实验室验证,发现具有强抑制效果化合物的命中率在5%左右,相较于高通量筛选的0.77%的命中率,提高了6倍。
通过AI做虚拟的高通量筛选,虽然能大幅提高化合物筛选的效率,但这种方式仍旧像是“大海捞针”,面临着成本和时间限制。
此外,这种方式仅限于筛选已知化合物库。但已知化合物毕竟有限,其中不少也已经被做成药物,甚至出现了耐药性,比如传统的疟疾和结核药物就面临严重的耐药问题。
还有没有更准确、更创新的方式可以寻找化合物?远在人类想象能力之外,是否还存在能治愈疾病的全新化合物?它们能否改善耐药问题?
为了找到这些问题的答案,GHDDI的研发人员与包括微软研究院科学智能中心在内的跨领域伙伴展开合作,深度融合生成式AI、基础大模型技术、虚拟高通量筛选和专家经验,推动更高效的新药研发。
生成式AI,是针对某一个靶点蛋白的结构,生成可以跟它相互作用的化合物。过去的方法,更像是有数百万把钥匙,需要你一把一把去试,而生成式AI就像是比对着锁的锁眼,更精确地去配钥匙。
因此,生成式AI能生成的化合物更精确,且有可能具备更新的药物结构,针对于突变的或者耐药性的药物的设计,会有很大的帮助。
这也意味着生成式AI的训练方式更为复杂。举例而言,此前团队训练的寻找抗疟药物的AI,只需要学习哪些化合物结构能抑制疟原虫,而生成式AI则需要深入到分子层面,全面掌握物理、化学和生物学原理。
比如,生物物理学家会帮助AI理解分子间相互作用的理论,这有助于AI更好地模拟分子的行为。化学家会提供化合物的化学合成与构效关系知识,帮助AI识别和生成新的分子结构,并确保合成过程的可行性和稳定性。生物学家则提供蛋白质的功能和结构信息,帮助AI深层次理解“靶点”,以确保生成的化合物能够有效地与“靶点”相结合。
微软研究院科学智能中心在这个过程中也起到了关键作用。他们提供了强大的计算资源和先进的算法,帮助构建和优化生成式AI模型,确保AI能够理解并应用这些庞杂的知识理论,生成更精确且具创新性的化合物。
可以说,经此塑造出的生成式AI吸收了各领域专家们的经验和专长。目前,利用这个生成式AI,GHDDI团队已经为疟疾、结核等疾病,筛选出了多个有潜力的化合物。