【新智元导读】
在AI的帮助下,MIT科学家解锁了60年以来的第一批用于对抗金黄色葡萄球菌的新抗生素!
整整60年,人类在抗生素研究方面没有取得任何重要进展。
然而,这一空白被AI打破了!
最近,MIT的科学家们利用AI发现了一种全新的抗生素类别,用于对抗耐药性金黄色葡萄球菌(MRSA)。
21名研究者共同撰写了这篇论文,登上了Nature。
论文地址:https://www.nature.com/articles/s41586-023-06887-8
MRSA细菌,又称耐药金黄色葡萄球菌,已经困扰了人类多年。感染者轻则皮肤感染,重则感染肺部和血液,甚至危及生命。
根据欧洲疾病预防控制中心(ECDC)的数据,欧盟每年有近150000例MRSA感染,而每年死于抗菌素耐药性感染的有近35000人。
而发现对抗MRSA全新抗生素的,就是一种可解释的图神经网络。
在数百万化合物中筛选,研究人员在小鼠中测试了283种有前景的化合物,其中几种对MRSA有治疗效果。
LeCun、Tegmark等AI界的大佬纷纷动手转发了这一AI的重磅发现。
通过深度学习模型,AI又一次改变了医学领域的游戏规则。
有人表示,这更证实了a16z bio+health的创始人的观点:「AI是来治愈人类的,不是来杀死人类的。」
这项发明,是人类对抗抗生素耐药性的转折点。
MIT医学工程与科学教授James Collins表示,通过这项研究,我们可以看到为了预测哪些分子可以成为良好的抗生素,AI模型是如何学习的。
「从化学结构的角度来看,我们的工作提供了一个在迄今为止从未有过的框架,在时间和资源上都很高效,同时具备深刻的洞察力。」
为了预测全新化合物的活性和毒性,团队使用的是深度学习模型。
模型使用人工神经网络自动从数据中学习和表征数据,无需显式编程。
这种图神经网络,越来越多地被用于药物发现中,来加速识别潜在的候选药物,预测其特性,并且优化药物的开发过程。
用于预测抗生素活性和人细胞毒性的深度学习模型的集成
为了研究耐甲氧西林金黄色葡萄球菌 (MRSA),MIT的研究团队使用扩展的数据集,训练了一个广泛扩展的深度学习模型。
为了创建训练数据,团队评估了大约39000种化合物对MRSA的抗生素活性。
随后,他们将所得数据和有关化合物化学结构的细节,输入到模型中。
论文主要作者之一、MIT工学院和哈佛博士后Felix Wong表示,这个过程,仿佛就像在打开一个黑匣子。
「这些模型由模拟神经连接的超大规模数字计算组成,没有人真正知道引擎盖下面究竟发生了什么。」
化学空间的过滤和可视化
为了完善潜在药物的选择,研究人员又引入了3个深度学习模型。他们对这些模型进行了训练,以评估化合物对三种不同类型人类细胞的毒性。
通过将这些毒性预测与之前确定的抗菌活性相结合,研究人员准确地找到了能够有效对抗微生物,同时对人体伤害最小的化合物。
利用这套模型,他们筛选出了大约1200万种市售化合物。最终,这些模型确定了5种不同类别的化合物,根据分子中特定的化学结构进行分类,这些化合物对MRSA具有预测的活性。
随后,研究人员获得了其中约280种化合物,并在实验室环境中对MRSA进行了测试。通过这种方法,他们从同一类化合物中发现了2种最有希望的候选抗生素。
果然,在涉及两种小鼠模型(一种是MRSA皮肤感染模型,另一种是MRSA全身感染模型)的实验中,每种化合物都能将MRSA的数量减少10倍以上。
研究人员推断,可以使用神经网络模型来学习,与抗生素活性相关的化学子结构,从而预测相关的抗生素结构。
研究人员开发了一个叫做Chemprop的图神经网络平台,通过可解释的、基于子结构的方法,来引导探索化学空间。
可解释的人工智能
研究人员使用的图神经网络,包含了每个分子的原子和键中的信息,以现实中的子结构为依据进行预测。
确定这个基本原理可以为模型的可解释性提供保证:符合子结构规律的化合物将得到更高的分数。
利用这种方法,模型可以从大型化学库中识别潜在的抗生素:从药物再利用中心(包括约6000个分子)中发现了halicin和abaucin,并从ZINC15库(约1.07亿个分子)中发现了其他抗菌化合物。
通过在测量抗生素活性和人类细胞毒性的大型数据集上进行训练,极大地扩展了用于抗生素发现的图神经网络模型,并且假设可以使用图搜索算法在化学子结构水平上解释模型预测(如下图所示)。
由于抗生素类别通常是在共享子结构的基础上定义的,因此,子结构识别可以更好地解释模型预测,有效地探索化学空间,并促进发现新的结构类别。
基于这个训练有素的Chemprop模型,利用图的搜索算法,研究人员能够在单个分子的背景下确定具有预先指定阈值的原子数。
使用蒙特卡洛树搜索来确定包含至少8个原子并表现出大于0.1的高抗生素预测分数。
如上图a所示,蒙特卡洛树搜索包括选择初始子结构,迭代修剪子结构,以及选择删除,当子图作为输入传递到Chemprop时,预测得分很高。
过滤和可视化化学空间
研究人员用所有训练数据集重新训练了20个Chemprop模型的集成,从而产生了四个预测抗生素活性、HepG2细胞毒性、HSkMC细胞毒性和IMR-90细胞毒性的集成。
使用这些集成来预测12076365种化合物的抗生素活性,和细胞毒性特征,其中包括来自Mcule数据库的11277225种化合物,还有来自Broad Institute数据库的799140种化合物(如下图所示)。
根据预测的抗生素活性和细胞毒性过滤了感兴趣的化合物,最初仅保留了Mcule库中抗生素预测评分大于0.4的3004种化合物,以及从Broad Institute库中保留了抗生素预测评分大于0.2的7306种化合物。
上图是抗生素预测得分高和低的化合物(t-SNE图),显示了各种化合物的化学相似性或不相似性。
实验效果
接下来看一下模型发现的化合物是否具有抗生素的效果。
这里研究了化合物1在局部和全身给药时,对小鼠治疗MRSA的疗效。
实验使用氨基糖苷类和耐四环素的MRSA临床分离株,在中性粒细胞减少小鼠浅表皮肤感染模型中,测试了局部给药。
与载体相比,用化合物1处理可将平均细菌载量降低约1.2个对数(如下图所示),显示出与complestatin和corbomycin相似的功效。
接着,研究人员使用MRSA的噁唑烷酮(oxazolidinone)耐药临床分离株,进一步测试了小鼠中性粒细胞减少性大腿感染模型中,化合物1的全身给药。
与载体处理相比,用80mg/kg的化合物1处理可显著降低平均细菌负荷约1.2个log(如下图所示)。
化合物1在大腿感染模型中的功效表明,化合物1和2,以及其它结构类似的化合物,可以作为新型候选抗生素进行开发。