专栏名称: 华兴资本
华兴资本公众平台,聚焦新经济,发布官方新闻,分享独家视角
目录
相关文章推荐
笔吧评测室  ·  华硕无畏 Pro 14 骁龙版 2025 ... ·  昨天  
笔吧评测室  ·  荣耀 MagicBook Pro 14 ... ·  2 天前  
笔吧评测室  ·  聊一台售后长达3年的一线笔记本 ·  2 天前  
笔吧评测室  ·  联想 YOGA 14 / X 和 YOGA ... ·  3 天前  
51好读  ›  专栏  ›  华兴资本

作为计算机药物设计领域的新宠,AI如何助力新药研发 | 华兴医疗观点

华兴资本  · 公众号  ·  · 2018-09-12 13:29

正文

人工智能是对人的意识、思维的信息过程的模拟。当人工智能与物理模拟相结合,便创造出了“物理智能”,人工智能将对物理现象有直观的认识,将这一思路应用于医药行业,将碰撞出怎样的科技火花?未来在新药研发方面,又有哪些值得期待的突破可能?


本期华兴分享邀请Silicon Therapeutics首席技术官徐华锋博士,为您展开物理智能与新药研发的想象空间


「医疗与生命科技」是华兴资本从2008年就开始关注并深耕的领域,目前顾问团队已经为近50个融资及并购项目担任财务顾问。医疗与生命科技行业创新不断涌现,已经发展成为最活跃的行业之一,华兴资本始终支持、陪伴这一领域创业企业成长,致力为行业带来理性专业的声音。


作者 | 徐华锋

人工智能,这位计算机药物设计领域的新宠,在新药研发中是否有用、怎样用,可谓众说纷纭,莫衷一是。我在此也抛砖引玉,略述己见。


人工智能与“人智能工”


当下最受热议、应用最广泛的人工智能其实可以改称“人智能工”,也就是把人脑能做的很好的事情让计算机代工。比如图像识别,自动驾驶,下围棋等。


在这些应用中,计算机并没有为人所不能为,只是在人忙不过来的时候帮个忙罢了。这一类的人工智能的基础是仿人脑的神经网络,乃人脑的不完整克隆。它的所长所短在很大程度上反应了人脑本身之短长。


人的智能之根本在于反馈学习。 如蹒跚学步,婴儿一个错误的行走动作马上就有摔跤的负反馈,而一个正确的行走动作则会带来比如拿到玩具的正反馈。同一行为重复越多,反馈越快,学习的成效就越显著。


人的智能另一特征是知识的有限转移 性, 好比一个会滑旱冰的人很容易就学会滑水冰。这种转移性的基础是新情况和旧经历有足够的相似之处。当然人的智能还包括一些创造想象力。不管你往Google的计算机上砸多少个苹果,也砸不出条万有引力定律。这是题外话。


现在似乎无处不在的“人智能工”能否胜任新药研发之职,我们可以做些猜测。


与其它工程领域相比,新药研发其实不是人的智能之所长。漫长的研发周期,多样的、并且常常不能确定的失败原因,都使得新药研发者难以有效地进行反馈学习。但这不排除人的智能在新药研发的局部环节上可以庖丁解牛。


新药研发的关键一步是找到和靶点蛋白质有强结合自由能(binding free energy)的小分子。


约十年前OpenEye组织过一次预测小分子和激酶(kinase)结合构象和结合自由能的挑战,结果预测结合构象最成功的是Marti Head的人脑。但这个Head也无法预测结合自由能。预测构象靠的是三维图像识别,是人脑的强项,看过足够的激酶晶体结构便能猜个八九不离十。 由此可以想象人工智能可能在预测结合构象上有所突破。

结合自由能却是源于物理作用,看不见摸不着,难以臆测。尤其在针对新靶点的药物开发上,往往没有充足的已有数据用作参考,这是人的智能和人工智能预测结合自由能所面临的困难。


相比之下,基于物理模拟的自由能微扰法(free energy perturbation)现在已经能较为准确地预测小分子与蛋白间的结合自由能。笔者主持开发的自由能计算程序,也奠基了在新药研发中应用愈发广泛的商业软件FEP+。基于物理模拟研发新药的公司如Silicon Therapeutics 也依赖于自由能计算高速推动研发进程。物理模拟与“人智能工”结合,各尽其能,可能会更有效地推动对强结合能分子的发现。


他山之石,可以攻玉。若是将人工智能用于物理模拟,也许可使后者如虎添翼。


这里笔者杜撰一词:物理智能,意为用物理计算结果训练人工智能的模型。这些人工智能模型反之改进物理模拟的模型,分析模拟的结果,从而提高物理模拟的准确度并获取更多地可用于分子设计的信息。


物理智能


要解释什么是物理智能,应该先议一下物理学产生的本源。人类社会在四余万年的历史中,只是在过去三百多年才发展了经典力学,过去两百多年发展了电磁学,过去一百多年发展了统计力学,量子力学和相对论。


每一次物理学的进步,都是源于新的技术测量到了与人的经验和直觉相悖的现象。可以说, 物理学的发展,其根本需要是弥补人直觉和感官认知的不足。


电磁波谱从波长 10 -16 米的gamma射线,到波长 10 -10 米的X光,直到 10 - 8 米的长波,在这24个数量级间,人眼所能看见的只是从380至750纳米的极小一段。在时间尺度上,分子中电子密度的变化发生在 10 -18 秒,宇宙演化已经 10 17 秒,而人的感官所能接触的不过是在 10 -2 秒(反应时间)至10 9 秒(寿命)之间。


自然界的物理现象,尤其是微观世界量子范畴内的现象和宇宙中相对论范畴内的现象,绝大多数都是在人类感官之外的,只能通过仪器间接测量。为了理解并预测这些物理现象,人类不能靠直觉,而只能依靠物理学。


试想一个外星生命,它们的知觉可以感受到整个电磁波谱,它们可以直接“看到”电子的运动,触摸到单个原子,感受到体内每一个化学键的震动,那么它们对这些物理现象就会有一个直观的认识。它们看到过化学反应中每个原子的运动,看到过其间电子轨道的重组。它们用直觉判断一个化学反应的进程,就如我们用直觉判断一个从树上掉下的椰子的落点一样准。


这样的生命在我们看来或许如上帝般的无所不知。而上帝如果真的存在,她一定是不需要物理学的。


物理智能所要做的,就是要让人工智能对物理现象有直观的认识,不用物理学定律也能准确地预测物理过程的结果。


现在人工智能最普遍使用的深度神经网络本质上是一个通用非线性函数近似。世间万物皆有因果。用数学语言讲,因称自变量,果称因变量,因果关系称函数关系。


物理学所搜寻的自然规律和对自然现象的定量描述无一例外的是在寻找因果函数关系。简单如牛顿第二定律:已知物体所受力及其质量,即可算出其加速度,进而可推演其在时空中之轨迹。


和新药研发相关的电子结构计算(electronic structure calculations),自变量为体系中原子的空间坐标,因变量为体系的总能量,其函数关系取决于薛定谔方程的解。高维薛定谔方程鲜有精确解。需要的近似解精度越高,解的算法复杂度和计算量就越大。庞大得难以负担的计算量是量子化学在新药研发中应用有限的原因。


既然分子的能量是其原子坐标的函数,这一函数自然也应该可以用深度神经网络来近似。若是一个神经网络“看到”过大量的分子和它们在不同构象中的对应能量,那么这个神经网络就会对分子的能量产生基于记忆的直觉。这个神经网络分辨不同分子的能量就像我们分辨不同颜色。碰到新的分子,它能立刻准确地猜测出这分子在不同构象中的能量,而无需对薛定谔方程求解。

这种直觉的基础是大量的训练数据。譬如我们可以虚拟的建立起一个有数百万小分子的库,为其中每一个分子用量子化学方法算出不同构象的能量,并用这些数据去训练神经网络。对于没有远程相互作用的,不超过10个原子的单个小分子,深度神经网络已经可以很准确地重复密度泛函理论(density functional theory)计算出的基态能量(误差在1至2kcal/mol左右 [1] ),而前者所需时间是后者的数万分之一。神经网络还可以通过学习高精度的量子化学计算结果来帮助低精度的量子化学计算,在大大缩短的时间内达到相似的高精度 [2] 。这些例子可谓物理智能的概念证明。


物理智能在新药研发中具体能做什么呢?笔者在此择二例以蔽之。


前面谈到新药研发中一个关键步骤是找到与靶点有很强结合自由能的分子。但结合自由能的计算并非人工智能之所长,而需要用基于物理模型的分子模拟和自由能计算 [3]


自由能计算的准确度取决于用于描述原子间相互作用的分子力场。 虽然原子间的相互作用可以通过量子化学的方法严格计算,但这样的计算在如蛋白质的大分子中因为庞大计算量而不切实际。分子力场便是在准确度和计算量之间的折衷。(深度神经网络不能包含如静电等长程相互作用,使其无法直接用于蛋白质能量计算。)虽然在过去二十年分子力场的准确度有了长足的进步,并且已经成功地被用在计算小分子和蛋白质的结合自由能上,但在应用过程中也常常暴露出准确度上的不足,致使预测的结果与实验结果常有出入。


分子力场+深度神经网络


物理智能是提高分子力场准确度潜有力的途径。分子力场形式简单,但参数众多,参数的优劣决定了力场的准确度。参数拟合主要依赖于量子化学计算结果和相关的实验数据。 笔者认为将深度神经网络与分子力场结合也许可成金玉良缘。


其一,分子力场参数拟合过程中需要大量小分子量化计算的结果。如果用深度神经网络取代量子化学的计算,并且用神经网络提高低精度量子化学计算的精度,那么就可以在不降低质量的前提下生成更大的训练数据库,从而提高力场参数的准确度和可应用范围。


其二,机器学习可以在不受人干扰下自动产生分子力场的参数集,更全面更系统更客观的比较不同参数集的优劣,并更合理的为不同的分子体系选择最适合的参数。


其三,深度神经网络可以取代分子力场中的近程相互作用,并且用于在线计算出每个原子在不同环境中所带的非整电荷(partial charge;原子的静电环境随着分子构象改变而改变,如何随之更新其电荷仍是一个棘手问题)。这样的混合力场也许是将来不可避免的趋势。


智能挖掘成药途径


物理智能在新药研发中的另一应用是用人工智能从物理模拟中发掘出更多有价值的信息。这里只举一例。新药研发中常说起“无成药性”(undruggable)的靶点,如Ras和Phosphatases。这些靶点在病理机制上相对清晰,若能抑制便可对疾病有效。但制药界却始终找不到对它们有效的小分子抑制剂。


但无成药性其实只是尚无成药(undrugged)。新的作用模式的小分子对这些靶点还是有可能有效抑制。比如变构抑制剂(allosteric inhibitors)通过与蛋白非活性位点的结合而改变其活性中心的构象,从而达到抑制蛋白活性的作用。Novartis和Revolution Medicines的SHP-2抑制剂就是新近制药界津津乐道的例子。


变构抑制剂的开发难度远大于与活性中心结合的竞争抑制剂。变构抑制剂不但需要和靶点蛋白有足够的结合能,它还需要在与靶点结合后远程改变靶点活性中心的构象。所以对变构抑制剂的理性设计需要正确的选择小分子在靶点上的结合位点(binding site)和结合模式(binding mode)。一个好的结合位点不但要有小分子可以嵌入的沟壑,还要在构象上与活性中心有很强的关联。


分子动力学模拟(molecular dynamics)在此可以发挥举足轻重的作用。 分子动力学可以建立原子分辨率上的靶点构象改变的模型。通过模式识别在这些构象模型中寻找变构抑制位点应该是深度神经网络当仁不让的强项。结合分子动力学和人工智能找到沟壑纵横并与活性中心构象相关的结合位点,可以将变构抑制剂的研发起跑线大幅度向前挪移。Silicon Therapeutics 发展的计算物理平台同时解决了以上这两个问题,并在开发SHP-2和其它的Phosphatases的变构抑制剂上有初步的成功应用。


硬件开发


物理智能的发展无疑需要更多的算法和软件的开发,但笔者认为硬件的开发也不可或缺。


笔者在D. E. Shaw Research工作时参与研发的Anton超级计算机有力地体现了ASIC(Application-specific integrated circuit)在分子动力学模拟上产生的革命性影响:它使分子动力学的时间尺度从微秒跳跃至毫秒,从而首次成功模拟了多种曾遥不可及的生物物理现象,如蛋白质折叠,抗体在亲和力成熟过程中的构象变化等。


在文明发展史上,科学有时推动技术,但技术不停带动科学。硬件有时能解决软件无可企及的问题。


解决航海史上的经度问题的不是新的天文学,而是John Harrison发明的走时精准的表。Google为了人工智能应用量身定制的Tensor processing unit (TPU)也是众所周知的例子。若是把用于分子动力学的Anton和用于人工智能的TPU设计到一个ASIC上,应该能大大加速包含神经网络的混合力场的分子动力学模拟,并用人工智能对其进行在线分析。


笔者预期这样加速物理智能的ASIC会在未来大有前景。







请到「今天看啥」查看全文