专栏名称: 医药魔方
记录行业发展,揭示产业趋势!医药魔方持续输出具有行业理解和深刻洞见的内容,包括药品市场格局变化、医药行业趋势演变、政策解读、代表性公司业务分析、医药行业标杆人物专访、重磅事件解读等,帮助用户理解医药行业生态和演变,辅助行业用户决策。
目录
相关文章推荐
小众软件  ·  用户狂喜,免费工具让 Windows 7 ... ·  2 天前  
APPSO  ·  杨植麟和梁文锋,论文撞车了 ·  2 天前  
小众软件  ·  另外两件事[250221] ·  3 天前  
APPSO  ·  刚刚,DeepSeek ... ·  3 天前  
51好读  ›  专栏  ›  医药魔方

从AI包揽诺奖看剂泰医药的行业布局

医药魔方  · 公众号  ·  · 2024-10-18 07:51

正文






2024年诺贝尔奖公布,三大奖项揭晓。其中, 人工智能(AI) 成为瞩目的焦点,包揽了其中的诺贝尔物理学奖和化学奖!同时,诺贝尔生理学或医学奖则聚焦于核酸研究,颁给了microRNA。


这不仅体现了科学界对公司从事方向人工智能和核酸研究的高度认可,更预示着生物医学领域的未来趋势,我们正站在一个人工智能驱动生物医药革命的伟大时代的开端。


那么,为什么是AI,为什么是microRNA, 作为深耕AI以及专注核酸药物的公司, 剂泰医药又做了哪些应用实践?


  • 2024年诺贝尔化学奖授予三位科学家:美国华盛顿大学教授大卫·贝克(David Baker),以表彰其在 计算蛋白质设计方面的贡献 ;以及英国谷歌DeepMind公司的丹米斯·哈萨比斯(Demis Hassabis)和约翰·乔普(John M. Jumper),以表彰其在 蛋白质结构预测方面的贡献
  • 同时,2024年诺贝尔物理学奖授予了美国科学家约翰·霍普菲尔德(John J.Hopfield)和英裔加拿大科学家杰弗里·辛顿(Geoffrey E.Hinton),以表彰他们 通过人工神经网络实现机器学习的基础性发现和发明
  • 其中,Geoffrey E.Hinton因在深度学习领域的开创性工作,被誉为“AI教父”,在2018年荣获有“计算机领域的诺贝尔奖”之称的图灵奖,是史上首位同时获得图灵奖和诺贝尔奖的科学家。

物理学真的不存在了吗?

诺贝尔物理学奖颁给了两位“AI教父”?

网络上对此的评价不一,《三体》中的那句“物理学不存在了”被提到的很多,还有人调侃Physics又写作PhysiCS等,那这个奖是否实至名归呢?

获得物理学奖的John Hopfield和Geoffrey Hinton都是神经网络的先驱,这个“先”要追溯到上世纪80年代。John Hopfield是一名正儿八经的物理学家,他因为在1982年开创性地提出Hopfield网络而获奖。

简单回溯一下时代背景,1956年的达特茅斯会议上人工智能的概念被第一次提出,而57年,感知机的概念第一次被提出,可以被认为是神经网络元年,然后,由于其只能解决线性问题的缺陷,人工智能立刻进入了寒冬。直到20世纪80年代初,多层感知机的提出以及获奖的Hopfield网络让神经网络的研究又看到了希望。Hopfield网络的论文标题已经充分体现其物理学的本质:Neural networks and physical systems with emergent collective computational abilities。

Hopfield是一种全连接神经网络,由一些神经元组成,这些神经元类似大脑的神经元,每个神经元可以接受其他神经元的输入,然后根据权重和激活函数产生输出。该模型可以处理复杂的物理或其他系统,找到系统里各个元素的关联,进行记忆和搜索。Hopfield网络奠定了现代神经网络的基础,可以被用于来模仿大脑的记忆和认知,该网络被后人认为和大脑的神经元之间的运作有很大的相似性,虽然肯定无法真正模仿和重现大脑的复杂结构,但在当时毫无疑问是一个很好的模型,对神经科学的推动产生了巨大影响。
图片来源:瑞典皇家科学院

Hinton在Hopfield网络的基础上提出了玻尔兹曼机网络,该网络加入了统计物理学里的概率分布,使网络的输出不再是像Hopfield网络的按照确定性的关系,而是按照概率分布,这种方式使模型的灵活度更大,也能帮助模型找到全局最优而不是局部最优。

如果从今天的角度看这个问题,这一次与统计物理学的结合以及引入概率分布这个概念也是使当今的类GPT模型能输出多样性文字的基础。按照Hinton在获奖后在线接受媒体提问时的回答,他自己也很吃惊得到了诺贝尔物理学奖,他认为他早期的工作玻尔兹曼机,也就是诺贝尔官方描述的Hinton获奖理由提到的原因,确实是受到了统计物理学的启发,但后面的工作确实和物理学的关联不大。

当然,Hinton的贡献远不止这些,他后期的开创性工作才真正重新定义了人工智能这个领域,比如86年著名的反向传播的技术等等一直沿用至今。在之前提到的80年代神经网络得到重视之后没多久,立刻又进入了寒冬,大家对神经网络提出了质疑,甚至抱有很大敌意,直到后人公认的人工智能的重要突破点。

2006年,Hinton提出RBM(受限玻尔兹曼机)的网络初始化和训练方法,真正开创了深度学习,让网络可以深而有用,而不是盲目地深,虽然该初始化方法在后来已经很少被使用,但Hinton是公认的深度学习之父和人工智能教父。他和学生一起提出了AlexNet推动了图像识别的变革,如今人脸识别等算法早已经成熟,都是源自Hinton和学生的贡献。
图片来源:瑞典皇家科学院
而他的另一位重要学生Ilya Sutskever是OpenAI的联合创始人和首席科学家,开创地将ChatGPT带给大家。Hinton的学生以及和Hinton合作过的学者对人工智能的发展产生了不可磨灭的影响,这里不再赘述。另一个Hinton的重要贡献,也是被诺贝尔奖官方提到的一点就是,在如今强大的AI渗透进人们的工作和生活中时,Hinton一直致力于呼吁大公司加大对人工智能的安全性研究的投入,也许在几十年后回溯我们会看到Hinton此举的重要性。

回到物理学不存在了的这个话题,借用Hopfield在获奖后回答媒体提问时提到的,物理是理解系统如何工作的学科,系统由各个部分组成,这些部分互相作用,所以当你要研究一个大体系的时候,你会遇到一些小系统或个体无法遇到的性质,这些都是新的理论,或者说是新的物理。而从另一个角度,就像Bengio在祝贺两位获奖时提到的,两位获奖者创造了连接AI和物理学的桥梁,他们创造的神经网络和物理的关联不只在于它们是受大脑的启发,还因为神经网络里用到的能量、温度、动力学、能垒等等物理概念。


诺贝尔化学奖的“蛋白设计”又是什么?

在人工智能第一次被提出的60年后的2016年,英国DeepMind公司推出的AlphaGo战胜了围棋世界冠军李世石,毫不夸张地说,这是大众第一次真正认识到人工智能的厉害,这离Hinton提出深度学习的2006年过去了整整十年,在这十年中,人工智能迅猛发展,其中经历了英伟达推出GPU计算的CUDA、苹果Siri问世、Google无人驾驶汽车、前面提到的图像识别算法以及生成对抗网络(GAN)的提出等等突破性发现。

而2016年AlphaGO包括后面零封柯洁的AlphaGO升级版以及后面自学成才的AlphaZero都是由此次获得诺贝尔化学奖的Demis Hassabis带领Deepmind团队设计的,如今被用于大模型的强化学习算法在AlphaZero上得到了完美的应用。

剂泰医药最早的阳离子脂质生成算法FLAG(Fragment-based Lipid Automatic Generation)同样以强化学习作为基石。不同于传统的小分子新药研发平台和蛋白设计公司,剂泰医药的LNP递送领域没有任何开源数据集可以使用,算法也需要自己从头建立,面临“无数据,无算法”的窘境。剂泰医药从零开始从头打造了脂质设计和LNP设计的人工智能和计算模拟算法,结合世界领先的高通量实验技术和动物验证平台,建立了自己的数据和算法壁垒。剂泰医药深耕于药物递送的蓝海赛道,打造了一条专属剂泰医药的干湿实验深度结合的技术路线。
剂泰医药LNP语言模型
剂泰医药干湿实验迭代流程 (来源:剂泰医药LipidBERT文章)
在围棋领域打遍天下无敌手后,Demis Hassabis带领Deepmind团队去攀登另一个高峰——当时虽有起色,但仍被认为是生命科学界最不可能解决的问题——蛋白折叠。

蛋白质是人体细胞、组织和人体生命活动的重要组成部分,蛋白质结构决定其功能,而蛋白质的结构和功能需要靠形成三级、四级结构来实现。一直以来,蛋白质结构预测就是兵家必争之地,其成败决定了人类攻克疑难杂症的成败。对蛋白折叠的研究有助于科学家研究复杂疾病的机制,而对蛋白结构的确定也有助于帮助科学家研究出可以靶向蛋白的药物分子。
一个蛋白质可以由数十个到几千个氨基酸组成。这串氨基酸折叠成一个三维结构,这一结构对蛋白质的功能至关重要。图片来源:瑞典皇家科学院
许锦波领衔的早期蛋白预测计算科学家们结合深度学习和结构生物学做了很多探索。而2018年,两位获奖者Demis Hassabis和John Jumper带领团队开发的AlphaFold算法的出现就像一针强心针,AlphaFold的算法真正的创新并不多,他的重要性在于其整合了一些当时世界顶级的对蛋白预测方面的理解,比如多序列比对思想、共进化思想和深度学习,让人类真正看到了解决蛋白结构问题的希望。

而其很重要的一点是在算法最后不是直接输出结构,而是学习了一个能量函数或者说是学了一个分布,从而能得到更精确的结果。这个思想类似于分子模拟的力场,也类似与另一位获奖者David Baker以及其他一些科学家早期研究中用到的能量函数,更是与Hinton引入概率分布改进Hopfield网络隔空呼应。

值得一提的是,获奖者John Jumper是分子模拟出身,曾经从事蛋白质粗粒化模拟工作,这也许可以解释AF系列里面很多的亮点和模拟的思想有关,之前版本的AF甚至在最后还直接加上了分子模拟软件OpenMM用于给蛋白质做能量最小化。巧合的是,剂泰医药AI团队的很多科学家们也出身模拟,其中有人也参与了OpenMM的开发过程,在理解底层机理的情况下,才能更好理解数据、把模型做到最优。
AlphaFold2如何工作。图片来源:瑞典皇家科学院


AlphaFold2到AlphaFold3的巨大发展
2021年AlphaFold2(AF2)的横空出世巩固了DeepMind行业巨头的地位,其对于蛋白结构预测已能达到原子精度,而后续发布的AlphaFold-Multimer(AF-Multimer)能预测蛋白质-蛋白质相互作用。

AF2的突破不得不提一下两版AF之间,人工智能的巨大发展。

2017年,Transformer的发明注定是一个巨大突破,后续几乎一切人工智能的重要算法都是基于Transformer。2018 年Open AI提出的GPT-1 和Google 提出的BERT 都是基于 Transformer 架构构建的,而GPT-1在经历了一段不算平坦的发展后才有了如今的ChatGPT。

2021年的AF2相比第一代最大的变化就是开创性地将Transfomer引入蛋白结构预测,同时让AI蛋白预测得到更大地普及,准确预测了数以亿计的蛋白。

无独有偶,剂泰医药自己的LipidBERT将Transformer架构应用到到LNP领域,打造了第一个LNP语言模型,结合湿实验数据,将其用于脂质和LNP性质预测,能预测几十个性质,R2达到0.9以上。

在分子生成和设计层面,剂泰医药也有应用,AF是设计蛋白,而剂泰医药是设计阳离子脂质,剂泰医药的PhatGPT模型,第一次将Transformer算法用于脂质生成,实现了多器官靶向递送。由于该领域缺乏现成的预训练数据,所使用的两个模型的预训练数据集均来自于我们第一代生成算法 FLAG 生成的分子结构,因此具有独特性和不可复制性。

阳离子脂质是脂质纳米颗粒(LNP)的关键组成部分,剂泰医药致力于开发拥有自主知识产权的可电离脂质和LNP,推动技术自主创新和发展。依托于世界顶级的人工智能、分子模拟技术和实验验证平台,剂泰医药从零开始打造了世界上第一个脂质生成和设计平台,拥有自有知识产权的百万脂质库,可以全自动化地、大规模地生成脂质,并已在肝、肺和肌肉等特异性靶向LNP上得到实验验证。剂泰医药的算法得到了许多顶级药企的高度关注,并已经展开了深度合作。

今年,AlphaFold3(AF3)一出场就在AI for science领域得到了极大重视,它不仅继续提升了蛋白预测准确性,还能预测蛋白质和核酸、小分子等之间的相互作用。相比于已经存在的专精预测工具,AF3在蛋白质-配体、蛋白质-核酸相互作用上的预测效果提高显著,在抗体-抗原预测的准确性上显著高于AF-Multimer。以上预测结果共同表明,在单一统一的深度学习框架内,实现高准确性的生物分子空间建模是可能的。

相比AF2,AF3用更简洁的Pairformer模块替换了AF2的Evoformer模块,减少了MSA序列比对处理的计算量,提高了计算效率。另外,AF3使用了Transformer外另一个最近几年应用很多的Diffusion扩散模块直接预测原始原子坐标。


剂泰医药DILLIGENT算法和LNP分子模拟平台
和Deepmind一样,剂泰医药也基于Diffusion算法开发了世界上第一个基于Diffusion的脂质生成算法DILLIGENT (Diffusion-Like Lipid Generation Technology)。

相比Deepmind的两位科学家,另一位获奖者David Baker在蛋白计算领域耕耘时间更长,其推出的RoseTTaFold一直是蛋白计算领域最受青睐的工具之一。

诺贝尔奖官方在颁布化学奖的时候对两边的措辞有所不同,表彰Demis Hassabis和John Jumper的是蛋白结构预测,表彰Baker的则是计算驱动的蛋白设计。其中David Baker虽然也在蛋白结构预测上造诣很深,但更受诺奖官方青睐的是他开创性的从头蛋白设计研究。

简单来说,蛋白结构预测是基于蛋白一级结构,也就是氨基酸序列,通过AI预测其折叠后的结构,而蛋白从头设计测试根据想要的蛋白的形状从头产生蛋白序列,再结合蛋白设计和结构预测工具,构造最后的蛋白分子。所以,实际上两边合起来甚至可以说是一个上下游的关系。

当然结合Baker组开发的RoseTTaFold、RFDiffusion和ProteinMPNN等算法,Baker可以完成全套的流程。

相比Baker团队,剂泰医药也面临着类似问题,前文提到的阳离子脂质需要从头设计,而LNP不是单个分子,而是数以万计的分子组装而成的一个组装体,形状类似于Baker团队设计的多蛋白组装体系,另外,LNP在进入体内后会遇到血浆蛋白的“围剿”,形成蛋白冠,这一些都需要进行精密设计。

基于此,剂泰医药从零开始打造了多尺度模拟技术,从微观模拟LNP从制备到发挥作用的全流程,其中每一个步骤的技术都是世界首创。LNP递送分子模拟平台一方面为人工智能算法和实验提供了桥梁和理论依托,另一方面也为脂质和LNP大模型提供了独一无二的微观数据,真正做到了”知其然而知其所以然”。
剂泰医药基于机理的LNP模拟平台






请到「今天看啥」查看全文