专栏名称: 环球科学
《科学美国人》独家授权中文版—《环球科学》杂志—www.huanqiukexue.com
目录
相关文章推荐
知识分子  ·  李政道是怎么做好博士生和博士后的? ·  4 天前  
赛先生  ·  2024化学诺奖得主David ... ·  6 天前  
51好读  ›  专栏  ›  环球科学

当AlphaFold追随者蜂拥而至,我仍选择坚守初心 | 新加坡国立大学张阳教授对谈《环球科学》

环球科学  · 公众号  · 科学  · 2024-10-10 16:59

正文


图片来源:张阳

2024年诺贝尔化学奖颁给了计算蛋白质设计和结构预测领域,《环球科学》2024年10月刊也推出了“AI重塑结构生物学”专题。诺奖公布前不久,我们独家专访了该专题的审校者、新加坡国立大学计算机科学和生物化学教授以及癌症科学研究所高级研究员张阳老师,聊了聊蛋白质结构预测领域发展史,以及AlphaFold对该领域的影响。


黄雨佳(《环球科学》编辑):

张老师好!首先有请张老师简单介绍一下自己的研究背景以及现在的研究方向。


张阳(新加坡国立大学教授):

谢谢。我们的实验室主要致力于人工智能和计算生物学研究。多年来,我们一直专注于蛋白质折叠和结构预测问题,以及它的逆问题——蛋白质设计问题。最近,我们进一步拓展了研究方向,涵盖了RNA和短肽的设计与结构预测,并探索与药物设计相关的课题。总体来讲,我们希望利用最新的人工智能和深度学习技术,结合传统的物理学理论,来解决这些分子生物学以及药物研发相关的基本问题。


黄雨佳:

那您最开始是怎么接触到蛋白质结构预测以及其他生物大分子结构预测这个领域的呢?


张阳:

这是一段有趣的经历。在我的本科和研究生(包括硕士和博士)学习中,我的研究领域是理论物理和粒子物理,主要关注的是物质世界中的基本粒子及其相互作用。后来,在我于中国科学院做博士后期间,偶然读到了欧阳钟灿院士的一篇关于血液中红细胞形状的研究论文,与我之前的理论物理研究方式截然不同,这引起了我的极大兴趣。从那以后,我便开始转向做生物物理领域的研究。


当时,我们课题组使用了一种名为蒙特卡罗模拟的数学算法(Monte Carlo method)。这种方法最初是由物理学家斯坦尼斯瓦夫·马尔钦·乌拉姆(Stanisław Marcin Ulam)和约翰·冯·诺依曼(John von Neumann)在美国洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory)为二战核问题模拟而提出的。蒙特卡罗方法后来被广泛应用于物理学之外的其他领域,包括生物学中蛋白质和RNA的折叠。我当时的研究课题是利用蒙特卡罗方法来研究DNA和RNA分子的弹性属性。


我第一次比较深入接触蛋白质结构预测问题,是在美国加入了杰弗里·什科尔尼克(Jeffrey Skolnick)的实验室做博士后的时候。一开始,我的导师让我基于我之前提出的一种比较新的蒙特卡罗方法,对实验室的蛋白质折叠程序的搜索引擎进行优化。这让我有机会接触到当时蛋白质结构预测领域最前沿的计算机算法。


总的来讲,那几年从理论物理转向生物物理,再到蛋白质结构预测,虽经历了各种酸甜苦辣和艰苦努力,但我觉得这些经历为我后来在蛋白质以及其他生物大分子的折叠和结构预测方面的工作打下了一个较为重要的基础。


黄雨佳:

所以为什么科学家会关注用计算机算法来预测蛋白质的结构呢?这个问题为何重要?


张阳:

这个问题之所以重要,是因为蛋白质在生物体生命活动中所扮演的重要角色。我们知道,生命个体中最为重要的两类生物大分子是核酸和蛋白质。其中,核酸(即DNA和RNA分子)作为基因的载体,负责指导生物体合成哪些蛋白质。而生物体内各种生命功能(比如新陈代谢、免疫、催化等)则主要由蛋白质具体执行。蛋白质的功能,即它在细胞中所从事的具体活动,则完全由其三维结构决定。这种结构使蛋白质能参与特定的生物化学反应,并决定它们如何与其他分子进行相互作用。


如果某些蛋白质的功能出现异常,导致疾病的发生,我们需要设计药物来调控这些蛋白质的功能。就像配钥匙的人必须先了解锁孔的形状一样,设计药物的公司必须先要了解这个蛋白质的原子结构,这是蛋白质结构在医学中的一个重要应用。另一方面,如果我们要想详细阐述各种蛋白质在人体内的具体生物学功能,也就是对蛋白质进行功能注解,我们也需要知道它们的三维结构。


传统上,蛋白质分子的原子结构都是通过结构生物学实验来解析的,例如核磁共振、X射线衍射和冷冻电镜等。然而,自然界中的蛋白质种类繁多,实验手段只能解决其中很小的一部分。到2024年10月为止,我们的蛋白质序列数据库已经积累了超过2亿条蛋白质的氨基酸序列,但是只有不到20万条蛋白质序列有实验解析的结构,也就是说只有不到千分之一的已知蛋白质具有实验解析的结构。由于实验解析的耗时和高成本,蛋白质序列和结构的数量差异每天都在增长。因此,若要大规模、系统性地阐述蛋白质的结构和功能,或者进行高通量的药物筛选和设计,实验手段显然远远不够,开发能够精准预测蛋白质结构的计算机算法就显得至关重要。


黄雨佳:

所以用计算机预测蛋白质结构这件事的难点在哪儿呢?


张阳:

这件事的难点主要在两方面。从数学角度来看,蛋白质就是一条由不同氨基酸串在一起的一维长链,就像一根线串着一串珠子一样。在细胞环境下,它会折叠成一个三维结构,具体折叠成什么样的空间结构,取决于氨基酸的序列排序。


从物理学角度,要解决蛋白质折叠和结构预测的问题,我们面临两方面的挑战:第一,理解蛋白质内部原子间的相互作用,即构建一个能精确描述这些相互作用的物理力场;第二,解决高维构象空间的搜索问题。


在物理学力场方面,蛋白质结构的形成依赖于蛋白质内原子之间的各种相互作用,比如氢键、疏水相互作用和范德华力等。这些相互作用在微观尺度上非常复杂,彼此之间相互影响。按照安芬森法则(Anfinsen’s dogma),蛋白质的天然构象是热力学上最稳定的状态,即自由能最小的构象。但我们目前还没有一种能够精准描述这种相互作用的物理学力场,我们也就无法准确计算蛋白质空间构象的最小自由能。这是第一个困难。


第二个困难就是高维空间的搜索问题。为什么我一直提到构型搜索呢?因为数学上蛋白质可以有很多种不同的构象。一般来讲,一个普通蛋白质大概含有100至1000个不同的氨基酸。这种长度的链在空间中可能形成的构象的数目非常巨大。50多年前,一个名叫赛勒斯·利文索尔(Cyrus Levinthal)的分子生物学家对此作了估计。他假定每个氨基酸有两个键角——φ和ψ,并假定每个键有3种可能状态。那么对于一个只有100个氨基酸的比较小的蛋白质,它有99个肽键,因此有198个不同的φ和ψ键角,最多就会有3198种不同构象,约等于1094种构象。而且,每个氨基酸的角度状态实际上远不止3种,所以这样小的一个蛋白质的可能构象的数目,可能远远超过我们可观测宇宙中的原子的总数(目前估计大约是1080)。


由于构象空间过于庞大,设计一个能够有效搜索并找到自由能最低构象的算法对计算机而言是极具挑战的。我刚才提到的蒙特卡罗方法是一种通过重点搜索相空间中重要区域来快速折叠蛋白质结构的算法。但是即便如此,它也无法在有限时间内穷尽所有可能相空间的重要构象。


正因为这两方面的挑战,传统基于物理的算法在蛋白质结构预测中面临极大困难。近年来,人工智能和深度学习技术被引入该领域,为解决这些问题提供了新的途径。这个话题我们可以在后面详细讨论,也是这篇文章讨论的一个主要重点。


由于蛋白质结构预测问题的关键性和复杂性,1994年,美国马里兰大学的约翰·莫尔特(John Moult)教授发起了全球蛋白质结构预测比赛(CASP)。CASP每两年举行一次,组织者会发布大约100条蛋白质序列,其中的三维结构要么尚未被解析,要么已解析但未公开。参赛的计算生物学家基于这些序列,运用各自开发的算法来预测其三维结构。竞赛通常持续整个暑假,结束后由独立的科学家团队对结果进行评审,将参赛者的预测结构与实验解析的真实结构进行对比,最接近真实结构的算法被评为最佳


黄雨佳:

所以这个“最接近”是通过什么标准来评判的呢?


张阳:

这是一个看似简单,实则复杂且非常重要的问题。传统的评判标准是基于均方根偏差(RMSD),即将预测结构与天然结构进行叠加,然后计算每个原子位置的误差,并进行平均。虽然RMSD在概念上易于理解,但它的主要缺陷是对所有原子的误差进行同权平均,导致某些局部区域(如末端或链接区)的较大误差影响整体评分,即使大部分结构预测得很好,RMSD仍可能较差。


为了解决这个问题,我们实验室提出了一种名为TM-score的算法。通过重新设置权重,TM-score更侧重于预测较为精确的区域,因此能够更加准确地反映蛋白质结构预测的整体符合度。从发表论文的统计情况来看,TM-score大概是蛋白质结构预测领域应用最为广泛的评判参数,已经成为这个领域的一个行业标准


回到刚才的话题,CASP大概上是历史上首次将一个科学问题转化为严格意义上的技术竞赛,因此也被称为“蛋白质结构预测的奥林匹克”。现在,虽然计算机和其他领域都有类似的竞赛,如语言识别、图像识别、网络安全等,但追根溯源的话,CASP比赛应该是整个科学领域最早采用双盲评审的比赛方式,是影响很大的科学竞赛。


CASP比赛分为两组:人工组和自动服务器组。人工组结合人工干预与计算机程序,来预测最优结构。由于允许人工干预,因此预测过程相对较慢。对于每个蛋白质,CASP组织者会提供三周的时间,供参赛者提交最终的预测结果。


自动服务器组则完全依赖计算机程序,预测结果由算法自动生成。每个参赛者都会设立一个在线服务器,CASP组织者将蛋白质序列投递至服务器,自动生成并收集预测结果。原则上,预测过程不需要人工干预,每个蛋白质的预测必须在72小时内完成。由于人工组有更多时间,且可以参考自动服务器组的结果,因此其平均表现通常优于自动组。然而,自动服务器组的结果完全由计算机独立生成,因此原则上来讲更能客观地反映算法本身的效力。


黄雨佳:

我看AlphaFold好像不算在服务器组里?


张阳:

是的,AlphaFold确实没有参加自动服务器组的比赛,而是只参加了人工组。这可能是因为他们尚未完全将参赛程序自动化,或者希望利用更多时间,确保对每个蛋白质的预测结果尽可能达到最优。


黄雨佳:

所以人力干预是如何影响CASP比赛的成绩呢?


张阳:

事实上,CASP最初的前三届比赛只有人工组,因为当时的计算机程序并不够成熟,人工干预在预测中起着重要作用。一个典型例子是英国剑桥大学(University of Cambridge)的阿列克谢·穆尔津(Alexey Murzin)教授。他并未开发专门的计算机预测程序,而是通过目视观察结合蛋白质结构知识,往往能够识别出正确的蛋白质结构。穆尔津教授是蛋白质结构分类数据库(SCOP)的创建者,该库至今仍被广泛使用。在大规模结构比对技术出现之前,SCOP主要依赖人工对实验解析的蛋白质结构进行分类。他这种通过目视识别结构的能力,可能源于他长年累月对蛋白质结构的深入观察和分析。


这正是人工组的优势所在:如果某个结构有问题,研究人员可以手动调整特定区域的位置或方向;如果初始模板选择不当,人工干预可以重新选择模型,进行结构优化和组装。另一个手动预测比较著名的例子是波兰科学家克日什托夫·吉纳尔斯基(Krzysztof Ginalski),他在第5届CASP比赛中表现出色。他发现除了手工调整结构,功能性分析(如突变位点和催化位点)对结构建模也至关重要。


黄雨佳:

那张老师您能介绍一下您自己多年来参加CASP的经历吗?


张阳:

我是在2005年离开什科尔尼克实验室,建立了自己的独立实验室,并在2006年首次参加了第7届CASP比赛。从那一届开始,尤其是在自动服务器组,我们实验室都取得了不错的成绩。比如,利用我们实验室开发的I-TASSER算法,我们以Zhang-Server的名字参赛,在第7届和第8届CASP比赛中都取得了第一名的成绩,与第二名拉开了一些显著的差距。


I-TASSER算法是基于我在博士后期间于什科尔尼克实验室开发的TASSER程序推广得到的,这是一种基于同源模板重新组装的结构预测算法。自第9届CASP比赛开始,我们实验室又推出了QUARK算法,主要用于预测没有模板的蛋白质结构,该算法由我当时的博士后徐东博士开发。因此,自第9届CASP比赛以来,我们实验室的Zhang-Server和QUARK两款算法双双参赛,并在第9届至第14届CASP比赛的自动服务器组中始终位列前两名


黄雨佳:

所以蛋白质结构预测领域用于预测蛋白质结构的算法都有哪些类型,都是什么原理呢?


张阳:

蛋白质结构预测算法在不同时代有不同分类,我们可以将时间轴暂且分为人工智能(AI)出现之前和之后。AI的应用是近些年才兴起的,而在AI出现之前,蛋白质结构预测领域已经有了至少50年的发展历史。在这半个世纪中,逐渐形成了两类主要的预测算法,如果进一步细分,实际上可以分为三类。


第一类是基于物理的从头预测ab initio prediction)方法,这种方法不依赖已知的蛋白质结构。第二类是基于模板的蛋白质结构预测方法(template-based modeling),它通过在蛋白质数据库(PDB)中寻找模板,并基于这些模板构建蛋白质的结构。基于模板的方法进一步细分为同源建模(homology modeling,也称comparative modeling)和穿线(threading)。同源建模主要用于处理在PDB中有亲缘关系非常接近的同源模板的蛋白质;而穿线方法适用于那些PDB中不存在同源模板的蛋白质,它通过使用统计或多序列比对的方法来探测非同源但结构相似的模板,以辅助结构预测。


到了后期,又出现了把这些不同算法进行融合的算法,也就是以I-TASSER为代表的综合算法。这些综合算法融合了不同算法的优势,所以比传统的单一算法的鲁棒性和精度更高,这也是I-TASSER在CASP比赛中表现优异的主要原因。I-TASSER等算法在CASP上的成功对于后期综合算法成为行业主流算法起着重要的作用。


这些都是在AI出现之前的经典算法。而在AI出现之后,基于AI和深度学习的算法也有两类。第一类使用机器学习预测蛋白质局部性质,例如哪些氨基酸对在空间中相互接触、氨基酸间的距离、氢键、键角和二面角的特性等。通过这种局部性质的预测,再结合传统的蛋白质几何约束进行构象模拟,从而实现从局部特征到整体三维结构的转换。这是AI技术应用于蛋白质结构预测的较早期方法。


第二类是所谓的端到端的预测,就是把前面机器学习算法和几何模拟这两个步骤融合成一步,用蛋白质的一维序列直接训练学习蛋白质的三维结构。第二版的AlphaFold(通常称为AlphaFold2)是第一个成功实现了蛋白质端到端结构预测的机器学习算法。这种方法由于省略了中间的构象模拟步骤,完全依靠深度神经网络自动学习处理,所以它比第一类算法的自动化程度更高,精度也更好


总体而言,深度学习算法在蛋白质结构预测的精度上全面超过了传统算法。为什么深度学习能做得这么好,其主要优势在于它可以控制、训练非常大规模的可调参数。比如AlphaFold以及Meta公司最近推出的ESMFold,它们可以控制和训练数百亿个可调参数,而基于统计物理的传统算法一般只有大概几十最多数百个可调参数。如果把蛋白质分子处理成一个统计系统,后者这种有限的可调参数给它对蛋白质复杂相互作用的描述带来一种天然的局限性。


黄雨佳:

您能先简单介绍一下人工智能、深度学习、神经网络这些词语之间的关系吗?因为这些词语好像经常被混用。


张阳:

人工智能是一个更为广义概念,其目标是用计算机模拟人类智能,包括执行如视觉识别、语言处理和决策等任务。神经网络是一种受大脑神经元启发的计算模型,是实现人工智能的工具之一,特别适合模式识别和分类任务。深度学习是神经网络的一种扩展,利用多层网络来学习复杂的数据特征。早期的神经网络通常只有两三层,能处理的参数较少,而现代深度学习网络能训练数百亿个参数,得益于更深的网络结构、更大的数据量和计算能力的提升。


在深度学习的发展历程中,中国科学家何恺明做出了比较重要的贡献。他和他的同事提出了“残差网络”(ResNet)的概念,解决了深层神经网络中的梯度消失问题。通过引入残差连接,信息可以绕过几层网络直接传递,极大改善了深度神经网络的训练效率,使得网络层数可以大幅增加。ResNet在计算机视觉任务中取得了巨大成功,如图像分类、目标检测等。现在用AI来预测蛋白质结构时,基本上都用到深度学习算法。


黄雨佳:

所以深度学习的工作原理是什么呢?


张阳:

深度学习算法与传统神经网络的工作原理相似,但其网络层次更深,能够处理更复杂的任务。大致可以分为五个阶段。首先是设计网络结构,如卷积神经网络(CNN)、长短期记忆网络(LSTM)或转换架构(Transformer),这些网络由输入层、隐藏层和输出层组成,每层包含多个神经元,神经元之间通过权重连接。这些权重的确定是网络训练的核心目标。


第二阶段是前向传播,即将输入数据沿网络向前传递以生成预测结果,然后将这个结果与目标值或实际结果比较。这引入了第三阶段——损失函数,用于度量预测与实际之间的差距。第四阶段是反向传播,即将误差信息传回网络,通过优化算法(如梯度下降)来更新权重。最后阶段是训练过程,通过多次迭代训练,逐步调整网络的权重。在多次迭代后,网络形成了固定的权重,从而得到一个性能优化的模型。这个模型就是你训练所产生的AI模型,可用于对新数据进行预测。


损失函数在这一过程中扮演关键角色,它量化了预测结果与实际目标之间的偏差。例如,在蛋白质结构预测的应用中,可以将网络生成的结构预测值与实验解析出的结构进行比较,并通过优化算法最小化损失函数。一旦损失函数接近最优值,定好了这些权重,你再向这个网络输入一个新的序列,它就可以产生一个较为准确的预测结果,这就是神经网络或者深度学习工作的原理。


黄雨佳:

所以用来预测蛋白质结构的深度学习和其他领域的深度学习,比如聊天机器人种的深度学习,它们有什么区别吗?还是说其实本质上是一样的?


张阳:

蛋白质结构预测和聊天机器人所用的深度学习技术在基础上是相同的。例如,无论是在蛋白质结构预测还是聊天机器人的训练中,我们都采用了Transformer算法,这是基于谷歌公司2017年发表的影响深远的论文《Attention Is All You Need》。尽管应用领域和目标不同,但核心技术是一致的。


聊天机器人使用Transformer来处理大量的语言文本,通过这一过程学习人类语言的语法、语义、知识特征以及思维模式,从而能够与人类进行交互。相反,蛋白质结构预测则使用相同的算法来处理由氨基酸组成的序列,其目的是预测蛋白质的三维结构。因此,虽然基础技术相同,但两者在处理对象和应用上有显著的差异


黄雨佳:

所以为什么Transformer算法在蛋白质结构预测方面表现得这么好呢?有没有其他表现得也很好的深度学习算法呢?


张阳:

在Transformer之前,人们在做蛋白质结构预测相关的深度学习时,常常使用一种名叫卷积神经网络(CNN)的算法,也做得不错。但后来开发的Transformer通过引入自注意力(self-attention)机制,解决了CNN在处理长距离依赖和序列数据时的局限性。它在技术上更加高明,所以很多最近开发的蛋白质结构预测的算法,比如AlphaFold2和ESMFold,都是基于Transformer。另外,DeepMind最近发表的AlphaFold3显示出,扩散模型(Diffusion)也可以用来训练蛋白质结构预测,其整体表现可能还优于Transformer。


值得一提的是,蛋白质结构预测中的深度学习本身是属于AI for Science而不是AI of Science,它强调的是AI在结构预测领域的应用,而不是新的AI算法的开发。比如谷歌公司开发AlphaFold2和AlphaFold3,都用到了AI领域最前沿的Transformer和Diffusion算法,对蛋白质结构预测和结构生物学产生很大影响,但是这些算法本身对AI of Science并没有什么贡献,最多算是对现有AI技术的一种应用和推广。


实际上,最类似于ChatGPT的蛋白质结构预测技术是Meta公司开发的ESM和ESMFold。这些技术将蛋白质的氨基酸序列视为一种语言,类似于ChatGPT处理人类语言文本的方式。例如,就像句子“You are a smart student”由五个单词组成一样,一串特定的氨基酸序列如‘MKLGPITWSAFHZWA…’也可以被看作是一种蛋白质的“语言”。ESM和ESMFold利用Transformer的注意力机制来处理和学习大量的蛋白质序列数据,以此揭示蛋白质的结构、演化过程及其特有的“语法”规律,从而帮助我们预测蛋白质的折叠和结构。


就在最近,ESM团队发布了ESM3,把序列、结构和功能都引入到了蛋白质语言的训练过程中。这样就可以在同一个模型框架下,同时进行蛋白质结构预测、功能预测和蛋白质序列设计。我觉得这是这个领域一个重要的进展,通过使用“语言模型”不仅能预测已知蛋白质的结构,还能设计新的蛋白质序列,展示了模型的广泛应用潜力。


黄雨佳:

所以ESM3和AlphaFold相比,效果怎么样呢?


张阳:

ESM3的表现非常优秀,但在解决蛋白质结构预测这个具体问题方面,它的总体精度仍然不如AlphaFold。不过,ESM的目标不仅限于蛋白质结构预测,它更侧重于理解蛋白质的语言规律。


机器学习有两种,一种是监督学习(supervised learning),一种是无监督学习(unsupervised learning)。大多数机器学习方法属于监督学习,这意味着在解决一个具体问题之前,你需要明确告知神经网络目标,也就是为该目标设计相应的损失函数。举例来说,如果你的目标是让神经网络学习蛋白质结构预测,你需要提供实验解析的蛋白质结构数据,通过监督的方式让神经网络学习这个结构,并不断优化损失函数以达到最小化。这种方法相对直观和容易一些,也是AlphaFold所采用的方式。


ESM采用的是无监督学习,也就是说,它并不是通过直接训练蛋白质结构预测来监督神经网络的学习。相反,ESM通过分析大量蛋白质序列,学习其中的内在“语法”规则,最终也能够用于蛋白质结构预测。这有点像金庸小说中的武林高手修炼内功,虽然不直接参与对抗,但经过长期修炼,最终能够与专攻外家功夫的高手一较高下,前者的功夫可能更难修炼,用途也更为广泛。因此,尽管ESM3在结构预测精度上略逊于AlphaFold,但它在理解蛋白质“语言”、功能预测和序列设计方面具有独特的优势


黄雨佳:

所以基于深度学习的算法和基于物理的传统算法各有什么优劣呢?


张阳:

目前最好的深度学习算法可以对许多蛋白质做出精度远超传统算法的结构预测。这是深度学习算法的最大的优势。但是,过多的可调参数也把这个深度网络模型变成了一个黑箱,我们很难了解黑箱里面到底发生了什么。换一句话说,机器学习的一个主要劣势是它无法直接告诉我们蛋白质在细胞中折叠的物理过程。比如,ESM3目前用了980亿个可调参数来训练它的神经网络,这是个非常复杂的网络模型,人们不可能定量地了解这里面的参数是如何决定的,它们对应于什么具体的物理意义。


另外,基于蛋白静态结构训练的深度学习模型,只能预测一个个的静态结构。而我们知道,蛋白质在细胞中并不是处于一个静态的结构,它是在不停的起伏之中。很多功能的实现也依赖于蛋白质的动态起伏。这是深度学习模型难以解决的另一个问题。


相对来讲,基于物理的传统算法含有较少的可调参数,每一个能量项,比如氢键,静电,范德华力等,都有确定的物理意义,这有助于我们理解蛋白质相互作用的物理学起源。另外,基于物理学势的算法可以模拟计算蛋白质折叠的具体过程,并且计算每一个状态的自由能和熵,帮助我们了解蛋白质折叠的动态过程。因此,虽然基于物理的传统算法目前的结构预测精度比不上深度学习,但是在解释蛋白质折叠的物理以及模拟蛋白质动态过程方面,仍然有深度学习不可替代的特性


黄雨佳:

那您能不能再详细地介绍一下您实验室开发的I-TASSER算法背后的原理呢?


张阳:

前面提到,I-TASSER是在我博士后期间开发的TASSER算法基础上进一步推广和改进的得到的算法。在I-TASSER之前,结构预测算法主要分为三类:从头预测、同源建模和穿线。这三种方法各有优缺点。例如,同源建模只能处理与PDB数据库中蛋白质高度相似的目标蛋白;穿线则是对同源建模的扩展,尝试寻找非同源的蛋白质结构模板,但它仍然依赖于PDB中的已知结构,对于低同源性蛋白质的预测精度有限;从头预测虽然不依赖模板,但其预测精度较低,通常只能用于较小的蛋白质。


I-TASSER通过融合这三种算法,为不同类型的蛋白质提供统一的预测方案。简单来说,I-TASSER的第一步是使用穿线或同源建模算法,从已知的蛋白质数据库中寻找同源或非同源的结构模板。接下来,将这些模板进行切割,然后利用从头预测算法中的物理学力场,通过蒙特卡洛模拟将这些片段重新组装,最终构建出完整的三维结构。


由于这种算法融合了以往三种算法的综合的特点和优势,所以在结构预测整体的精度上体现出了优势。因此在AI技术兴起之前,这种基于多模版切割优化的综合算法是最主流的蛋白质结构预测算法。这也是我们从第一次参加CASP比赛以来,在过去十几年中,I-TASSER一直排在自动服务器赛道最前面的重要原因。


最近,随着AI和深度学习技术的发展,我们也把深度学习引入了I-TASSER,开发了一种新的算法,名叫D-I-TASSER,其中的“D”就是深度学习(deep learning)的意思。这个算法和我们开发的DMFold一起在最近的第15届CASP比赛中也取得了不错的成绩,特别是在多域和多链蛋白质的结构预测方面,排在所有团队的最前面。


黄雨佳:

既然您的工作在AlphaFold出现之前一直都是表现得最好的,那么当AlphaFold出现之后,您看到他们的工作的时候,内心有什么样的想法?


张阳:

在说明我的内心想法之前,我们先回顾一下AlphaFold的历史。AlphaFold是谷歌公司的DeepMind团队开发的,而DeepMind第一个惊艳世界的工作是他们开发的AlphaGO。我记得特别清楚,AlphaGO是在2016年击败了当时人类最顶尖的职业围棋九段棋手李世石。因为我自己是一个业余围棋爱好者,所以我全程观看了那几场人机大战的比赛,非常激动人心。但是我注意到了一个很多人没有关注的细节,就是在那场人机大战之后不久,DeepMind在一个不怎么重要的场合提到,他们下一步要用AI来解决蛋白质结构预测的问题。他们其实心里也没底,所以后来一直没在任何公共场合提这个事儿。但因为我恰好同时关注围棋和蛋白质结构预测两个领域,基于他们在AlphaGO中的优异表现,我当时还是充满期待。


2018年的时候,DeepMind研发了第一代的AlphaFold算法,参加了第13届CASP比赛。如果按照CASP的基于显著度的Z-Score算法评分,他们的总成绩是排在最前面的。但如果按照总的TM-score来评价,他们并不是最好的,和其他团队差距并不大。而且即使是按照Z-Score来评分,比如在基于模板的预测(template‐based modeling,TBM)方面,AlphaFold的精度是落后于I-TASSER的。但是到了2020年,他们用AlphaFold2参赛的时候,却以前所未有的精度,在几乎所有的目标蛋白的预测中,超过了所有参赛团队,非常惊人。


我们团队当时也参加了那届CASP,也算是优胜者之一,参加了受邀报告。但是我最初看到这个结果后,完全惊呆了,几乎无法用语言来表达。记得赛前和CASP的组织者莫尔特教授的一次email通讯中,他也用了‘speechless’这个词。我们都敏感地意识到,这个算法会对这个领域带来一场革命性的改变。做蛋白质结构预测,包括做科研这么多年,我从来没有看到过一个领域因为一篇论文出现产生如此大的飞跃。


我后来也有幸参加AlphaFold2发表在《自然》(Nature)杂志的那篇论文的评审。我记得我的评审意见的第一句话是说“This paper is probably THE most expected and important one in the current field of protein structure prediction”(“这篇论文可能是当前蛋白质结构预测领域中最受期待且最重要的一篇”)。


黄雨佳:

所以短短两年时间,到底是什么样的因素让AlphaFold有了这样巨大的飞跃呢?


张阳:

这就要提到AlphaFold算法的细节。通常我们把他们在2018年第13届CASP比赛中使用的算法称为AlphaFold1。这个算法实际上是基于已有的其他算法,也就是我之前提到的第一类AI算法。它首先通过深度学习预测蛋白质的局部特性,然后使用数学中的梯度下降方法将这些局部特性转化为蛋白质的整体三维结构。这种将蛋白质结构预测分为两个步骤的策略,许多团队(包括我们)都采用了。然而,他们的表现更为出色,部分原因在于他们拥有更强大的计算资源。AlphaFold1当时训练所用的计算能力远远超过了绝大多数科研团队所能达到的水平。


到了AlphaFold2,这个算法不再分为两步,而是实现了“端到端”的预测:一端输入氨基酸序列,另一端输出最终的蛋白质结构预测,整个过程完全由深度学习来实现。在以往的两步策略中,从第一步过渡到第二步时,存在一个较为手动的过程。在第二步中结构的优化依赖于算法的选择,不属于人工智能的范畴。而AlphaFold2则将第二步这个结构优化过程也纳入了人工智能的框架,通过深度学习优化了所有中间步骤,将人工智能的优势发挥到了极致。


这就像一条生产线,假设它要分成N个步骤。虽然每个步骤都有顶尖的专家指导,单个步骤做得很好,但如果各个步骤之间的衔接和调度由一个普通人负责,那么这些环节的衔接,尤其是不同步骤之间的协调,肯定不会达到最佳效果。而如果从头到尾由那位顶尖专家进行整体设计和优化,就能确保每个细节和步骤之间的配合都达到最优。AlphaFold2正是如此,虽然它使用的数据和AlphaFold1差不多,但是因为这样一个整体“端到端”策略的实现,就使精度得到了极大的提升。


实际上,“端到端”这个想法也不是完全DeepMind开创的。多年以前,已经有些人尝试过完全端到端,从序列到结构,直接用PDB库已知结构去学习蛋白质结构预测。但是这里面有很多重要的技术细节,最后的端到端没能实现好。而AlphaFold2突破了这个瓶颈,他们的工程做得很好,把端到端里的每一个细节都实现得很好,所以一下子就把这条路走通了。当然,最近几年AI技术的发展,特别是Transformer技术的开发,也是AlphaFold2成功的一个重要因素。


最近,DeepMind推出了AlphaFold3算法。与AlphaFold2相比,AlphaFold3在两个方面有了重要改进。首先,AlphaFold2主要用于预测单链蛋白质的结构,而AlphaFold3则建立了一个统一的模型,能够预测蛋白质单链结构以及蛋白质与其他分子(如蛋白质、核酸、药物分子等)之间的相互作用。这意味着它从三级结构的预测扩展到了四级结构的预测,实现了深度学习结构预测的一个突破,这是AlphaFold3的第一个贡献。


虽然DeepMind的宣传以及大家的关注点大多集中在AlphaFold3的第一个贡献上,但我认为它的另一个贡献同样具有重要意义。AlphaFold2以及许多其他的预测算法,都是基于多序列比对,依赖于进化信息。根据达尔文的进化论,我们相信当前看到的蛋白质结构和功能,都是自然长期进化的结果。而大多数深度学习算法,无论是基于多序列比对还是语言模型,实际上都在学习这种进化的过程。


然而,AlphaFold3大幅降低了对多序列比对的依赖,转而引入了一种新的算法——扩散(Diffusion)算法。这个扩散算法不再是模拟进化过程,而是通过一种新的方式来预测蛋白质结构。它的核心思想是先将蛋白质的结构“打散”,也就是加入噪声,然后再将打散后的结构重新“聚合”,即消除噪声。通过对这个添加和去除噪声的过程的反复训练,AlphaFold3直接学习蛋白质结构的构象特征。所以它对从多序列比对中抽取的进化信息的依赖性就越来越小。


为什么这点很重要呢?因为许多蛋白质,尤其是微生物和病毒中的蛋白质,进化速度非常快,进化过程难以追踪。例如,新冠病毒的进化速度极快,一年内就能经历多次变异,帮助它逃避疫苗的防护。由于这些病毒的进化过程难以准确构建和追踪,许多基于进化信息的深度学习算法无法有效预测此类蛋白质的结构。如果新的扩散模型能够仅基于蛋白质构象特征准确预测结构,那么它将特别有助于那些缺乏完整进化历史或进化历史极短的蛋白质的结构预测。这也触及了深度学习和蛋白质结构预测中的一个根本问题,如果这一问题得到解决,将是该领域的重要突破。


目前,DeepMind在蛋白质结构预测领域基本上处于独一档的位置,是计算结构生物学领域的先头部队。我个人也非常钦佩他们团队的优势,因为他们不必担心学术界常见的两大难题:人力和算力。这两个问题也是大型AI模型研发中最为核心的因素。最近这几年,随着AI的介入,整个计算生物学,特别是生物信息学和结构生物学,发生了很大的变化,新的重要的概念和算法层出不穷、日新月异。这让我联想到20世纪初,量子力学和相对论的兴起,引发和推动了物理学发展的黄金时代。而现在,我认为计算生物学正处于一个类似的黄金时代。然而,如果只有一个团队一家独大,其实是一件比较遗憾的事情。AI在生命科学领域引发的革命,才刚刚开始。如果要真的建立一个能够与DeepMind团队竞争的技术力量,无论是在中国还是在海外,首先需要组建一个强大的、获得充分资金支持的团队,并且让有远见和领导力的主要研究者(PI)能够自由地、不受限制地探索这些前沿问题。我相信这是完全可行的。


黄雨佳:

所以AlphaFold的工作会影响到您的研究吗?


张阳:

当然有,但我认为主要是正面的。首先,AlphaFold的成功吸引了更多关注,使这一原本较为小众的领域得到了更多重视。其次,它向我们证明了蛋白质结构预测是一个可以解决的问题,尽管目前的解决方案可能有些“暴力”或非美学(笑)。这一点尤为重要,因为经过多年的停滞和徘徊,很多人开始怀疑蛋白质结构预测是否真的有解。这就像下围棋时做死活题一样——当你知道问题有解时,往往能迅速找到巧妙的解决方案;但在真实对弈中,若不确定是否有解,许多精妙的想法便难以产生。因此,确认这个问题是有解的,对整个领域的发展具有非常重要的意义。


然而,AlphaFold的成功也引发了某种跟风效应。比如,目前许多高引用的论文只是重写AlphaFold的程序、做末态分析、或是直接搭建AlphaFold在线服务器。这种同质化的研究对于学科的长期发展并不健康。我觉得,一个有独立思考的科学家应当有自己的品味,专注于解决你自己认为有趣或重要的问题


AlphaFold为我们提供了许多宝贵的启示和思路,我们自己一直在想的一个问题是如何打破这个“黑箱”。可能是由于我的物理学背景,一般来说,解决一个物理问题不仅要知其然,还要知其所以然。而AlphaFold目前解决的主要是“知其然”的问题,尚未触及“知其所以然”的本质。这两类问题,大致对应了蛋白质结构预测与蛋白质折叠这两个相关其实很不相同的问题。


对于大多数物理学家或生物物理学家而言,想要彻底解决蛋白质折叠和结构预测的问题,不仅需要能够预测蛋白质的静态结构,还必须解释它在细胞中是如何折叠成最终结构的。只有做到这一点,才能真正从物理学角度解决这个问题。后者不仅有助于我们理解蛋白质折叠的物理机制,还能模拟蛋白质在细胞中的动态过程。这一动态过程对于蛋白质功能的实现和药物研发都至关重要。


我们目前在这方面做了些努力,分为两部分。首先,我们尝试将I-TASSER与深度学习或AlphaFold结合,开发了D-I-TASSER。I-TASSER本身是基于物理和统计的算法,而D-I-TASSER结合了深度学习,将AI与物理结合,帮助解决一些单纯依赖深度学习无法解决的问题。例如,蛋白质折叠时会形成不同的构象,而深度学习只能提供单一末态构象。通过D-I-TASSER的模拟,我们可以生成多个构象,并通过聚类分析这些构象的自由能分布。同时,D-I-TASSER的蒙特卡洛模拟可以生成连续的构象链,帮助我们理解蛋白质的折叠过程。


第二个努力方向是利用AI来学习蛋白质折叠的物理势场。正如前面提到的,传统物理算法的主要瓶颈在于缺乏精确的物理力场。即使我们拥有良好的搜索算法和模拟框架,如果力场不够准确,效果依然有限。如果AI能够帮助我们学习并构建这一力场,就能与传统的模拟算法结合,精确再现和理解蛋白质的折叠过程。


对于我这种比较守旧和执着于物理本质的人来说,似乎只有这样才算是真正完美地解决了蛋白质结构预测的问题。我们目前在这方面已经有一些初步结果,但是离最终目标还有很长的路要走。不过,无论成功与否,这代表我们追求理想的一个方向。


黄雨佳:

您前面也提到,AlphaFold3和AlphaFold2的区别之一是它可以预测复合体的结构。我想知道,从预测单个蛋白质的结构,到预测复合体的结构,中间的难度跨度大概有多大?


张阳:

这个差别确实很大。蛋白质单体和复合体的结构预测,专业上分别称为蛋白质的三级结构和四级结构预测。正如我之前提到的,三级结构预测的主要挑战之一是巨大的构象空间。而当涉及到蛋白质复合体的预测时,可能的构象空间更是大幅增加,因为除了单体本身的自由度之外,复合体还引入了新的自由度。


具体来说,在预测蛋白质复合体结构时,不仅需要确定每个蛋白质分子内部的原子位置,还必须预测这些蛋白质分子之间的相互作用方向,这个方向代表着额外的自由度。正是这一自由度的增加,使得复合物结构的相空间急剧增大,因此也使得复合体结构预测的难度大幅度提升。


黄雨佳:

所以您实验室在复合体结构预测领域,目前是取得了怎样的进展呢?


张阳:

我们首先在多域蛋白质结构预测方面做了一些尝试,开发了一个名为I-TASSER-MTD的软件,这是我原来的博士后周晓根博士的工作,他最近刚刚获得了海外优青。我们知道,许多蛋白质有多个独立折叠的结构域(domain),这些结构域相互作用,组装成一个大的蛋白质。除了单个结构域的三级结构外,结构域之间的相互取向也是一个难点,因为它们存在额外的自由度。I-TASSER-MTD是我们在2021年发展的一个工作,把I-TASSER推广到做结构域之间的预测。


这算是个比较复杂的事情。我们有一个I-TASSER的在线服务器,目前拥有超过20万名注册用户。前几年,我们经常收到一些用户的邮件,询问如何预测一些非常大的蛋白质(如含有数千个氨基酸)的结构和功能。这类蛋白质通常具有多个结构域,形成复杂的构象。这些需求促使我们投入大量时间,将I-TASSER扩展到多域蛋白质的结构预测中,开发了首个专注于多域蛋白质结构预测并实现完全自动化的算法


复合体蛋白质和多域蛋白质有一个共同点,即它们在三级结构之外都存在新的自由度——链或结构域。不过,多域蛋白质的结构域之间有物理连接,而复合体之间没有,因此复合体的自由度更大。为了解决复合体的预测问题,我们最近开发了一个名为DMFold的算法,这个工作实际上是建立在AlphaFold-multimer的基础之上。我们主要利用宏基因组学数据构建新的多序列比对,特别是针对多链蛋白的多序列比对。我们发现,使用更大标度的多序列比对可以显著提升AI在蛋白质复合体结构预测中的预测精度。这个工作主要是我们实验室的博士后郑伟博士做的,他最近也刚刚获得了海外优青。在郑伟博士主导参加的最新一次CASP比赛中,我们在多域蛋白质和蛋白质复合体两个方面的结构预测上达到的精度远远超过了其他团队,这说明大标度多序列比对以及结构域组装在复合体结构预测的重要性。


黄雨佳:

我们可以说计算机算法已经基本解决了蛋白质结构预测领域的问题了吗?


张阳:

还没有。目前,以AlphaFold为代表的AI算法在单链蛋白质,尤其是单结构域蛋白质的结构预测方面取得了重大进展。但是,蛋白质结构预测是一个非常复杂的问题,远远没有达到完全解决的程度


首先,即使对于单链单结构域蛋白来讲,目前最好的结构预测算法,也只能对大约2/3的序列产生高精度的结构预测。对另外1/3的序列,要么是因为它们的同源序列数据太少,要么是PDB库里面没有相应的拓扑结构供AI学习,或者因为序列本身包含大量的非结构区,AI结构预测结果仍然达不到生物制药所需要精度要求。


第二,蛋白质复合体结构预测是另一个重要挑战。虽然AlphaFold-Multimer和AlphaFold3等AI工具在这一领域取得了一定进展,但其预测精度仍然远不及单链蛋白质结构的预测。复合体结构对于理解生物功能和生物制药至关重要,其复杂性远超单链蛋白质结构预测。因此,这个问题仍然未得到充分解决。


第三,正如我之前提到的,蛋白质在细胞内并非始终维持单一的静态结构,而是表现出动态变化,甚至可能呈现多种构象。目前的AI算法,如AlphaFold,尚无法有效处理蛋白质结构的这种动态性。


此外,突变引起的结构或功能变化也是一个没有解决的难题。我们知道,对于某些蛋白质来说,单个氨基酸的点突变常常会显著改变整个蛋白质的构象或功能。例如,许多癌症正是由单个氨基酸的突变引发的。那么,如何预测这种突变对蛋白质结构和性能的影响?目前,这对AI仍然是一个巨大的挑战。现有的AI结构预测算法在处理点突变时,通常会给出与未突变结构几乎相同的结果,模型几乎没有变化。这一问题对任何声称已经解决蛋白质结构预测问题的算法或技术,都是一个巨大的挑战和考验。


黄雨佳:

所以这些问题是需要从物理的角度才能解决吗?


张阳:

现在还不知道。不同人对这个问题有不同的看法和答案,可能与每个人的哲学观以及研究兴趣和品味有关。从我个人的角度来看,我认为仅依靠AI的训练是不足够的。我倾向于认为,或者我最希望做的,是把物理和AI融合,来处理这些问题。毕竟,蛋白质的折叠过程、相互作用、动态变化、以及突变的影响,本质上是物理学问题,或至少与物理学的规律紧密相关。


黄雨佳:

您前面也提到,蛋白质结构预测和蛋白质折叠其实是两个相关但不同的科学问题。那么蛋白质折叠领域,计算机算法现在大概是做到了什么程度呢?


张阳:

是的,这确实是两个相关但不同的科学问题。蛋白质结构预测的目标是根据给定的氨基酸序列,计算出其在三维空间中的原子排列。而蛋白质折叠问题则侧重于研究蛋白质如何从一维的氨基酸链通过动力学过程折叠成三维构象。


尽管AI在蛋白质结构预测方面取得了重要进展,但在蛋白质折叠研究上,无论是传统方法还是AI,都还没有取得显著突破。物理模拟方法,如分子动力学或蒙特卡洛模拟,虽然能够生成蛋白质折叠过程中构象变化的轨迹,但由于物理势能模型的精度尚不足以准确描述折叠过程,模拟结果往往需要人为添加约束,难以完全反映蛋白质的真实折叠过程。这是一个长期存在的难题。


目前主流的AI结构预测算法,如AlphaFold和ESMFold,主要依赖PDB数据库中的静态结构进行训练,因此它们只能预测蛋白质的静态构象。然而,近年来AI领域开始探索扩散模型的应用,通过模拟加噪和去噪的过程来生成新的蛋白质构象和变化轨迹。这为研究蛋白质折叠的动态过程提供了新的思路。虽然这些生成的动态过程可能未必完全反映自然状态,但利用AI模拟不同的折叠动态仍是一个极具潜力的研究方向。


黄雨佳:

您前面也提到,现在有很多人是跟着AlphaFold的步伐在走。那么在AlphaFold2出现之后,现在的业内的人士对于CASP比赛是什么样的看法呢?您觉得CASP比赛有意义吗?


张阳:

CASP比赛和AlphaFold是两件不同的事。CASP曾经极大地推动了蛋白质结构预测领域的发展。当然,AlphaFold2的问世对CASP的竞赛模式产生了一些影响。多年来,CASP历史上最重要的赛道是单链单结构域蛋白质的结构预测。AlphaFold2出现后,尽管单链单结构域预测仍然是一个关注重点,CASP可能会更倾向于探索其他更具挑战性的问题,例如多域蛋白、蛋白质与其他分子的复合物以及RNA结构预测等。不过,这些改变只能说明结构预测领域本身的进步,并不妨碍CASP在结构生物学中继续发挥其重要的推动作用。CASP仍然会继续见证并推动这个领域新技术的进步和发展。


正如我刚才提到的,蛋白质结构预测领域仍然存在一些非常基础但尚未解决的问题。我个人是希望看到CASP能够将这项重要赛事扩展到解决与蛋白质相关的物理学基本问题上,进一步推动这一方向的发展。例如,深入理解蛋白质的力场、构象变化、动力学以及起伏等物理属性,而不仅仅是静态结构。静态的结构当然最容易衡量,也是CASP最初存在的意义。但是,关注这些基本的问题,可能会让这个平台在推动蛋白质物理学进展方面发挥更广泛的作用,也将赋予CASP更多的意义。令人欣慰的是,最近的CASP已经开始关注这些问题,例如最近的比赛中包括了突变和多态结构预测的内容


黄雨佳:

我们这篇文章中也提到,蛋白质结构预测可能是一个很典型的非常适合深度学习算法来解决的问题,因为它有PDB这样的数据库。所以,在您看来,深度学习算法还有没有可能用到生物学和生物医学的其他的领域?


张阳:

深度学习确实非常适合解决蛋白质结构预测问题,这可能也是DeepMind进入这一领域的关键原因之一。因为该问题的标准非常明确,训练目标和损失函数的设计可以被清晰地定义


实际上,深度学习及其他AI算法已经在生物学的多个领域得到了广泛应用。除了蛋白质结构预测,药物研发也是一个典型的例子。在药物开发过程中,理解蛋白质与药物之间的相互作用至关重要,而深度学习能够帮助我们计算并预测蛋白质和配体之间的亲和力。我们最近也在开展相关工作,比如我们开发了一个专门针对药物分子的语言模型,将其与蛋白质的语言模型结合,可以大大提高药物分子与蛋白质相互作用的预测精度。


此外,深度学习在基因组学和遗传学领域同样发挥着重要作用。通过解析基因序列,深度学习可以预测基因的功能,甚至帮助我们了解基因如何在不同层面影响人类的健康和疾病。例如,揭示基因突变是否会引发疾病,以及基因在不同细胞或器官中的作用。深度学习还广泛应用于医学成像领域,例如提高磁共振成像(MRI)和计算机断层扫描(CT)图像的质量和解析度,从而帮助医生更准确地诊断疾病。再比如,深度学习也可以用于行为科学和心理学领域,通过大量的行为数据,帮助我们理解人类的行为模式和心理疾病的形成机制。还有,深度学习还可以用于设计新型疫苗,这也属于生物医学的范畴。我们可以举出来很多这样的例子。


事实上,凡是涉及定量科学且具备足够数据积累的领域,AI都可以发挥作用。只要输入和输出明确,并且可以通过定量方式衡量损失函数,AI就能够快速学习,并在这些领域产生重要影响。


黄雨佳:

最后一个问题是,您对我们这篇文章有没有什么看法?


张阳:

首先,我认为对于一位非专业人士来说,这已经是一篇非常出色的文章。作者投入了大量精力,采访了多位相关领域的专家,并重点讨论了一些热门研究,这对于提升公众对该领域的关注起到了积极作用,这是文章的一大亮点。


然而,由于作者不是这一领域的专家,她不可避免地集中于当前的热点,特别是AI研究中的一些高光时刻。但蛋白质结构预测领域还有很多关键的里程碑事件被忽略了,特别是在AI出现之前的一些传统且非常有效的算法。同时,也并非所有专注于研究的科学家都有机会或者愿意接受采访,因此文章中的内容可能未能全面代表该领域最具代表性的工作和观点。


正如西方有句谚语所说:“智慧的基石不会建立在沙漠之上”;中国也说,“冰冻三尺非一日之寒”。因此,蛋白质结构预测领域不是说只有一个AlphaFold,它的成功是建立在数代人长期努力的基础上。几年前,在AlphaFold2刚刚出现之后,我的博士生罗宾·皮尔斯(Robin Pearce)和我合写了一篇综述文章——Toward the solution of the protein structure prediction problem》,比较全面地综述了蛋白质结构预测过去50多年以来的整个发展历程。我们还绘制了一棵“发展树”,标示了各个年代重要的里程碑事件。如果有同学对蛋白质结构预测的历史感兴趣,可以参考这篇论文。这是我对这篇文章整体的一些看法。


黄雨佳:

好的!非常感谢张老师接受我们的采访!


本文来自微信公众号“环球科学”。如需转载,请在“环球科学”后台回复“转载”,还可通过公众号菜单、发送邮件到[email protected]与我们取得联系。相关内容禁止用于营销宣传。


-电商广告-

《环球科学》2024年10月新刊正在热卖

戳图片阅读原文

立即购买

点击【在看】,及时接收我们的内容更新