专栏名称: 阿里研究院
阿里研究院依托阿里巴巴集团海量数据、深耕小企业前沿案例、集结全球商业智慧,以开放、合作、共建、共享的方式打造具影响力的新商业知识平台。 阿里研究,洞察数据,共创新知! 官方网站http://www.aliresearch.com/
目录
相关文章推荐
电商报Pro  ·  要搬家找京东,刘强东带着兄弟们杀入搬家市场 ·  10 小时前  
亿邦动力  ·  亚马逊供应链智能托管服务上线;TikTok ... ·  昨天  
阿里研究院  ·  AI4S大会圆桌讨论:人工智能赋能科学研究— ... ·  3 天前  
跨境电商Eason  ·  男士刚需衬衫,工厂出海eBay跨境电商 ·  3 天前  
跨境电商Eason  ·  男士刚需衬衫,工厂出海eBay跨境电商 ·  3 天前  
51好读  ›  专栏  ›  阿里研究院

AI4S大会圆桌讨论:人工智能赋能科学研究—路径与展望

阿里研究院  · 公众号  · 电商  · 2025-02-28 10:31

正文



本文为“人工智能赋能科学研究”研讨会(AI4S大会)的圆桌讨论发言实录,本次大会由世界互联网大会人工智能专业委员会主办,阿里巴巴集团承办。


本次圆桌讨论的主题为“人工智能如何赋能科学研究”,主持人阿里云智能集团副总裁安筱鹏邀请了五位嘉宾,围绕人工智能对科研范式的变革,开源开放的AI社区对科研生态的重构和其中涌现的重大产业升级机会进行深入讨论,以上嘉宾分别是北京市科委、中关村管委会党组成员龚维幂,深势科技创始人兼CEO孙伟杰,Hugging Face高级工程师王铁震,IBM大中华区开放创新社区主席陈宇翔,以及华大生命科学研究院副院长金鑫。




议题一:AI对科学研究的价值评估和判断



主持人(阿里云智能集团副总裁安筱鹏):

在最近的一次讨论中,我们注意到《大西洋月刊》在去年对诺贝尔奖的评价中提到:“这次诺奖是AI青霉素和X射线的时代。” 这一评论深刻地反映了AI技术在现代科学中的重要性。与此同时,马斯克在其最新发布的Grok-3人工智能系统时提出目标:在未来三年内实现具有诺贝尔奖突破水平的人工智能。此外,各位专家也指出,当前许多科学研究文献的基础研究工作都依赖于AI技术的支持。所以今天第一个议题是各位如何看AI对科学研究创新的工具、创新的方法、创新的范式带来的影响和价值?


龚维幂( 北京市科委、中关村管委会 ):

基于我在日常工作中主要联系生物医药、能源、材料相关领域的经验,我对AI4S的价值有深刻的体会,以下我分为三大点来讲:


第一、AI4S是推动科学研究范式变革的关键力量


1.AI4S显著提升了我们解决复杂问题的能力。例如,MIT和CFS公司提出的关于可控核聚变的研究愿景中,AI结合多参数协同和高温超导材料的突破展现了巨大的潜力。这为我们带来了可以预期的前景。


2. AI大幅提高了科学研究的效率。通过实验室高通量合成和测试,以及未来可能实现的黑灯无人实验室,科学家们能够更高效地进行实验。这些实验室将不再需要人机交互界面,而是通过仪器之间的通信接口和物流通道来完成任务。未来的实验室将更加集约、高效,并有助于科研数据的追溯,从而增强科研诚信。


3. 有效拓展科学研究的边界:在习近平主席提出的研究领域如宏观拓展和微观探索中,AI也起到了非常重要的作用。随着AI技术的进一步发展,它甚至可以在提出更好的科学问题方面发挥更大的作用。


第二、AI4S是产业迭代升级的关键推动力


1.对技术叠加和产品推出的贡献显著。例如,小米Su7使用的泰坦合金已经利用了人工智能工具。此外,北京科学智能研究院在OLED材料开发上也有很好的积累,展示了AI在材料科学中的应用潜力。


2. 推动产业升级的革命性变化:合成生物制造是一个典型案例。过去,化工合成过程中存在环保、污染和能耗等问题。未来,如果更多底盘细胞可以基于AI和基因编辑技术进行设计,有望取代70%的人类合成化工用品,从而带来重大的产业升级。


第三、 AI4S是 促进高质量发展的关键抓手


北京在人工智能领域拥有良好的科技和人才积累,同时在发展壮大新兴产业、培育未来产业领域也有一些配套的举措,这些措施旨在抓住新一轮科技革命和产业变革的机会,促进高质量发展。北京将进一步优化营商环境,打造便捷的基础设施,包括概念验证、投资赋能和产业转化落地的全流程服务,以推动AI4S带来更多产业机遇。谢谢大家!


孙伟杰(深势科技):

在讨论AI对科研影响的背景下,可以将问题按照不同的逻辑层次进行划分。从工具层面来看,在没有AI4S(AI for Science)之前,科研的基本流程主要由读、算、做三个模块组成。随着AI基础设施的发展,AI技术已经开始显著地改变这些传统科研环节。


首先,AI能够极大地提高处理文献数据的效率,帮助研究人员更好地整理和分析知识。其次,通过提升计算模拟的精度和效率,AI为科学研究提供了强有力的支持。最后,AI还能够优化实验室设施,提高实验过程的准确性和效率。因此,在AI4S时代,原有的科研数据库、知识库、文献库、科研软件及实验室基础设施将会迎来一轮新的重构。


当这些智能化工具形成一个完整的闭环系统时,我们迎来了所谓的“超级实验室”或AI4S的具身智能。这种具身智能不仅包括传统的数学形式逻辑处理能力,更重要的是它能够在物理世界中完成数据的闭环,通过实体实验验证或观察来反馈给大模型,实现智能体的自我学习和进化。这意味着未来的终极科研基础设施将具备对客观世界的理解和认知能力,并能自动化地执行实验任务并获得数据反馈,以支持进一步的学习和研究。


基于这样的工具体系,学校里的科研和教学以及产业中的研发试验都将发生重大变化。未来,创造力将成为驱动科研的主要力量,人们只需要有一个创造性的想法,就能借助云端的数据、软件和实验资源来实现自己的设想。这将进一步激发人类之间的创造力,并促使科研生产关系发生变化。


过去,学校和产业界的科研存在三个壁垒,一是学校的科研和产业的需求之间有壁垒;二是学校各个学科之间有壁垒;三是科研的各个生产要素之间有壁垒,然而,在AI4S时代,这些障碍必须被打破。例如,过去由图书馆管理的文献中心、由计算中心管理的软件和算力、由测试中心管理的实验仪器以及由教务部管理的教学平台,现在需要更加有机地整合在一起。深势科技正是基于此理念,在每个环节上开发出针对AI4S的数据、科研、教学、实验等方面的工具,帮助合作伙伴打破壁垒,推动AI4S进入新的发展阶段。最终目标是创建一种一体化的平台,使得科研人员只需提供一个创意,其余大部分工作都可以由这个平台自动完成,从而大幅加速科学发现和技术革新。


在我创业过程中我觉得最有自豪感的一件事情就是我们真的有可能创造出一个挖矿机。从化学、物理、生物的这个宝贵的空间里面,帮我们挖掘出高价值的分子,高价值的材料的这些矿产。而其实我们世界上的需求,这些对材料分子的需求是无限的。过去是受制于我们科学家的智力供给不足,或者科学家的时间精力供给不足,使产业变化、学术发现不可能井喷一样的被发现。但是我觉得有了AI for Science 的下一个平台,就是AI scientist,我们的科学智慧的供给将会极大的被加上杠杆。在未来,这是我最兴奋的一件事情。云加AI正在成为科学研究的重要的基础设施。这个过程中不仅仅对科学的工具,科学的方式带来新的变化,对于科研的组织方式,资源的有效的流动和优配置带来了很多新的诉求。


王铁震(Hugging Face):

Hugging Face作为最大的AI开源社区,可以被视作AI界的GitHub。它不仅提供了丰富的模型原材料和数据集资源,还允许用户上传经过训练或微调后的模型,并在平台上展示其功能,让大家迅速了解这个模型能做什么。


从个人视角来看,AI对日常生活和跨领域研究的影响尤为显著。例如,当面对孩子的深奥问题时,AI能够提供详尽且易于理解的解答。我可以跟大模型做无限深入的交流,甚至把它当成老师、朋友,整个过程让我感觉很好也很有信心。所以以后我要跨行业、跨领域去干某件事或者做一些新的领域研究时,大模型可以帮我,我也可以很有信心的走下去。


模型一旦开源,就会永远属于你,一旦达到智力的水平,就会像人一样会永远孜孜不倦的跟你交流,不需要额外认识每一个行业的专家。所以未来对我们跨行业的交流会降低很大的成本,提高很大的效率。进而对整个教育行业都会有非常颠覆性的影响。


教育的本质,是发现的过程,知道怎么把所有的资源运用起来,不停地去探索,去解决你所感兴趣的问题,这是最重要的。这个行业有AI,有大家的使用,有这个行业技术的进步,其实会给我们带来非常崭新的人才培养、交流合作等方面新的变化。


Hugging Face作为模型开源的一个社区,我觉得对于科学研究今天的主题,最重要的一个价值是AI for Science的普惠。让更多大学的教授,在没有更多的算力的时候,可以记一个开源的模型,开源的平台,交流分享使用。


陈宇翔(IBM):

由于AI的介入,是我们研究的效率得到了显著提升。在各个领域中,如芯片设计和量子计算等,AI的应用大大加速了研究进程。传统的科研范式通常由科研人员提出一个富有创意的想法,并通过实验或计算来验证其可行性。然而,以往每个想法背后都会有代价,几个月的时间成本,甚至可能需要投入数万美元的资金才能得到结果。现在,借助多种AI工具的帮助,研究人员可以在极短的时间内快速验证这些想法的可行性,将原本需要数月的工作缩短至三天甚至几小时。这使得科研人员能够花更多的精力在想法上,而且也没有时间和金钱方面的压力,因此,科研人员能够在较为轻松的状态下提出一些惊世骇俗的想法,这对科研助力非常明显的。


在提出初步想法后,可能需要进行实验或计算。可以通过云、实验室或者一些实验室系统都可以做出结果。目前对AI的定位还是一种高级的工具,包括对数据的收集、分析、整理、汇总,但最终决策仍需人类主导,但是AI在过程中的确大幅度减轻了工作人员的工作内容。


此外,还观察到了一种模式的改变,大量的工具下一代就是用上一代做出来的,就是AI for AI。例如,IBM的量子计算机设计就是采用这种方式,用上一代的技术来改进和优化下一代产品。如果进入科研能自我迭代,机器人大量参与在里面的话,将来的速度和爆发出来的能力是蛮惊人的。


金鑫(华大生命科学研究院):

刚刚从各位嘉宾分享中学到了很多,我作为一个在生命健康,基因组学研究的人,最近这段时间给我最强烈的感受就是目前至少在生命科学、组学这个领域已经不仅仅是AI4S,而是AI is Science,去年两个诺奖已经很清晰说明了这一点。


我们做的基因组学领域,人类基因组学计划之后,人的基因组所有细胞里的基因组都是同一套。之前在人类基因组计划酝酿过程中间,人们有非常乐观的愿景,我们解密了人类基因组以后,应该能够解决所有人类的疾病和健康的问题,但是二十年以来,其实大家有很多失望。之前重大的挑战是我们对于怎么去理解海量的数据和序列能力是不够的,纯靠人类的智能,还是没有能够突破所有的问题,今天可能我们理解整个碱基中只有5%、10%究竟在做什么。


我们在跟协和医院合作做一项工作,有很多罕见病病人主要致病因素就是因为基因突变,父母没有基因突变,或者父母携带传给了这个孩子,正好是同一个位置,我们要做的工作实际上就是要从整个基因组中间找到这一个真正导致疾病的突变,这其实困难非常大。过去我们可能要有一个硕士、博士学历的专业人员经过半年的专业训练,解读2~3份全基因组的报告,现在我们使用开源大模型,而且是国内的开源大模型,结合我们之前积累的很多数据和经验,现在整个解读效率已经有非常显著的提升。我们自己的解读专家已经离不开这样的工具了,所以相信未来这方面的潜力非常大。我们测试了所有模型,在我们当时完成第一版成果时,是去年9月份,那时候我们用的是通义。






议题二:AI支持赋能科学研究到了一个什么阶段



主持人(阿里云智能集团副总裁安筱鹏):

刚才各位专家已经提到了AI4S在蛋白质结构、新材料、生物医药、芯片设计、天文气象领域的进展,可能仅仅是一个开始,在座各位有领导者,有观察、有实践,也有一些技术的引领者,我们想从各自实践,从各自观察的角度,从一线的角度去看,今天的AI4S有哪些新的进展,以及未来会有什么样的趋势,在哪些领域有哪些新的价值,有什么新的模式,值得去关注?


龚维幂( 北京市科委、中关村管委会

总的来说AI4S刚刚开局,就能看到给未来带来的特别多精彩的线索,从北京市科委和中关村管委会来说,这几年我们在这个领域也持续深入在推进,包括从2018年开始布局建设智源人工智能研究院,2019年北京就出了人工智能治理倡议,后来有智源人工智能研究院等,从赋能科学自身,包括产业发展来说,这些年我们推出了《合成生物制造行动方案》《AI+材料行动方案》,近期还在推出《人工智能赋能科学研究高质量发展行动计划》,这些方面有一些工作的基础。


从眼前看,对产业变革带来的影响最现实的有三个方面:


第一,智能实验室。这是有可能会很快形成一个新的产业发展的细分方向,现在已经有一些生物样本库领域用到了全自动无人化的实验室,已经能够非常好的实现样品进、数据处,包括前面实验效率的提升,应该率先可以形成新的产业模式。北京已经涌现出了若干家在专门做黑等实验室设计、改造科学仪器解决方案的公司,既包括从本体上对科学仪器的提升,也包括科学仪器之间的数据传输、物料的传递,也包括人工智能集成以后对实验室成果输出形式的变化,极大的减轻科学家的劳动和负担,也是刚才孙伟杰讲的第一个阶段,作为工具阶段,目前看来已经具备条件,正在到来。


第二,基于北京产业禀赋和资源特点,还会很快衍生出一些第三方服务公司。医药健康因为本身的标准化流程,附加值比较高、监管比较严,所以全流程的CRO、CDMO第三方服务其实是分化出来比较早的,以新材料为例,一直没有把研发和服务分开,一直合在一起,我们设想将来更多新材料、更多有用的分子可以通过人工智能的方式精准的设计、预测、合成和测试,是完全有可能在新材料领域涌现出像CRO这样的第三方服务的业态。这是目前看来是北京特别希望去推动和实现的一点。北京第三产业服务业占比到85%甚至到86%的程度,所以我们想基于科技和人才的优势,基于我们的技术和成套工艺装备的服务能力变成一个新的业态其实是我们特别希望能够看到的。另外能衍生出一些把材料,更多的物质科学、物质制造能够衍生出CRO、CDMO的业态来。


第三,AI4S的Science再拓展一点,更多从生产制造这个流程也会大大加速。特别简单的例子,医药健康,原来生产制造环境是高度监管的,是要经常做消杀,处理维护成本比较高,将来都会是无人化生产,药品监管部门不需要去现场监管,完全可以做到非现场执法,这样一些业态就特别适合我们现在一个对高质量发展的追求,这也是北京特别希望跟参会各位科学家、企业家、开源社区共同里合作推进打造这么一个好的产业创新发展的生态。谢谢!


孙伟杰(深势科技):

从深势科技行业体感角度回答一下您刚才的问题。整个大的周期,AI4S这个概念被POC是2020年左右,有戈登贝尔奖,大家对这个概念已经不怀疑了。这几年整个行业大的背景还是基础设施建设,包括大家都在讨论的工具,包括大家在各个场景里应用结合的形态,包括新的商业模式的出现,其实是这几年。当基础设施有更充分的建设之后,其实科研本质上是一种对未知世界发现新成果的概率事件,当整个基础能力变强,大家做科研相关的效能提升,发现新的成果概率提升之后,很多成果在未来几年会不断涌现出来,可能会是目不暇接,我们想象不到的变化,很可能今年或明年就会发生这样的事情。


就具体行业而言,AlphaFold产生了很大的变化。我现在感觉一个正在快速发生技术变化,并且很有可能有比较大突破的可能是化学。AlphaFold其实从AI上比较容易做出突破的条件有三个:一是它的数据结构天生是比较适合被计算机、被AI表示的;二是它有比较好的有一定实验数据的积累;三是它有一个比较出名的比赛,很容易受到大家关注。这三个要素具备其实是造成它一炮而红的条件,其实这三个条件某种程度上在很多化学领域是具备的。


其实化学大家研究的事情主要是两个部分:一是必要性,这个是构效关系,不同的分子结构会产生怎样的性质;二是可行性,怎么把这个东西合成出来。这两方面,化学分子式作为一个三维结构,过去大家用计算机很难表示,在过去几年,我们用深势科技包括行业、科学智能研究院做的基于三维结构的预训练模型,已经很好解决了之前分子的结构不太容易被计算机表示的问题,所以这个技术条件具备了。二是无论构效关系,在材料、药物、化工这些方面数据的积累已经有不错的基础了,化学合成也有数据的积累,具备基础的数据积累,而且跟实验在药物、材料、化工,在很多基础领域产业上的重要性和科学上的重要性都是很强的。所以我认为可能下一个产生比较大突破的,在快速发展阶段,化学是大家值得关注的。


王铁震(Hugging Face):

我们在开源社区看到AI4S领域进展最快的,一个是数学领域,另外一个可能是从社区沟通范式的变化。我觉得有两点,一个是技术的演进方向,就是导致这个技术模型发展这么快。另外一个可能是从社区的沟通方式的变化上来说。


先说技术领域。我们发现数学领域的进展和模型本身的智能是相辅相成的关系,当这个模型被注入大量数学知识时,模型本身就会变得更聪明,变得更理性,可以解决很多复杂的问题,而且数学领域有一个非常好的特点,数学领域大量的语料,包括高考题、paper都是公开的,跟化学领域有很多。数学领域有一个形式化验证的东西,数学题的证明是可以被当成一个程序放到计算机里确定性地告诉你这个模型的输出是否对,如果这个模型输出不对,可以反过来用这个数据提高模型在数学方面的能力,所以数学就导致这些大语言模型变得更加聪明、更加理性。另一方面,大语言模型技术本身的发展,包括推理模型在回答问题之前思考得更久,反过来导致它在数学上成绩变得更好。所以数学和大模型本身相辅相成的关系就导致所有人都在花很多精力去提高模型这一块的能力。


开源社区其实给技术的发展注入了很多能量,为什么?正常一个新的技术,从产学研的角度来讲,从研究到最后部署放到用户手里是很漫长的过程,需要把一个产品磨得很完美、很极致,写一个paper,需要匿名review,增加了大家迭代时间的成本。现在AI领域的发展日新月异,不仅仅是通过开源,实际上把模型的创造过程也暴露在外面,这个模型一发出来,马上就有人拿到这个模型在不同领域去尝试,就是一个很前沿的技术模型,有不完美的东西,正好是其他更擅长处理这些问题的,现在很多AI的paper直接就写一blog,有人说我复现了OpenAI的O1,这是在以前科学合作上没有看到的。互联网这种合作实际上打破了地域的界限、打破了行业的界限,实际上都对整个数学模型在这个领域的发展有非常大的促进作用。


主持人(阿里云智能集团副总裁安筱鹏):

文章发表得这么快,科学家们也被卷起来了。Hugging Face提到了今天的模型供给侧具有某种集化效应,但是应用侧在极速普惠。我们经常理解像开源社区、开源模型重要的一个价值就像去爬珠穆朗玛峰,要从0米开始爬,但是模型跟社区的价值是有一架直升机把你从地面0米拉到了5000多米大本营,生3000米需要你自己爬,所以把整个科学应用研究的进程加速了。从Hugging Face的视角去看,中国的开源模型在全球你们看到了什么,你们有什么体会?


王铁震(Hugging Face):

这是一个很大的问题,我感觉中国开源的势头很好,大家都很关注开源,有很多公司愿意把自己的模型放出来让大家免费去尝试。包括最近DeepSeek等,其实在很多领域跟闭源越来越接近,包括前几天放出来的视频生成模型、腾讯的混元等,这是一个非常非常大的变革。大家使用AI时会有更多的选择,这是非常好的事情。


另一方面我也看到千问很注重处理一些国际模型没有太关注的地方,比如LLaMA甚至包括东南亚各种语言,这也是中国模型在这方面做得非常好的一些地方。


希望过去一年中国模型包括千问从崛起到DeepSeek的崛起,后面这一年能够继续保持,创造更多的模型,更多的普惠给开源的用户。


陈宇翔(IBM):

基本观念跟大家都是一致的,AI4S还尚处于一个爬坡早期的阶段。IBM进阶段定位成为工具爆发的时代。


这边就举两个我们公司自己做的例子,一个是实验助手。过去看到有大量的实验室记录的数据其实都是可观测的测量数据,它的实验设备大概能测量到什么就记录什么,回头拿这些数据做分析、处理、汇总。实际上在整个实验过程中会发现还有一些其他的数据丢失了,比如发现有一些化学的现象、一些生物的现象,这些是保存在一些视频里的或者是照片上的,测量数据一般到最后测量一下,得到一个结果,所以中间过程有的时候就不保留了,有的时候即便是保留,因为时间线拉不齐,也很难使用。有的时候可能还会有一些文本数据、音频数据,做实验的数据,这些东西都可以翻译成文本的。


现在实验助手是多模态大模型,把所有中间发生的数据全部把一个时间轴拉齐,拉齐以后,理解它的语义,理解它到底发生了什么,谁是因、谁是果,这个工具让我们更好地探测到一个实验的全过程,然后有更高的维度来看后面的实验数据是怎么事。做多了以后,也会有一些实验规划、实验背后的数据总结等,可能会有更好的一些解释,就是让我们更好地能读懂实验本身,而不只是看这个实验测量数据。


举例,我们有一个工具是化学方面的工具,它背后也是一个大模型,背后是上百万次的化学有机合成数据做出来的模型。目前如果给它一个有限的输入,比如给它一些材料、给它一些发生反应的条件,它就能预测出最后的结果是什么,或者我给它一个我想要的结果,它能倒推出来我应该做什么步骤能够得到这个结果,这也会帮着实验室人员可以大幅提高效率。而且有的时候对大量的实验只要做得足够多,就有点像在一个未知空间(黑屋子)做探索,可能探索了一千次仍然没有找到你想要的,但实际上已经很近了,模型可以帮助你策划下一次探索往哪个方向最有可能。虽然现在还没有摸到,但是已经差不多要“看见”了,模型可能看见了,但是人还未看见,模型可以帮助你做这些方面的分析。


所以有的时候它还可以做一些原因的分析,比如做了一千次,八百次成功了,两百次失败了,到底是为什么失败。我就分享到这里。


金鑫(华大生命科学研究院):

我从一个不同的角度来观察这件事情,我们去年以来一直在讨论对于人类的大语言模型已经耗尽了互联网上所有的数据,大家讨论合成数据等方法,但是到生命领域,情况完全不同,现在生命里被数字化是远远不够的,这个过程中间,我们数字化工具和能力也是远远不足的。生命是序列的,但生命不是自然而然直接能变成序列的,需要一个解析它的工具,我们正在研发这一系列的工具。在这个场景之下,相信除了自动化的场景、相关体系之外,我们对于包括生命在内的物理世界进行数字化的工具和能力也会有非常大的发展空间。




议题三:面临的挑战及建议









请到「今天看啥」查看全文