专栏名称: 苇草智酷
让天下思想者连接起来
目录
相关文章推荐
吴大看楼市  ·  保利琶洲南,并非真正意义的「琶洲之王」 ·  16 小时前  
财宝宝  ·  我的赚钱心法。 ... ·  2 天前  
51好读  ›  专栏  ›  苇草智酷

王坚院士AI4S大会演讲全文:科学新范式与开放科学

苇草智酷  · 公众号  ·  · 2025-02-28 17:58

正文


作者 | 王坚 中国工程院院士、之江实验室主任、阿里云创始人

转自 | 阿里研究院


本文为王坚院士在“人工智能赋能科学研究”研讨会(AI4S大会)的发言实录,本次大会由世界互联网大会人工智能专业委员会主办,阿里巴巴集团承办。



我的演讲中文名为“科学范式与开放科学”,但英文译为“Computing, AI and The Third Paradigm”,两者存在不对称性,这种不对称现象在许多活动中普遍存在。讨论会议主题时,提到今天的会议称为AI4S,中文标题是“人工智能赋能科学研究”,而英文为AI4S。尽管许多地方将AI4S翻译为“科学智能”,国外学者认为这是研究的第五范式。因此,对于这一概念尚未形成统一认识,这种不统一恰恰体现变革的特点。


关于开放科学,其本质并非简单地将现有科学体系公开,而是对已形成的科研体系提出新的看法。当前科研体系趋于固化甚至垄断化,成为发展中国家及更多参与者的壁垒。因此,开放科学旨在重新构建科研体系,探讨如何进行科学研究和交流。虽然开放科学讨论已久,但其背后逻辑复杂,人工智能已成为探讨这一问题的重要手段。



开放科学这件事情广为讨论,同样人工智能就变成了今天我们来探讨这件事情非常重要的手段,我们国家在搞人工智能+行动计划时,就会有“人工智能+科学”的说法。今天不但有AI4S,还有很多其他,但是关于科学范式依然值得被讨论。


科学范式这一理念已被接受的,但对于经历了哪些范式以及当前所处阶段仍存争议。以个人见解,第三范式引入计算机模拟,第四范式为数据驱动,而第五范式则与人工智能密切相关。然而,第三范式尚未完全成熟,对学科的影响不够深入。数据驱动范式也未真正形成。有一本书叫《第四范式—数据驱动范式》(Tony Hey),本书是为了纪念当年最早提出数据驱动范式的一位学者Jim Gray,有幸进行交流。很不幸的是,他在旧金山海湾出海时神奇的消失了,也不知道去哪儿,到今天为止,他夫人只愿意承认他失踪了,此书也是为了纪念他出的,但书中并未明确阐述范式的具体内涵。在第五范式,用得比较多的还是AI4S这一逻辑,但也并没有把这次科学的变革性讲出来,那么今天如何来理解这件事情?要思考在当前语境下,讨论数据和计算离不开互联网。同样,今天也离不开互联网来讲人工智能,所以站在我的角度看,今天的互联网作为基础设施,把所有的问题往前大大推进了一把,这是今天的问题。


人工智能如果最简单地讲,就是数据碰上了模型,模 型碰上了计算,也就是说数据+模型+计算。从这个 角度来讲,事实上互联网是所有这些东西的基础,当 然现在人工智能包括数据、模型和计算都跟互联网非 常相同一致,甚至说是一模一样的特征,所以当时互 联网之所以不是网络或者是简单的网络,就是因为它 的规模。


此次开放带来了深刻的变化。过去两年中,我提到的 “开源”概念在DeepSeek的出现下得到了验证。传统 的开源以代码为核心(Open Source Code),但 如今已简化为“开源”,其本质逐渐扩展。在人工智能 阶段,知识与财富已不再局限于源代码,因此我提出 “Open Resource Innovation”这一概念,即科技资 源的全面开放。这里的资源不仅包括代码,还涵盖数 据、方法论等多方面内容。我非常提倡开源的精神 是一个人、一个机构、一个国家对社会的贡献,是对 全世界的贡献,现在事实上到了人工智能阶段,到了 数据时代,已经不能用简单的Open Source Code来表达,因为你最重要的财富、知识已经不是简单在Source  Code里体显出来。 所以我觉得今天创新有一个非常大的特点,我把它叫 做Open Resource Innovation,也就是说要把科 技资源开放出来。


今年1月,美国在出口管制中首次将大语言模型权重 纳入管控范围,这表明权重已成为一种重要资源。开 放权重不仅是技术进步的关键,更是科研资源共享的 重要体现。当前,无论是在世界还是在中国,我们正 处在一个开放资源创新的时代,中国在此领域拥有独 特机会,DeepSeek通过MIT许可协议开放资源,为 全球提供了示范。


如果说一定是原来开放科学给大家推动的一个非常重 要的结果,大家明白了一件事情,一篇论文可以不发 表就可以给大家看的,这也是因为这次模型的开放使 得大家看到最新的论文不是在过去所谓的很正统的杂 志上发表,当DeepSeek出来的时候,《自然杂志》 这么一个科学杂志在一个星期以内发表了五篇文章, 大家今天都说不清楚,它到底是科学发现还是技术发 明,还是工程创造,每个人有不同的见解,其中有一 篇文章很认真地讲了不仅是DeepSeek,还有千问等 对科学的研究有没有推动作用。从《自然杂志》的角 度讲,不是想这个东西到底做得好还是坏,想到的是 这个东西能不能推动科技的发展。所以我“赋能”这个词是低估了人工智能对科学的颠覆,人工智能不是一次工具的革命,是一次科学革命的工具或者是科学革命性的工具。


在十天以前,当MIT的几位学者看到了因为中国而带来的这些变化,会觉得基础模型的能力,不只是一家公司或者一家拿了那么多钱的公司才可以作出那么好的基础模型,这对大家是非常大的鼓舞,所以MIT的教授就开始说人工智能已经变成了一个通用的语言,它会打破我们所有学科之间的壁垒,这个时候我个人觉得可能就是一种新的范式是真正存在了。


数据驱动,在2008年做云计算时,在云计算前面加了一个定语,“数据驱动云计算”,在那个时候大部分人讲云计算的时候,事实上是以IT为中心的云计算,那句话是影响架构的。今天人工智能没有撇开数据和计算,真正把这件事情拿出来的东西是模型,或者是技术模型,技术模型回到做计算的角度(非常广泛的计算),模型也是计算。在历史上有人也会争议,计算就是智能。所以在我看来,第三、第四、第五范式到今天是有机会变成真正的第三范式,我把它叫做计算范式。我觉得这是一个巨大的探索机会,因为今天没有办法离开computation来谈人工智能,不能离开数据谈人工智能,不能离开模型谈人工智能,所以这是非常好的机会,是历史上真正有意义的范式能够改变这次科学研究所有的事情。


当年美国对工程教育的担心,使他们提出了一个概念叫STEM(即科学、技术、工程、数学),当时我们在讨论,到底数学是不是科学?当时为什么要把数学单独拿出来?是因为他们觉得科学是Science、Technology、Engineering的共同语言,这不是并列,是数学把这些东西都连在一起了,所以把它单独拿出来。而到了人工智能时代,STEM发生了变化,这个变化是什么?就是数学来统一这些东西就没有那么简单了,变成了一个东西叫MAP,什么叫MAP?M还是数学,今天有一个A出来了,就是AI,也就是AI会贯穿到科学、技术、工程。


但是为什么会有P?P字也很有意思,这也是跟着科技部做“大科学计划”时提出来的,总书记在很多地方讲过“中国要为世界提供公共产品”。所以大家可以认真想一下,过去的公共产品是什么?教科书是我们的公共产品,但事实上这个世界可能做科学研究也要一个公共产品,这个P是中国要有机会为大家提供一个科学研究的公共产品,所以今天如果真的要把所有的能力都发挥出来,包括AI的能力都发挥出来,那是需要有一个公共产品来支撑的,在OpenAI里有时候叫做infrastructure,也就是他觉得Open Science需要infrastructure,所以我相信当数学、人工智能和infrastructure都结合好的时候,科学研究的公共产品就出来了,而这个公共产品是面向全世界人服务的,而不是像过去一样就是几个科学家所拥有的,慢慢这样一个工具就变成了大家的工具,这一点非常像巴赫在思考奥运会人工智能的角度,他想得非常清楚,他讲了一件非常重要的事情,即人工智能应该来帮助运动员。人工智能帮助运动员最重要的结果是什么?相同身体素质的运动员可以出同样的成绩,而不是因为那个教练好一点、教练贵一点,就出同样的成绩。我相信当STE+MAP时,最后是每个人的创造力决定了他能不能出最好的科研成果,而不是简单的那个人能不能拥有一些别人拥有不到的科研资源而能够出更好的成绩。


所以我相信如果我们能够把这样一个技术用好,我自己觉得这就是Open Resource Innovation,再也没有人可以把真正的科技创新资源放在一个非常少的圈子里能做到这些事情,这可能也是这件事情的意义以及它的价值所在,无论是我个人,还是之江实验室去推动,真的可以在中国乃至世界上做好这件事。






苇草智酷简介——







请到「今天看啥」查看全文