专栏名称: AI科技大本营
为AI领域从业者提供人工智能领域热点报道和海量重磅访谈;面向技术人员,提供AI技术领域前沿研究进展和技术成长路线;面向垂直企业,实现行业应用与技术创新的对接。全方位触及人工智能时代,连接AI技术的创造者和使用者。
目录
相关文章推荐
独角兽智库  ·  阶跃星辰大模型(StepAI)概念股 ·  22 小时前  
独角兽智库  ·  国资委深化央企“AI+”专项行动:国资云迎千 ... ·  22 小时前  
我是腾腾爸  ·  亮瞎眼了! ·  昨天  
经纬创投  ·  从 Northvolt ... ·  2 天前  
产业互联网大视野  ·  DeepSeek研讨会来了!一起相约北上杭深 ... ·  2 天前  
51好读  ›  专栏  ›  AI科技大本营

沈向洋:大模型时代,中国人有机会创造下一个现象级编程语言

AI科技大本营  · 公众号  ·  · 2024-11-22 19:12

正文

继 Fortran、C、Java、Python 之后,AI 时代的现象级编程语言会是什么?

作者 | 沈向洋

整理 | 《新程序员》编辑部
出品丨AI 科技大本营(ID:rgznai100)

在计算机科学 70 年的发展历程中,只出现过不到十个真正的“ 现象级 ”编程语言——即拥有数百万甚至上千万用户的语言。每一个时代的技术变革,都会催生出相应的主导语言:大型机时代的 Fortran、操作系统时代的 C/C++、互联网时代的 Java,以及云计算与数据科学时代的 Python。

如今,随着以 ChatGPT 为代表的大模型技术引发新一轮技术革命,我们不禁要问: AI 时代会诞生怎样的编程语言? GitHub Copilot 的主创 Alex Graveley 曾经指出,尽管 AI 正在改变代码的编写方式,但真正适应 AI 时代特点的编程语言范式还没有出现。

11 月 22 日,在深圳举办的 2024 IDEA 大会上, IDEA 研究院创院理事长、美国国家工程院外籍院士沈向洋 发表了题为《从技术突破到产业融合》的演讲。在演讲中,他提出以上的深邃思考,并指出了一个更值得注意的事实:“ 在过去所有广受欢迎的编程语言中,还没有一个是由中国开发者创造的。

大模型浪潮爆发,这个历史性的机遇正在到来。就像 C 语言与 Unix 系统的共生关系那样,新时代的编程语言必将与 AI 技术产生深度融合。它不仅要能够更好地表达 AI 的思维方式,还要能够充分利用 AI 的能力来提升开发效率。这将是一个全新的赛道,中国开发者同样有机会在这个领域做出开创性贡献。

作为见证了多个技术时代变迁的资深科学家, 沈向洋在演讲中还 分享了对 AI 时代技术创新的许多深刻思考:

  • “编程语言的变迁总是与技术革命相伴相生。就像 Unix 系统与 C 语言的关系,Web 服务器与 Java 的关系那样, AI 时代也必将催生新的编程范式。

  • ChatGPT 展示了一种新的可能: 当技术突破达到一定程度, 可以跳过传统的产品市场匹配(PMF)过程,直接实现技术市场匹配(TMF)。

  • 从算 力来看, 未来十年 AI 的发展可能需要增长 100 万倍的算力,远超摩尔定律预言的 100 倍增长。

  • AI 正在改变科研方式。 从「 确定方向 」(ARCH)到「 选择课题 」(Search),再到「 入研究 」(Research), 每个环节都将被重塑。

以下是沈向洋演讲的主要内容,CSDN 精编整理了其中最引人深思的部分,欢迎在评论区分享 您的真知灼见:

人工智能发展的「三件套」

今天是 IDEA 研究院在深圳举办的第四届 IDEA 大会。回顾发展历程,三年前的第一届大会上,IDEA 首次向公众展示了研究院的工作成果。在第二届大会上,我们邀请了李泽湘教授、徐扬生教授、高文教授等学界翘楚进行深入对话。值得一提的是,这些学者都是我 90 年代初赴美留学时最早结识的中国学者。三十年后我们能在深圳重聚,恰恰印证了深圳作为创新创业热土的独特魅力。

经过四年发展,IDEA 研究院已发展成拥有 7 个研究中心、约 45 0 名员工的科研机构。 过去几年,人工智能的蓬勃发展让整个行业充满憧憬和期待。 在人工智能发展进程中,“ 算力、算法、数据 ”这「三件套」始终是核心要素。 接下来,我将从这三个方面,详细分享自己的观察和思考。

算力:从“摩尔定律”到“黄氏定律”

首先从算力说起。作为计算机领域的从业者,我们一直见证着整个计算行业过去四五十年来算力的不断提升。早期有著名的 摩尔定律 ,英特尔提出每 18 个月算力增长一倍。但在过去十几年,随着人工智能特别是深度学习的发展,对算力的需求呈现出前所未有的增长态势。

根据 EPOCH AI 的数据,每年最新的大模型对算力的需求都在以惊人的速度增长,年均增长率超过四倍。这个数字意味着什么?如果按照这个增长速度, 十年间算力需求的增长将达到惊人的 100 万倍。相比之下,传统的摩尔定律下 18 个月翻一倍的增长,十年也不过是 100 倍的增长。

这种算力需求的爆发式增长,使得 GPU 厂商英伟达成为了 IT 行业和人工智能领域最成功的公司之一。英伟达已经从一家单纯的硬件芯片供应商,转变为整个行业的核心支柱。现在行业里流传着这样一句话:“ 拿得到英伟达的卡,就成功了一半。

让我们看看具体的数据:2023 年英伟达最新产品 H100 的出货量持续攀升,各大公司争相采购。包括马斯克最近就部署了一个拥有 10 万张 H100 卡的大规模集群。到 2024 年为止,微软、谷歌、亚马逊等科技巨头都在大量采购 H100 芯片。

为什么需要如此庞大的算力?这与大模型的发展密不可分。大模型不仅参数量巨大(从百亿到千亿,再到万亿参数),而且训练所需的数据量也在不断增长。更关键的是,要提升模型性能,对算力的需求会随参数量呈平方关系增长。这就解释了为什么过去十年英伟达的市值能够增长 300 倍,也说明了“ 算力就是生产力 ”这一论断的深刻含义。

在人才招聘方面,算力资源已经成为一个重要指标。有些企业会以“ 千卡人才 ”、“ 百卡人才 ”来形容人才规模,真正顶尖的甚至被称为“ 万卡人才 ”。IDEA 研究院在深圳市政府的支持下,已经拥有了上千张显卡的算力储备,在深圳算得上是“ 小土豪 ”级别的规模。

这种算力需求的变革被业界称为 从“ 摩尔定律 ”到“ 黄氏定律 ”的转变 。黄氏定律不仅体现在硬件算力的增长上,更重要的是反映了模型训练对算力需求的指数级增长。未来十年的算力需求是否会继续保持如此惊人的增长速度,这个问题值得我们持续关注和思考。

算法:从“预训练”到“强化学习”

在算法方面,自 2017 年 Transformer 架构问世以来,人工智能、深度学习和大模型的发展基本上都是沿着这个方向,通过堆数据和算力来推进。但在 GPT-4 之后,我们看到了算法范式的新突破。特别是 OpenAI 推出的新技术,包括多模态的 GPT-4V 以及最新的 o1 推理学习能力,展现了算法创新的新方向。令人欣喜的是,近几个月来,国内也有一些公司,包括初创企业在 o1 这个方向上取得了显著进展。

这里我想详细介绍一下算法突破的思路。在 o1 出现之前,大家谈论的都是 GPT 系列,所有的工作都集中在 预训练 上,核心任务就是预测“ 下一个token ”。其中很重要的技术背景是对所有数据进行高效压缩,使模型能够快速给出答案,实现“ 一问即答 ”。

而现在的范式变革引入了 强化学习 (Reinforcement Learning)的理念,模型具备了自我改善的能力。这种新方法的特点在于,它更接近人类的思考方式。不同于之前的快速思考模式,现在的模型在给出答案时会经历后训练、后推理的过程。这就像学生在解数学题时会先打草稿,验证一条路径是否正确,如果不对就回退尝试另一条路径。

虽然强化学习本身并不是一个新概念——比如几年前 AlphaGo 就使用 强化学 打败了围棋世界冠军——但今天的创新在于它的通用性。过去的 强化学 系统往往只能解决单一问题,而像 o1 这样的新系统可以同时处理数据分析、编程、物理、化学等多个领域的问题。我认为,在未来几年,沿着 Self-Reinforcement Learning (SRL) 这条道路,我们将看到更多令人惊艳的突破,期待 IDEA 研究院和国内的研究人员能在这个方向上有更多的思考和创新。

数据:从“存量”到“合成”

在讨论数据之前,我已经提到大模型的蓬勃发展不仅依赖于参数规模的增长,还需要海量数据的支持。让我和大家分享一些关于数据规模的具体数据。

三年前 GPT-3 发布时,使用了 2T(2 万亿)的 token 数据。到了 GPT-4 时代,模型训练使用的数据量增加到了 12T,在不断训练过程中可能达到了 20T。这个规模大致相当于目前互联网上可获取的优质数据总量。而未来如果 GPT-5 问世,按照我的估计,可能需要 200T 规模的数据。但问题在于,互联网上已经很难找到如此庞大的优质数据。这就引出了一个新的研究方向: 合成数据

为了让大家对这些数据规模有更直观的认识,我举几个例子:1 万亿 token 的数据量大约相当于 500 万本书,或 20 万张高清照片,或 500 万篇论文。从人类历史的角度来看,至今为止创造的所有书籍大约包含 21 亿 token,微博上有 38 亿 token,而 Facebook 上约有 140T 的数据。不过社交媒体上的数据质量普遍不够高,真正有价值的内容相对有限。

从个人维度来看,一个人读完大学,真正学到的知识量大约是 0.00018T,相当于 1000 本书的内容。如果觉得自己还没读到这个量级,也许现在开始该多读些书了。

有趣的是,ChatGPT 等 AI 模型的训练数据主要来自互联网。回顾互联网发展的 40 年,人们热衷于在网上分享信息,现在看来,似乎是在为 GPT 的训练做准备。 AI 之所以如此智能,很大程度上得益于我们贡献的数据。 这其中还有一个值得注意的现象:无论训练哪种语言的 AI 模型,底层的高质量数据主要是英文的。这意味着在 AI 时代,英语的重要性可能会进一步加强,就像互联网时代一样。

既然网上的数据已接近极限,AI 的进一步发展就需要依靠合成数据,这可能催生新的百亿美元级创业机会。

与 GPT 系列主要使用互联网文本数据不同,新一代模型(如 o1)需要更强的逻辑性,这些数据在网上往往找不到。 比如在编程领域,我们需要知道具体的步骤是如何一步步完成的。在 IDEA 研究院,在郭院长的带领下,我们开展了高质量训练数据的项目,为大模型持续提供新的“ 养分 ”。

我们的合成数据方法并非盲目生成,而是建立在严谨的方法论基础上。我们首先建立语境图谱,在此基础上进行数据合成。这些合成数据经过大模型预训练后,已经展现出很好的效果。

除此之外,我们还在探索另一个维度的问题: 私域数据安全孤岛 。由于数据安全考虑,许多私域数据无法直接共享使用。为此,我们开发了 IDEA Data Maker,将这两个方面结合起来,通过语境图谱生成新的语料,解决过往文本数据合成方案的多样性匮乏等问题。该技术为合成数据引入“指导手册”,以图谱为纲,指导用于合成的语境采样。实验结果显示,IDEA 团队的方案能持续为大模型带来能力提升,表现超过目前的最佳实践(SOTA)模型;从 token 消耗来看,平均节约成本 85.7%。目前,该技术内测平台已开放,通过 API 提供服务。

大模型时代的机遇:从 PMF 到 TMF

在讨论了 AI 发展的「 三件套 」之后,我想分享 IDEA 研究院近一年来的思考和实践。特别是大模型蓬勃发展给我们带来的机遇。

ChatGPT 的出现给我们带来了深刻启示——它在推出后仅用两个月时间就吸引了全球 1 亿用户,成为一个令人瞩目的技术现象。这种现象打破了我们对产品发展的传统认知。在互联网时代,我们常说 PMF(Product-Market Fit,产品市场匹配)。对这个概念的理解,我多次请教过美团的王慧文,在清华的一堂课上,他专门讲解了 PMF 的内涵。

但 ChatGPT 的成功告诉我们, 它实际上跳过了 PMF 的过程,直接实现了TMF(Technology-Market Fit,技术市场匹配) 。当技术发展到一定程度,就可能实现这样的跨越式突破。在 IDEA,我们天天在追求一些极致的技术,也在思考:如果有技术出来,是否可以一步到位?这当然是我们的期望,我们一直在朝这个方向努力。

顺着 TMF 的思路,我想讲一个最近我们特别关注的方向:计算机编程语言。作为一个学习计算机的人,我自己就编写过十几种不同的编程语言,在不同的阶段做不同的项目时都会用到它们。

在这里我想提出一个重要观点: 纵观全球,有那么多的编程语言,包括小语言、大语言、中型语言,但基本上没有一个被广泛使用的语言是由中国人发明、中国人创造的。这种现象是有机会改变的。

让我给大家举几个例子,说明什么是现象级的语言。在过去七八十年的计算机科学发展历程中,出现过的现象级语言不超过十个。这里的“ 现象级 ”是指至少有几百万、上千万用户在使用这个语言编程。比如早期的 Fortran,当时是和 IBM 大型机绑定的,做三角计算都要用 Fortran 语言。70 年代出现的 C 语言,是与 Unix 操作系统紧密相连的,甚至可以说 Unix 系统就是用 C 语言构建的。到了 90 年代互联网兴起时,我师兄开发的 Java 语言被大量程序员采用,主要用于开发 Web 服务器。而在过去十几年,Python 因为在科学计算方面的便利性,特别是在云计算平台上的广泛应用,成为主流语言。如果你问问自己的孩子在学什么编程语言,大概率会是 Python。







请到「今天看啥」查看全文