从不可能,到数十年,再到如今的「即将发生」,
通用人工智能(AGI)到来的时间,似乎离我们越来越近了。
前不久,OpenAI 首席执行官 Sam Altman 也在个人博客中写道,“我们现在确信,我们已经知道如何构建我们传统上理解的 AGI 了。”
然而,对于这一定义依然不清晰的技术词汇,
人工智能(AI)行业“内部人士”做出的大胆预测,是否可信呢?
即使撇开人类的「私心」,且预测是可靠的,人类采用和适应这一技术的速度也或许被高估了。
也就是说,
AGI 或许并不会如洪水般迅速涌入我们的日常生活
。
日前,
宾夕法尼亚大学沃顿商学院教授
Ethan Mollick
在题为“
Prophecies of the Flood
”的文章中阐述了上述观点。他言辞犀利地表示:
我们不相信这些“内部人士”的理由有很多,因为他们在做出这些大胆预测时,是有明确的动机的:他们在筹集资金、提高股票估值,或许也想试图说服自己相信自己的历史重要性。他们是技术专家,不是预言家,而历史上(很多)充满自信的宣言,被证明早了几十年。
尽管如此,Mollick 教授在谈到 agent 时表示,“过去几周的情况表明,实用的 agent,至少在狭义但具有重要经济意义的领域,现在是可行的......如果通用 agent 系统能够可靠、安全地工作,将真正改变一切。
此外,他还以“水獭在飞机上使用 wifi”的案例展示了多模态模型的快速进展。
最后,他在博客文章末尾写道,“即将到来的智能洪流本质上并无好坏之分——但
我们如何做好准备
、
如何适应它
,以及最重要的是,我们
如何选择使用它
,将决定它是进步还是破坏的力量。”
学术头条在不改变原文大意的情况下,对整体内容做了精编,如下:
最近,人工智能(AI)行业发生了一些变化。
研究人员开始迫切谈论超级聪明的 AI 系统的到来,好似智能如洪水一般正在涌来(a flood of intelligence)。不是在遥远的未来,而是即将发生。
他们经常提到通用人工智能(AGI)——尽管定义依然不够精确,但大致是指“机器能够在大多数智力任务上都能胜过人类专家”。他们认为,这种可以「按需」展示出的智能将会深刻地改变社会,而且很快就会实现。
图|Sam Altman、Dario Amodei 等人近期预测,超级聪明的 AI 系统将很快到来。
我们不相信这些“内部人士”的理由有很多,因为他们在做出这些大胆预测时,是有明确的动机的:他们在筹集资金、提高股票估值,或许也想试图说服自己相信自己的历史重要性。他们是技术专家,不是预言家,而历史上(很多)充满自信的宣言,被证明早了几十年。
即使撇开人类的这些「私心」不谈,底层技术的实际表现也是我们保持怀疑的理由。尽管目前的大语言模型(LLM)展现出了强大的能力,但从根本上说仍然是一种不一致(inconsistent)的工具——在某些任务上表现出色,而在看似简单的任务上却略显拉垮。这种“锯齿状边界”(jagged frontier)是当前人工智能系统的一个核心特征,不太容易被轻易磨平。
另外,即使假设研究人员关于“AGI 将在未来一两年内到来”的预测是正确的,他们也很可能高估了人类采用和适应一项技术的速度。一个组织的变革需要很长时间。工作、生活和教育体制的变革则更为缓慢。在世界上找到这项技术的重要具体用途,这本身就是一个缓慢的过程。
我们或许现在就实现了 AGI,而大多数人都不会注意到(事实上,一些观察家认为这种情况已经发生,他们认为 Claude 3.5 等最新的人工智能模型实际上就是 AGI)。
然而,将这些预测斥为纯粹的炒作可能并没有太大意义。无论动机如何,人工智能实验室的研究人员和工程师们似乎真的相信,他们正在见证一些前所未有的事物的出现。
他们的这种坚定本身影响并不大——只是,越来越多的公开基准和演示开始暗示,为什么他们可能认为我们正在接近人工智能能力的根本转变。水涨船高的速度似乎快于预期。
单凭他们的确信并不重要--除非越来越多的公开基准和演示开始暗示,为什么他们会相信我们正在接近人工智能能力的根本性转变。水上涨的速度,似乎比预期的要快。
水位涨到哪了?
引发最多猜测的事件是,OpenAI 在去年 12 月底发布了一款名为 o3 的新模型。除了 OpenAI 之外,还没有其他人真正使用过这个系统,但它是 o1 的继任者,而 o1 已经给人们留下了深刻印象。
o3 模型是新一代“推理模型”之一,在正式回答问题之前会花费更多时间进行“思考”,这大大提高了它们解决更困难问题的能力。OpenAI 为 o3 展示了许多令人吃惊的基准测试,表明 o3 比 o1 更强,实际上,甚至超过了我们认为的 SOTA 人工智能的水平。有三个基准尤其值得关注。
第一项测试名为“GPQA”(Graduate-Level Google-Proof Q&A),是通过一系列的选择题来测试高层次的知识,即使是谷歌也无法提供帮助。在这项测试中,在互联网的帮助下,人类博士答对了 34% 的专业外问题,答对了 81% 的专业内问题。经过测试,o3 首次以 87% 的正确率击败了人类专家。
第二项基准是 FrontierMath,这是一组由数学家构建的难以解决的数学问题,事实上,没有一个人工智能的正确率能超过 2%,直到 o3 出现,它的正确率达到了 25%。
最后一个基准是 ARC-AGI,这是一个著名的流体智能测试,其设计对人类来说相对容易,但对人工智能来说却很难。同样,o3 在这项测试中击败了所有以前的人工智能以及人类基准水平,得分率达到了 87.5%。
所有这些测试都有重要的“注意事项”,但它们表明,我们以前认为无法逾越的人工智能性能障碍,实际上可能很快就会被打破。
1.agent
随着人工智能模型变得越来越聪明,它们也会成为更有效的 agent。“agent”是又一个没有清晰定义(ill-defined)的术语(看出什么规律了吗?),一般指人工智能具有自主行动的能力,从而实现一系列目标。过去几周的情况表明,实用的 agent,至少在狭义但具有重要经济意义的领域,现在是可行的。
谷歌 Gemini 的 Deep Research,是一个很好的例子。它实际上是一个专门的研究 agent。我给了它一个主题,比如“从创始人的角度出发,针对高增长企业,对初创公司的融资方式进行比较研究”。在几分钟内阅读完 173 个(!)网站后,它就想出了一个计划,并为我编制了一份报告,给出了答案。
最终结果是:一个 17 页的报告,足足有 118 篇参考文献!
但这有什么用吗?我在沃顿商学院教授创业学入门课程已经十多年了,发表过相关的作品,自己也创办过公司,甚至还写过一本关于创业学的书。最大的问题不在于准确性,而在于 agent 仅限于公开的非付费网站,而非学术或高级出版物。此外,它给出的内容也十分浅显,在相互矛盾的证据面前,没有提出有力的论据。虽然比不上最优秀的人类,但也比我看到的很多报告要好。
尽管如此,这仍然是一个具有真正价值的、颠覆性的 agent 案例。研究和撰写报告是许多工作的主要任务。Deep Research 在三分钟内完成的工作,人类可能要花上好几个小时,尽管他们可能会添加更多细致入微的分析。
有鉴于此,作为一个起点,任何撰写研究报告的人或许都应该尝试一下 Deep Research,看看它是如何工作的,尽管一份好的最终报告仍然需要人工帮助。
我曾有机会与 Deep Research 项目的负责人交谈,得知这只是一个小团队的试点项目。因此,我猜想,其他团队和公司如果受到激励,也能创造出狭义但有效的 agent。狭义 agent 现在是一种真实的产品,而不是一种未来的可能性。现在已经有很多编码 agent,你还可以使用实验性开源 agent 进行科学和金融研究。
狭义 agent 专门从事特定任务,这意味着它们的能力在一定程度上是有限的。这就提出了一个问题:我们是否很快就能看到通用 agent,你可以向人工智能询问任何事情,它都会利用计算机和互联网来完成。尽管 Altman 已经提出了他的观点,但 Simon Willison 却并不认同。随着时间的推移,我们将了解到更多,但如果通用 agent 系统能够可靠、安全地工作,这将真正改变一切,因为它允许聪明的人工智能在世界上采取行动。
2.许多更小的进步正在发生
agent 和非常聪明的模型是变革性人工智能所需的核心要素,但还有许多其他要素似乎也在快速进步。这包括人工智能可以记住多少(上下文窗口)和允许它们能看和能说的多模态能力方面的进展。回顾一下过去,对了解进展情况会有所帮助。
例如,在 ChatGPT 问世之前,我就一直在使用“水獭在飞机上使用 wifi”这一提示词(prompt)来测试图像和视频模型。2023 年 10 月,这个提示词带来了这个可怕的怪物。