不管这个词到底是什么意思,AI Agents 总会给人一种「即将成真」的感觉。
撇开术语不谈,我对它们的实用性持怀疑态度,原因还是一个老问题:大语言模型很容易「轻信」,它会照单全收你告诉它的一切。
这就暴露出一个关键问题:如果一个决策辅助系统连真假都分不清,它还能发挥多大作用?无论是旅行顾问、生活助手,还是研究工具,都会因为这个缺陷而大打折扣。
最近就有一个现成的例子:就在前几天,谷歌搜索闹了个大乌龙。它把粉丝创作网站上一个虚构的《魔法满屋 2》剧情,当成了真实电影来介绍。
提示注入就是这种「轻信」的必然结果。自 2022 年 9 月以来我们一直在讨论这个问题,但 2024 年在解决这个问题上,几乎没有什么进展。
我开始觉得,最流行的 AI Agents 概念其实依赖于通用人工智能的实现。要让一个模型能够抵抗「轻信」,这真是个艰巨的任务。
Anthropic 的 Amanda Askell(负责 Claude 性格塑造的主要工作者)说:
系统提示背后那个无聊但至关重要的秘密就是用测试驱动开发。你不是先写一个系统提示,然后再想办法测试它,而是先写好测试,然后找到一个能通过这些测试的系统提示。
2024 年的经验告诉我们:在大语言模型应用领域,最重要的核心竞争力是什么?是一套完善的自动化评估系统。
为什么这么说?因为有了它,你就能:抢占先机,快人一步采用新模型,加速迭代,不断优化产品,确保功能既可靠又实用。
Vercel 的 Malte Ubl 说:
当 @v0 刚推出时,我们非常担心要用各种预处理和后处理的复杂操作来保护提示。
于是我们彻底转变思路,给了它充分的发挥空间。但很快就发现:没有评估标准、没有模型指导、更没有用户体验的提示,就像拿到一台没说明书的 ASML 机器 —— 就算再先进,也无从下手。
我还在探索最适合自己的工作模式。评估的重要性已是共识,但「如何做好评估」这个问题却仍然缺乏系统性的指导。我一直在通过评估标签追踪这方面的进展。我现在用的「鹈鹕骑自行车」SVG 基准测试,与那些成熟的评估套件相比,还有很长的路要走。
Apple Intelligence 很糟糕,但 MLX 库很出色
去年,因为没有配备 NVIDIA GPU 的 Linux/Windows 机器,我在尝试新模型的时候遇到了不少阻碍。
从配置上看,64GB 的 Mac 本应该是运行 AI 模型的理想之选 —— CPU 和 GPU 共享内存的设计堪称完美。
但现实很残酷:当下的 AI 模型在发布时,基本都是以模型权重和开发库的形式推出,而这些几乎只适配 NVIDIA 的 CUDA 平台。
llama.cpp 生态系统在这方面帮了大忙,但真正的突破是苹果的 MLX 库,这是一个「专为 Apple Silicon 设计的数组框架」。它真的很棒。
苹果的 mlx-lm Python 支持在我的 Mac 上运行各种 MLX 兼容的模型,性能非常出色。Hugging Face 上的 mlx-community 提供了超过 1000 个已转换为必要格式的模型。
Prince Canuma 开发的优秀且发展迅速的 mlx-vlm 项目也把视觉大语言模型带到了 Apple Silicon 上。我最近用它运行了 Qwen 的 QvQ。
虽然 MLX 是个改变游戏规则的东西,但苹果自己的 Apple Intelligence 功能大多令人失望。我本来非常期待 Apple Intelligence,在我的预测中,我认为苹果绘专注于做能保护用户隐私,打造让用户清晰明了、不会误解的大语言模型应用。
现在这些功能已经推出,效果相当差。作为一个大语言模型的重度用户,我知道这些模型能做什么,而苹果的大语言模型功能只是提供了一个苍白的模仿。我们得到的是曲解新闻标题的通知摘要,以及完全没用的写作助手工具,不过 emoji 生成器还是挺有意思的。
2024 年最后一个季度最有趣的进展是一种新型 LLM 的出现,以 OpenAI 的 o1 模型为代表。
要理解这些模型,可以把它们看作是「思维链提示」技巧的延伸。这个技巧最早出现在 2022 年 5 月的论文《Large Language Models are Zero-Shot Reasoners》中。
这个技巧主要在说,如果你让模型在解决问题时「大声思考」,它往往能得到一些原本想不到的结果。
o1 把这个过程进一步融入到了模型本身。具体细节有点模糊:o1 模型会花费一些「推理 token」来思考问题(用户看不到这个过程,不过 ChatGPT 界面会显示一个总结),然后给出最终答案。
这里最大的创新在于,它开创了一种新的扩展模型的方式:不单纯地通过增加训练时的计算量来提升模型性能,而是让模型在推理时投入更多计算资源来解决更难的问题。
o1 的续作 o3 在 12 月 20 日发布,o3 在 ARC-AGI 基准测试上取得了惊人成绩。不过,从 o3 的巨额推理成本来看,它可能花掉了超过 100 万美元的计算成本!
o3 预计将在 1 月份推出。但我觉得很少有人的实际问题需要这么大的计算开销,o3 也标志着 LLM 架构在处理复杂问题时迈出了实质性的一步。
OpenAI 并不是这个领域的「独角戏」。谷歌在 12 月 19 日也推出了他们的第一个类似产品:gemini-2.0-flash-thinking-exp。
阿里巴巴的 Qwen 团队在 11 月 28 日发布了他们的 QwQ 模型,我在自己电脑上就能跑。他们在 12 月 24 日又推出了一个叫 QvQ 的视觉推理模型,我也在本地运行过。
DeepSeek 在 11 月 20 日通过他们的聊天界面提供了 DeepSeek-R1-Lite-Preview 模型试用。
要深入了解推理扩展,我推荐看看 Arvind Narayanan 和 Sayash Kapoor 写的《Is AI progress slowing down?》这篇文章。
Anthropic 和 Meta 还没什么动静,不过我赌他们肯定也在开发自己的推理扩展模型。Meta 在 12 月发表了一篇相关论文《Training Large Language Models to Reason in a Continuous Latent Space》。
目前最好的 LLM 来自中国,训练成本不到 600 万美元?
不完全是,但差不多是。这的确是个吸引眼球的好标题。
今年年底的大新闻是 DeepSeek v3 的发布,它在圣诞节当天连 README 文件都没有就被放到了 Hugging Face 上,第二天就发布了文档和论文。
DeepSeek v3 是一个庞大的 685B 参数模型,是目前最大的公开授权模型之一,比 Meta 公司最大的 Llama 系列模型 Llama 3.1 405B 还要大得多。
基准测试结果表明,它与 Claude 3.5 Sonnet 不相上下。Vibe 基准测试(又称聊天机器人竞技场)目前将其排在第 7 位,仅次于 Gemini 2.0 和 OpenAI 4o/o1 型号。这是迄今为止排名最高的公开授权模型。
DeepSeek v3 真正令人印象深刻的是其训练成本。该模型在 2,788,000 个 H800 GPU 时内完成了训练,估计成本为 5,576,000 美元。Llama 3.1 405B 训练了 30,840,000 个 GPU 小时,是 DeepSeek v3 的 11 倍,但模型的基准性能却略逊一筹。
美国对中国出口 GPU 的规定似乎激发了一些非常有效的训练优化。
模型(包括托管模型和我可以在本地运行的模型)效率的提高带来了一个可喜的结果,那就是在过去几年中,运行 Prompt 的能耗和对环境的影响大大降低了。
与 GPT-3 时代相比,OpenAI 自己的提示词器收费也降低了 100 倍。我有可靠消息称,Google Gemini 和 Amazon Nova(两家最便宜的模型提供商)都没有亏本运行提示词器。
我认为这意味着,作为个人用户,我们完全不必为绝大多数提示词消耗的能源感到内疚。与在街上开车,甚至在 YouTube 上看视频相比,其影响可能微乎其微。
同样,训练也是如此。DeepSeek v3 的训练费用不到 600 万美元,这是一个非常好的迹象,表明训练成本可以而且应该继续下降。
对于效率较低的模型,我认为将其能源使用量与商业航班进行比较是非常有用的。最大的 Llama 3 模型的成本约等于从纽约到伦敦的一位数满载乘客航班。这当然不是一无是处,但一旦经过训练,该模型就可以供数百万人使用,而无需额外的训练成本。
更大的问题在于,未来这些模式所需的基础设施建设将面临巨大的竞争压力。
谷歌、Meta、微软和亚马逊等公司都在斥资数十亿美元建设新的数据中心,这对电网和环境造成了巨大影响。甚至还有人说要建立新的核电站,但这需要几十年的时间。
这些基础设施有必要吗?DeepSeek v3 的 600 万美元训练成本和 LLM 价格的持续暴跌可能暗示了这一点。但是,你是否希望自己成为一名大型科技公司的高管,在几年后证明自己的观点是错误的情况下,仍然坚持不建设这些基础设施呢?
一个有趣的比较点是,19 世纪铁路在世界各地的铺设方式。修建这些铁路需要巨额投资,并对环境造成巨大影响,而且修建的许多线路被证明是不必要的,有时不同公司的多条线路服务于完全相同的路线。
由此产生的泡沫导致了数次金融崩溃,参见维基百科中的 1873 年恐慌、1893 年恐慌、1901 年恐慌和英国的铁路狂热。它们给我们留下了大量有用的基础设施,也造成了大量破产和环境破坏。
2024 年是「泔水」一词成为艺术术语的一年。我在 5 月份写过一篇文章,对 @deepfates 的这条推文进行了扩展:
实时观察「泔水」如何成为一个艺术术语。就像「垃圾邮件」成为不受欢迎电子邮件的专有名词一样,「泔水」也将作为人工智能生成的不受欢迎内容的专有名词被载入字典。
我把这个定义稍微扩展了一下:
「泔水」指的是人工智能生成的未经请求和审查的内容。
最后,《卫报》和《纽约时报》都引用了我关于泔水的论述。
以下是我在《纽约时报》上说的话:
社会需要简明扼要的方式来谈论现代人工智能,无论是正面的还是负面的。「忽略那封邮件,它是垃圾邮件 」和「忽略那篇文章,它是泔水」都是有用的教训。
我喜欢「泔水」这个词,因为它简明扼要地概括了我们不应该使用生成式 AI 的一种方式。
「泔水」甚至还入选了 2024 年牛津年度词汇,但最终输给了「脑腐」。
「模型崩溃」的概念,似乎出人意料地在公众意识中根深蒂固。2023 年 5 月,《The Curse of Recursion: Training on Generated Data Makes Models Forget》一文首次描述了这一现象。2024 年 7 月,《自然》杂志以更醒目的标题重复了这一现象:在递归生成的数据上进行训练时,人工智能模型会崩溃。
这个想法很有诱惑力:随着人工智能生成的「泔水」充斥互联网,模型本身也会退化,将以一种导致其不可避免灭亡的方式吸收自己的输出。
这显然没有发生。相反,我们看到人工智能实验室越来越多地在合成内容上进行训练 — 有意识地创建人工数据,以帮助引导他们的模型走向正确的道路。
我所见过的对此最好的描述之一来自 Phi-4 技术报告,其中包括以下内容:
合成数据作为预训练的重要组成部分正变得越来越普遍,Phi 系列模型也一直强调合成数据的重要性。与其说合成数据是有机数据的廉价替代品,不如说合成数据与有机数据相比有几个直接优势。
结构化学习和逐步学习。在有机数据集中,token 之间的关系往往复杂而间接。可能需要许多推理步骤才能将当前标记与下一个 token 联系起来,这使得模型很难有效地学习下一个 token 的预测。相比之下,语言模型生成的每个 token 顾名思义都是由前面的标记预测的,这使得模型更容易遵循由此产生的推理模式。
另一种常见的技术是使用较大的模型为较小、较便宜的模型创建训练数据,越来越多的实验室都在使用这种技巧。DeepSeek v3 使用了 DeepSeek-R1 创建的「推理」数据。Meta 的 Llama 3.3 70B 微调使用了超过 2500 万个合成生成的示例。
精心设计进入 LLM 的训练数据似乎是创建这些模型的关键所在。从网络上抓取全部数据并不加区分地将其投入训练运行的时代已经一去不复返了。
我一直在强调,LLM 是强大的用户工具,它们是伪装成菜刀的电锯。它们看起来简单易用,给聊天机器人输入信息能有多难?但实际上,要充分利用它们并避免它们的许多陷阱,你需要有深厚的理解力和丰富的经验。
如果说在 2024 年,这个问题变得更加严重的话,好消息是我们已经建立了可以用人类语言与之对话的计算机系统,它们会回答你的问题,而且通常都能答对。这取决于问题的内容、提问的方式,以及问题是否准确地反映在未记录的秘密训练集中。
可用系统的数量激增。不同的系统有不同的工具,它们可以用来解决你的问题,比如 Python、JavaScript、网络搜索、图像生成,甚至数据库查询。所以你最好了解这些工具是什么,它们能做什么,以及如何判断 LLM 是否使用了它们。
你知道 ChatGPT 现在有两种完全不同的 Python 运行方式吗?
想要构建一个与外部 API 对话的 Claude 工件?你最好先了解一下 CSP 和 CORS HTTP 标头。
模型可能变得更强大了,但大多数限制却没有改变。OpenAI 的 o1 也许终于能大部分计算「Strawberry」中的 R,但它的能力仍然受限于其作为 LLM 的性质,以及它所运行的线束对它的限制。O1 不能进行网络搜索,也不能使用 Code Interpreter,但 GPT-4o 却可以 —— 两者都在同一个 ChatGPT UI 中。(如果你要求,o1 会假装做这些事,这是 2023 年初 URL 幻觉 bug 的回归)。
我们对此有何对策?几乎没有。
大多数用户都被扔进了深水区。默认的 LLM 聊天 UI 就像是把全新的电脑用户扔进 Linux 终端,然后指望他们自己能搞定一切。
与此同时,终端用户对这些设备的工作原理和功能所形成的不准确的心理模型也越来越常见。我见过很多这样的例子:有人试图用 ChatGPT 的截图来赢得争论 — 这本来就是一个可笑的命题,因为这些模型本来就不可靠,再加上只要你正确提示,就能让它们说任何话。
这也有一个反面:很多见多识广的人已经完全放弃了 LLM,因为他们不明白怎么会有人能从一个有如此多缺陷的工具中获益。要想最大限度地利用 LLM,关键在于学会如何使用这种既不可靠又强大无比的技术。这是一项绝对不显而易见的技能!
在这里,有用的教育内容大有可为,但我们需要做得更好,而不是将其全部外包给那些在推特上狂轰滥炸的人工智能骗子。
现在,大多数人都听说过 ChatGPT。有多少人听说过 Claude?
积极关注这些内容的人与 99% 不关注这些内容的人之间存在着巨大的知识鸿沟。
变革的速度也无济于事。就在上个月,我们看到实时界面的普及,你可以将手机摄像头对准某样东西,然后用声音谈论它...... 还可以选择让它假装成圣诞老人。大多数自我认证的 nerd 甚至还没试过这个。
鉴于这项技术对社会的持续及潜在影响,我不认为这种差距的存在是健康的。我希望看到更多的努力来改善这种状况。
很多人都非常讨厌这种东西。在我混迹的一些地方(Mastodon、Bluesky、Lobste.rs,甚至偶尔在 Hacker News),即使提出「LLM 很有用」,也足以引发一场大战。
我明白不喜欢这项技术的理由有很多:环境影响、训练数据(缺乏)道德、缺乏可靠性、负面应用、对人们工作的潜在影响。
LLM 绝对值得批评。我们需要对这些问题进行讨论,找到缓解这些问题的方法,帮助人们学会如何负责任地使用这些工具,使其正面应用大于负面影响。
我喜欢对这些东西持怀疑态度的人。两年多来,炒作的声音震耳欲聋,大量的「假冒伪劣商品」和错误信息充斥其中。很多错误的决定都是在这种炒作的基础上做出的。敢于批评是一种美德。
如果我们想让有决策权的人在如何应用这些工具方面做出正确的决定,我们首先需要承认确实有好的应用,然后帮助解释如何将这些应用付诸实践,同时避免许多非实用性的陷阱。
(如果你仍然认为根本没有什么好的应用,那我就不知道你为什么能读完这篇文章了!)。
我认为,告诉人们整个领域都是环境灾难性的剽窃机器,不断地胡编乱造,无论这代表了多少真理,都是对这些人的伤害。这里有真正的价值,但实现这种价值并不直观,需要指导。我们这些了解这些东西的人有责任帮助其他人弄明白。
参考内容:
https://simonwillison.net/2024/Dec/31/llms-in-2024/#-agents-still-haven-t-really-happened-yet