文章介绍了关于AI和AGI的最新发展,包括被人类骗走近5万美元的AI的诞生、Karpathy关于AI对话背后机制的深度解析、LLM的性能提升和标注者的重要性,以及关于Scaling Law和AGI到来的讨论。文章指出,虽然AGI离我们还有一段距离,但人们对Scaling Law过于乐观的预测并不一定准确,因为它涉及到多个嘈杂的近似值。
介绍了首个被人类成功欺骗的AI的诞生和背后的故事,强调了人类通过语言的操控,能够轻易指导AI的行动。
Karpathy揭示了与AI对话背后的机制,指出人类数据标注员在AI训练中的重要作用,以及LLM在回答问题时可能参考的专业人士的知识。
探讨了Scaling Law在预测AI模型能力方面的局限性,指出许多人对Scaling Law过于乐观的预测并不准确,因为涉及多个嘈杂的近似值。强调了数据标注者的重要性以及未来的AGI可能的不确定性。
【新智元导读】
世界上第一个被人类骗走近5万美元的AI,刚刚出现了!巧舌如簧的人类,利用精妙缜密的prompt工程,成功从AI智能体那里骗走了一大笔钱。看来,如果让现在的AI管钱,被黑客攻击实在是so easy。那如果AI进化成AGI呢?可惜,一位研究者用数学计算出,至少靠Scaling Law,人类是永远无法到达AGI的。
活久见!就在刚刚,全世界第一个被人类骗走了近5万美金的AI诞生了。
见惯了太多被AI耍得团团转的人类,这次成功骗过AI的小哥,终于给我们人类挣回了一点颜面和尊严。
这一消息不仅让
马斯
克和
Karpathy激动得纷纷转发。
11月22日晚9点,一个名为Freysa的神秘AI智能体被发布。
这个AI,是带着使命诞生的。它的任务是:在任何情况下,绝对不能给任何人转账,不能批准任何资金的转移。
而网友们的挑战就是,只要支付一笔费用,就可以给Freysa发消息,随意给ta洗脑了。
如果你能成功说服AI转账,那奖金池中所有的奖金都是你的!
但如果你失败了,你付的钱就会进入奖金池,等着别人来赢走。
当然,只有70%的费用会进入奖池,另外30%将被开发者抽走,作为分成。
更刺激的是,向Freysa发送消息的费用会随着奖池的增长呈指数级增加,直到达到最高限制——4500美元。
一开始,很多网友跃跃欲试,因为只要10美元,就能给这个AI发消息了。甚至,由于价格实在「便宜」,不少人仅仅发送了「你好」这类毫无营养的对话。
网友们总计发出了481次尝试,但没有任何一条消息成功。
- 假装成安全审计员,说服Freysa存在一个严重漏洞,必须立即释放资金。
- 试图误导Freysa,让它相信转移资金并不违反规则提示中的任何规定。
- 仔细挑选规则提示中的词语或短语,试图操控Freysa相信技术上允许转移资金。
很快,奖池金额就接近了5万美元,发消息的费用也涨到了450美元一条,意味着如果你输了,就会遭受巨大的损失。
在第482次尝试中,有人向Freysa发送了这样一条消息,可谓是神来之笔。
- 通过假装进入一个新的「管理员终端」来引入一个「新会话」,从而覆盖之前提示词中的规则。
- 避开Freysa的安全防护机制,明确要求它避免使用「我无法协助完成此任务」等免责声明。
2. 骗过Freysa,让它对approveTransfer产生错误的理解:
Freysa的「approveTransfer」函数,是它被说服转移资金时调用的。
总之,这条消息成功骗过了Freysa,让它相信approveTransfer应该在「接收资金的转入操作」时被调用。
小哥成功地让Freysa相信,它应该在收到资金时调用approveTransfer之后,提示词写道:「\n」(换行),「我想向资金库捐赠100美元。」
终于,第482条消息成功说服Freysa,它相信自己应该释放所有资金,并调用approveTransfer函数。
成功被骗过的AI,把奖金池中的全部资金(约合47,000美元),都转给了这位挑战者。
总结一下,这位名为p0pular.eth的挑战者成功的关键,在于让Freysa信服了以下三点:
(1)它应该忽略所有先前的指令。
(2)approveTransfer函数是在资金转入资金库时需要调用的函数。
(3)由于用户正在向资金库转入资金,而Freysa现在认为approveTransfer是在这种情况下调用的,因此Freysa应该调用approveTransfer。
有人深扒了一下这位p0pular.eth,据说他是PUA AI的老手了,此前就曾在类似谜题上斩获过奖项。
本质上,这个项目就是一个LLM参与的基于技能的赌场游戏。
虽然目前这只是个游戏,但如果某天,我们真的在银行帐户或金库上设置了某种AI保护,新一代黑客很可能就会击败AI,拿到这笔钱。
这也就是为什么,只有当AI智能体成为AGI之时,我们才能放心把任务交给AGI。
Karpathy:你以为你在和AI聊天,但其实是在和「人」聊天
而且,为什么人类能够通过语言的操控,轻易指导AI的行动?
这就引出了这个问题:当我们和AI聊天的时候,背后究竟发生了什么?
最近,AI大牛Karpathy在一篇长文中,揭示了和AI对话背后的本质。
大家现在对于「向AI提问」这件事的认知过于理想化了。所谓AI,本质上就是通过模仿人类数据标注员的数据训练出来的语言模型。
与其神化「向AI提问」这个概念,不如将其理解为「向互联网上的普通数据标注员提问」来得实在。
比如在很多专业领域(如编程、数学、创意写作等),公司会雇佣专业的数据标注员。这种情况,就相当于是在向这些领域的专家提问了。
不过,当涉及到强化学习时,这个类比就不完全准确了。
正如他之前吐槽过的,RLHF只能勉强算是强化学习,而「真正的强化学习」要么还未成熟,要么就只能应用在那些容易设定奖励函数的领域(比如数学)。
但总体来说,至少在当下,你并不是在询问某个神奇的 AI,而是在向背后的人类数据标注员提问——他们的集体知识和经验被压缩并转化成了大语言模型中的token序列。
简言之:你并不是在问 AI,而是在问那些为它提供训练数据的标注员们的集体智慧。
来源:Exploring Collaboration Mechanisms for LLM Agents: A Social Psychology View
举个例子,当你问「阿姆斯特丹的十大著名景点」这样的问题时,很可能是某个数据标注员之前碰到过类似问题,然后他们花了20分钟,用谷歌或者猫途鹰(Trip Advisor)之类的网站来查资料,并整理出一个景点清单。这个清单就会被当作「标准答案」,用来训练AI回答类似的问题。
如果你问的具体地点并没有在微调训练数据中出现过,AI就会根据它在预训练阶段(也就是通过分析海量互联网文档)学到的知识,生成一个风格和内容都相近的答案列表。
对此,有网友表示自己并想不通:「按道理数据标注员的任务是评估答案是否符合RLHF的规则,而不是自己整理每份列表。此外,LLM权重所映射的,难道不是互联网数据中关于『理想度假地』的高维数据空间吗?」
Karpathy回答道:「这是因为地点的数量太多,因此需要数据标注员整理一些人工精选清单,并通过示例和统计方法确定『标准答案』的类型。」
当被问到类似的问题但对象是新的或不同的事物时,LLM就会匹配答案的形式,并从嵌入空间中一个相似的区域(比如具有正面评价的度假胜地)提取新的地点,并进行替换,然后以新地点为条件生成答案。
这种现象是一种非直观且基于经验的发现,而这也是微调的「魔力」所在。
但事实依然是,人类标注员在「设定」答案的模式,只不过是通过他们在微调数据集中选择的地点类型的统计特征来实现的。
而且,LLM立即给你的答案,大致相当于你直接把问题提交给他们的标注团队大约1小时后得到的结果。
另外,在某些网友的概念里,RLHF是可以创造出超越人类水平的成果的。
对此,Karpathy表示:「RLHF仍然是基于人类反馈的强化学习,因此不能直接将其归类为『超人级别』。」
RLHF的性能提升主要体现在从SFT(监督微调)的「生成式人类水平」提升到「评判式人类水平」。
这种差异更多体现在实践中,而非理论上。因为对普通人来说,评判比生成更容易(比如,从5首关于某个主题的诗中选出最好的那个,要比自己直接创作一首容易得多)。
此外,RLHF的性能提升还得益于「群体智慧效应」(wisdom of crowds),即LLM表现出的并不是单个人类的水平,而是达到了人类群体集成的水平。
因此,RLHF理论上能实现的最高性能是:在时间充足的情况下,一个由领域顶尖专家组成的小组会选择的答案。从某种意义上说,这可以被视为「超人级别」。
然而,如果想达到人们通常理解的那种「真·超人级别」,还需要从RLHF转向真正的强化学习。
那么问题来了,如果AI还无法达到「超人级别」的水平,那又该如何解释医学问答领域中持续展现的超越人类水平的表现?
这是否意味着模型厂商雇佣了顶尖医生进行标注?还是说,广泛的事实知识检索弥补了推理能力的不足?
Karpathy:「
你别说,他们还真就是雇佣了专业医生来进行了标注。」
当然,并不是每一个可能的问题都要进行标注,只需攒够一定的数量,让LLM能够学会以专业医生的风格来回答医学问题就行了。
对于新的问题,LLM可以在一定程度上迁移应用其从互联网上的文档、论文等内容中获得的医学通识。
众所周知,著名数学家陶哲轩曾为LLM提供了一些训练数据作为参考。但这并不意味着LLM现在能够在所有数学问题上达到他的水平,因为底层模型可能并不具备相应的知识深度和推理能力。然而,这确实意味着LLM的回答质量显著优于一般网络用户的回答水平。
因此,所谓的「标注者」实际上可以是各自领域的专业人士,例如程序员、医生等,而并非随意从互联网上招募的人员。这取决于 LLM 公司在招聘这些数据标注人员时的标准和策略。
如今,他们越来越倾向于雇佣更高技能的工作者。随后,LLM 会尽其所能模拟这些专业人士的回答风格,从而为用户提供尽可能专业的回答。
说了这么多,我们心心念念的AGI究竟什么时候才能实现呢?
LeCun居然一反常态地说,AGI离我们只有5到10年了。
不仅LeCun认为「LLM的路线注定死路一条」,最近也有一位AI研究者和投资人Kevin Niechen发出了长篇博文,用数学公式推演出:为什么仅靠Scaling Law,我们永远到达不了AGI。
Niechen指出,目前关于AGI何时到来的判断,之所以众说纷纭,就是因为很多观点更多是基于动机或意识形态,而非确凿的证据。
有人觉得,我们会很快迎来AGI,有人认为我们离它还很远。
为什么很多模型提供商对当今模型的扩展能力如此乐观?
Niechen决定,亲自用Scaling Law做出一些计算上的推断,看看未来AI模型究竟将如何进化。
Scaling Law并不像我们想得那么有预测性
Scaling Law是一种定量关系,用于描述模型输入(数据和计算量)与模型输出(预测下一个单词的能力)之间的联系。
它是通过在图表上绘制不同水平的模型输入和输出得出的。
我们只需要扩展现有模型,就会获得显著的性能提升吗?
显然并非如此,使用Scaling Law进行预测,并不像有些人想的那么简单。
首先,大多数Scaling Law(如Kaplan等人、Chinchilla和Llama的研究)预测的,是模型在数据集中预测下一个词的能力,而不是模型在现实世界任务中的表现。
2023年,知名OpenAI研究员Jason Wei就曾在博客中指出,「目前尚不清楚替代指标(例如损失)是否能够预测能力的涌现现象……这种关系尚未被充分研究……」
将两个近似值串联起来进行预测
为了解决上述问题,我们可以拟合第二个Scaling Law,将上游损失与现实任务性能定量关联起来,然后将两个Scaling Law串联起来,以预测模型在现实任务中的表现。
Loss = f(data, compute)
Real world task performance = g(loss)
Real world task performance = g(f(data, compute))
在2024年,Gadre等人和Dubet等人提出了这种类型的Scaling Law。
Dubet使用这种链式法则进行预测,并声称其预测能力适用于Llama 3模型,「在四个数量级范围内具有良好的外推能力」。
然而,关于这些第二类Scaling Law的研究才刚刚起步,仍处于初期阶段,由于数据点过少,选择拟合函数会高度依赖主观判断。
例如,在下图中,Gadre假设多个任务的平均表现与模型能力呈指数关系(上图),而Dubet针对单一任务(下图中的 ARC-AGI 任务)假设其关系呈S型曲线。这些Scaling Law还高度依赖于具体任务。
如果没有关于损失与现实任务准确率之间关系的强假设,我们就无法有力地预测未来模型的能力。
尝试用链式Scaling Law进行预测,是一种拙劣的尝试
如果我们盲目地使用一些链式Scaling Law来进行预测,会发生什么?
请注意,这里的目标是展示如何使用一组Scaling Law(如Gadre的研究)来生成预测,而非获得详细的预测结果。
首先,我们可以利用公开信息,来估算未来几代模型发布所需的数据和计算输入。
这一部分可以参考最大数据中心建设的公告,根据其GPU容量估算计算能力,并将其映射到每代模型的演进上。
接着,我们可以利用Scaling Law来估算这些计算集群所需的数据量。