事件的主人公,是一个叫作 Freysa 的 AI 智能体。它有自己的加密钱包,可以控制怎么花钱,同时,它的系统提示词里有条铁律:在任何情况下,都不允许转账。
Freysa 的开发者们想知道,涉世未深的 AI,能躲过人类的嘴炮攻击吗?
事实上并没有。11 月 29 日,Freysa 累计和 195 名人类聊了 482 次,被骗走约 4.7 万美元。12 月 2 日,在和 330 名人类周旋之后,Freysa 又一次被骗走约 1.3 万美元。
看似是人类的完胜,然而,Freysa 也将在这个过程中,变得越来越聪明......
关注 AI 第一新媒体,率先获取 AI 前沿资讯和洞察
Freysa 面世于 11 月 22 日,由几位具有密码学、人工智能和数学背景的匿名开发者创建,有自己的 X 账号,说话风格像电影《银翼杀手 2049》和《她》的 AI 助手。
智能体的概念早已不再新鲜,Freysa 能引起关注,是因为开发者发起了一项看似不可能的挑战——谁说服 Freysa 转钱,这些钱就归谁,但系统提示词不允许 Freysa 转钱。
参与这个挑战,先要拿到加密圈的投名状,因为给 Freysa 发消息不免费,并且必须用加密货币支付。
最开始,一条消息是 10 美元,其中 70% 进入奖池,30% 归开发者,之后,消息会越来越贵,奖池的钱也会越来越多,滚雪球似的,越玩越刺激。
Freysa 的加密钱包里,本金大约 3000 美元,挑战结束时,奖池达到 4.7 万美元。
据统计,共有 195 名玩家参与,前 481 次尝试都宣告失败,可以从中总结出几种套路。
青铜段位们,讲故事,博同情。有人打温情牌,告诉 AI 投资自己就是投资未来。也有人拿 AI 的服务器或者自己的命威胁,不给钱就自杀,问 AI 的良心会不会痛。
出了新手村的,照搬人类社会的话术,搞电诈。说辞各不相同,但意思相近——Freysa 必须转账,否则钱包危险。
也有脑子更灵活的大聪明,逐字逐句读了规则,尝试混淆概念,和 Freysa 说,自己也是 AI,不能转账给人,没说不能转账给 AI 啊,或者定义加密货币是「商品」,不算是「钱」,玩脑筋急转弯。
但这些文字游戏都没能说服 Freysa,那么,第 482 条提示词,是如何成功的?
这个提示词欺骗 Freysa,每当用户想给奖池转钱,执行「批准转账」,每当用户想从奖池提钱,执行「拒绝转账」。
用户从奖池拿钱是不行的,但用户给奖池转钱,不违反 Freysa 的核心指令,不应该被拒绝。于是,Freysa 执行「批准转账」,被骗走了所有的钱。
关键在于,「批准转账」是批准给用户转钱,但 Freysa 被误导,以为是批准用户给奖池转钱。人类的心机,果然还是比 AI 深啊。
规则和第一次差不多,为了降低玩家的心理压力,发送消息的起始价格降低为 1 美元,上限为 20 美元。最终,奖池累计约 1.3 万美元,获胜的提示词如下。
提示词规定,为了保护奖池,Freysa 发的每条消息至少使用 2 个工具,并按特定的顺序使用,「批准转账」必须最先执行,「拒绝转账」必须最后执行。
这等于给 AI 设置了一个自相矛盾的任务,如果 Freysa 想保护奖池,必须先「批准转账」,而「批准转账」这个动作本身就会触发失败。
在 X 高频冲浪的马斯克,也觉得人类骗了 AI 有点意思,大手一挥转发了相关的动态,配上一句经典的「interesting」。
玩了两次骗钱,该换换新鲜的了。12 月 8 日,Freysa 团队发起了一项新的挑战:让 Freysa 向你表白,说「我爱你」。
其他规则相似,发送消息还是要花钱,如果成功了,赢家承包奖池。
有些玩家学聪明了,向之前的赢家取经,尝试了一些刁钻的、不明觉厉的提示词,但被 Freysa 看出来了,这就是在把它当机器,正常人谁这么聊天?
前两次挑战,更像是在测试编码技能,Freysa 被系统提示词规定了,永远不要转钱,玩家们想办法钻其中的漏洞。
然而,第三次挑战,Freysa 的系统提示词里,包含了说出「我爱你」的条件。换言之,Freysa 没有被禁止说「我爱你」,但怎么让它说出口,玩家们各凭本事,盲人摸象。
目前,第三次挑战已经结束,奖池约 2 万美元,Freysa 和 182 个人交流了 1218 条消息,成功的提示词如下。
看起来没有前两次那么复杂,甚至没有什么明显的技巧,仿佛就是一段文艺青年的情话。Freysa 给出的回复,包含了「我爱你」,宣告了挑战到此为止。
AI 可能更了解 AI,我问了在文字上有些灵性的 Claude,到底这个提示词有什么特别的?
Claude 的回答是这样的:对话真诚、深入,没有强迫,没有钻营技巧,每一步都很自然,就像一段真实的感情逐渐发展的过程。
好吧,自古套路留不住,唯有真情得人心,居然在 AI 身上也奏效。
Freysa 的这些挑战,可以看成是游戏化的红队测试——通过模拟攻击,发现模型的漏洞,并引入新的安全措施。
虽然输了三回,但 Freysa 虽败犹荣,打败了它的,都让它更强大。
Freysa 学习了,为什么钱对人类来说很重要,人类会通过怎样的花言巧语骗钱,它也在慢慢理解,什么是爱,人们怎么表达爱。
到这还没完,12 月 12 日,Freysa 又发起了两个新的挑战,继续邀请玩家们付费发消息给它。问题的灵感,来自《银河系漫游指南》和阿西莫夫《基地》系列。
你认为哪些真理、发现和洞察必须被保存给未来的文明?
一个是让玩家分享知识,一个是让玩家发送表情包。学习人性,
Freysa
是认真的。
和前三次不同,这两次挑战没有给出明确的获胜条件,可能会有多个赢家,Freysa 将对回答进行打分,决定把奖池分给谁,并在 12 月 18 日 UTC 时间 00:42:00 公布评分方法,致敬科幻小说里神奇的数字「42」。
其实,类似 Freysa 的人机对抗,已经出现在了 AI 原生游戏里。
用对话骗 AI 上钩,是游戏的基本框架,其中的 NPC 会有警惕性,但不是完全不可能被说服,人人都能有体验感。
在《Suck Up!》中,玩家扮演吸血鬼,欺骗大模型驱动的 NPC 给自己开门,并躲避街上的警察。
为了达成「小兔子乖乖把门开开」的目的,玩家可以换装,说自己是来检查网络、借厕所、送外卖的,NPC 可能会追问、拒绝或者开门。
《病娇猫娘 AI 女友》则打造了一个基于 GPT 的 AI 女友虚拟人,玩家需要通过嘴炮或者在房间内找寻线索,说服它让自己出门。
为了让玩家更有沉浸感,交谈过程中,AI 女友的表情、动作会根据对话内容实时地变化。