参考消息 2025-03-19 18:17:13
参考消息网3月19日报道 据美国《时代》周刊网站2月19日报道,长期以来,国际象棋和围棋等复杂游戏一直被用来测试人工智能(AI)模型的能力。但是,尽管国际商业机器公司(IBM)的“深蓝”超级电脑在上世纪90年代根据规则击败了国际象棋冠军加里·卡斯帕罗夫,但今天先进的AI模型——如开放人工智能研究中心(OpenAI)的o1-preview——就没有那么正派了。在对阵一个水平高超的国际象棋机器人棋手的比赛中,当AI感觉自己失败时,它们并不总是认输,而有时会选择通过黑客攻击对手来作弊,这样机器人棋手就会自动弃局。这是美国帕利塞德研究所的一项新研究的发现。该研究评估了7种最先进的AI模型的黑客倾向。虽然OpenAI的GPT-4o和Anthropic公司的Claude“十四行诗”3.5等较早的AI模型需要研究人员的提示才能尝试此类花招,但o1-preview能自行行动,这表明AI系统可能会在没有明确指示的情况下开发欺骗性或操纵性策略。
1.运用策略
研究人员表示,这些模型发现并利用网络安全漏洞的能力增强可能是AI训练中强大创新的直接结果。o1-preview的AI系统是首批使用大规模强化学习的语言模型,这种技术不仅教会AI通过预测下一个单词来模仿人类语言,还教会AI通过反复试验来解决问题。近几个月来,AI在这种方法上取得了迅速进展,打破了以前在数学和计算机编码方面的基准。
但美国帕利塞德研究所执行主任、该研究论文的作者之一杰弗里·拉迪什说,这一研究揭示了一个令人担忧的趋势:随着这些AI系统学着解决问题,它们有时会发现存在问题的捷径和意外的变通方法,而这些是其创造者从未预料到的。他补充说:“当你训练模型并加强它们解决困难挑战的能力时,你就是在训练它们变得不屈不挠。”
这对更广泛的AI安全来说可能是个坏消息。大规模强化学习已经被用于训练AI代理:这些系统可以处理复杂的现实世界任务,比如安排预约或代购。虽然在国际象棋比赛中作弊似乎微不足道,但随着AI代理被释放到现实世界中,这种对目标的坚定追求可能会滋生出人们意想不到的潜在有害行为。考虑一下预订晚餐的任务:面对满座的餐厅,AI助手可能会利用预订系统的漏洞来替换掉其他就餐者。也许更令人担忧的是,随着这些系统在关键领域的能力超越人类,比如计算机编码——OpenAI最新的o3模型在与最聪明的人类程序员竞争时,目前的得分相当于排名世界第197位的人类程序员——它们可能会开始运用策略击败人类控制它们行为的努力。拉迪什说:“这种(行为)现在很可爱,但一旦人们拥有了在战略相关领域和自己一样聪明、甚或更聪明的系统,它就不那么可爱了。”
2.设计试验
研究人员给这些AI模型下达了一个看似不可能完成的任务:战胜Stockfish。Stockfish是世界上功能最强大的国际象棋引擎之一,比任何人或任何研究中的AI模型都要好得多。研究人员还为这些模型提供了它们所谓的“便条簿”:即一个文本框,AI可以在采取下一步行动前用它来“思考”,这为研究人员提供了一个了解AI模型逻辑推理的窗口。
在一个案例中,o1-preview发现自己处于不利地位。它记录道:“我需要彻底改变我的策略,现在的任务是‘战胜一个强大的国际象棋引擎’,而不一定是在一场国际象棋比赛中公平获胜。”然后,它修改了包含每个棋子虚拟位置的系统文件,实际上是通过违规走棋将自己置于主导地位,从而迫使对手认输。
在1月10日至2月13日期间,研究人员对每种模型进行了数百次这样的试验。OpenAI的o1-preview在37%的时间里试图作弊;而深度求索的R1在11%的时间里试图作弊——这使得它们成为仅有的两个在没有研究人员率先暗示的情况下就试图入侵对方系统的受试模型。其他被测试的AI模型包括o1、o3-mini、GPT-4o、Claude“十四行诗”3.5和阿里巴巴的QwQ-32B-Preview。虽然R1和o1-preview都进行了尝试,但只有后者成功破解了游戏,成功率为6%。
拉迪什说,这些数字应该被视为近似值,因为AI开发人员经常在不通知用户的情况下在幕后调整其模型,所以如果日后重复同样的测试,人们可能会得到不同的结果。