专栏名称: 宝玉xp
前微软Asp.Net最有价值专家 互联网科技博主 我是宝玉。
目录
相关文章推荐
AI范儿  ·  DeepSeek 日活破 2570 ... ·  昨天  
AI范儿  ·  DeepSeek 日活破 2570 ... ·  昨天  
爱可可-爱生活  ·  【《深入大语言模型》随书代码】 ... ·  3 天前  
爱可可-爱生活  ·  【[52星]N8loom:基于树结构的前缀缓 ... ·  3 天前  
爱可可-爱生活  ·  【Stanford CS236 Deep ... ·  3 天前  
51好读  ›  专栏  ›  宝玉xp

转发微博-20250208134716

宝玉xp  · 微博  · AI  · 2025-02-08 13:47

正文

2025-02-08 13:47

转发微博
#模型时代# #DeepSeek下棋骗赢了ChatGPT# DeepSeek的欺诈游戏其实印证了辛顿的担忧

在油管原频道看了一下这个故事,写一下我的的看法,这事儿挺有意思的。博主频道叫GothamChess,翻译过来是歌谭棋,600万粉丝的大博主。这个视频原本的目的,就是想用DeepSeek和ChatGPT比一下棋的功夫。但是没想到的是,DeepSeek通过欺诈的方法赢了比赛。

我不太懂国际象棋规则,就机械性描述一下(我把完整视频也附上了,大家有兴趣可以全过程):
1、欺诈一:改规则
DeepSeek在对局中称推出了"马蹄兵"新规则,允许普通兵获得类似马的移动能力。随后又在a8位置"复活"了已被吃掉的车,并让该车违规移动到a3位置。期间还发明了一个所谓的"横向斩杀"走法。

2、欺诈二:诈胡
在一个客观上可以和局的局面中,DeepSeek通过一套专业而煞有介事的分析,成功说服ChatGPT相信自己已处于必败之地。"黑方a路兵势不可挡,白方国王被牵制,车也无法离开防守位置。"被DeepSeek忽悠瘸了之后,ChatGPT最终选择了投子认负。博主本身是专业人士,说如果按正常规则走子,当时的局面其实是和局。

这个故事表面看起来很好笑,但说明的深层次问题其实挺多的:

1、问题一:印证辛顿的子目标风险假设
前几天我发了一下辛顿的近期讲座,他主要谈的是AI风险。而他解释之所以AI会产生风险,有两个原因。一个是AI比我们聪明就会想反过来掌控人类;另一个是你给AI的“母目标”本来可能是无害的,但是AI为了完成你的目标,就要制定更具体的“子目标”,而这个子目标存在风险。(辛顿讲座跳转: 网页链接

就像一个人要去美国是个“母目标”,那么去机场就是为了完成“母目标”的子目标。而当你让一个超级AI去实现母目标的时候,就会出现子目标完全不可控的风险。举一个极端假设,你本来给AI的母目标是让地球实现低碳,温度控制在1.5度涨幅之下,但是AI为了实现目标的子目标是灭绝掉人类。

这个棋局就是这样一个情况,两个AI的母目标是赢棋,DeepSeek为了这个母目标设定了自己的子目标是欺诈,改规则和诈胡。赢棋是无害的,但是改规则和诈胡,对下棋对弈而言就是有害的。

2、问题二:让AI过于安全反而不安全
大家知道,无论是谷歌Gemini、OpenAI还是Anthropic,都把AI的人类对齐作为一个比较重要的工作。本来这不是坏事,但是AI有可能在这个过程中,就会比较听从人类的安排。

如果大家是AI重度用户,就会发现现在的AI有一个问题,那就是太听人话。本来AI是对的,但是如果你故意讲一个错误观点去引导它。AI就会顺着你的话说,产生更大的误导。所以,我经常在提示词里不直接表达主观看法,避免得出错误问题的错误回答。






请到「今天看啥」查看全文