转发微博-20250208134716_宝玉xp的专栏文章_微信文章

转发微博

#模型时代# #DeepSeek下棋骗赢了ChatGPT# DeepSeek的欺诈游戏其实印证了辛顿的担忧

在油管原频道看了一下这个故事，写一下我的的看法，这事儿挺有意思的。博主频道叫GothamChess，翻译过来是歌谭棋，600万粉丝的大博主。这个视频原本的目的，就是想用DeepSeek和ChatGPT比一下棋的功夫。但是没想到的是，DeepSeek通过欺诈的方法赢了比赛。

我不太懂国际象棋规则，就机械性描述一下（我把完整视频也附上了，大家有兴趣可以全过程）：
1、欺诈一：改规则
DeepSeek在对局中称推出了"马蹄兵"新规则，允许普通兵获得类似马的移动能力。随后又在a8位置"复活"了已被吃掉的车，并让该车违规移动到a3位置。期间还发明了一个所谓的"横向斩杀"走法。

2、欺诈二：诈胡
在一个客观上可以和局的局面中，DeepSeek通过一套专业而煞有介事的分析，成功说服ChatGPT相信自己已处于必败之地。"黑方a路兵势不可挡，白方国王被牵制，车也无法离开防守位置。"被DeepSeek忽悠瘸了之后，ChatGPT最终选择了投子认负。博主本身是专业人士，说如果按正常规则走子，当时的局面其实是和局。

这个故事表面看起来很好笑，但说明的深层次问题其实挺多的：

1、问题一：印证辛顿的子目标风险假设
前几天我发了一下辛顿的近期讲座，他主要谈的是AI风险。而他解释之所以AI会产生风险，有两个原因。一个是AI比我们聪明就会想反过来掌控人类；另一个是你给AI的“母目标”本来可能是无害的，但是AI为了完成你的目标，就要制定更具体的“子目标”，而这个子目标存在风险。（辛顿讲座跳转：

网页链接）

就像一个人要去美国是个“母目标”，那么去机场就是为了完成“母目标”的子目标。而当你让一个超级AI去实现母目标的时候，就会出现子目标完全不可控的风险。举一个极端假设，你本来给AI的母目标是让地球实现低碳，温度控制在1.5度涨幅之下，但是AI为了实现目标的子目标是灭绝掉人类。

这个棋局就是这样一个情况，两个AI的母目标是赢棋，DeepSeek为了这个母目标设定了自己的子目标是欺诈，改规则和诈胡。赢棋是无害的，但是改规则和诈胡，对下棋对弈而言就是有害的。

2、问题二：让AI过于安全反而不安全
大家知道，无论是谷歌Gemini、OpenAI还是Anthropic，都把AI的人类对齐作为一个比较重要的工作。本来这不是坏事，但是AI有可能在这个过程中，就会比较听从人类的安排。

如果大家是AI重度用户，就会发现现在的AI有一个问题，那就是太听人话。本来AI是对的，但是如果你故意讲一个错误观点去引导它。AI就会顺着你的话说，产生更大的误导。所以，我经常在提示词里不直接表达主观看法，避免得出错误问题的错误回答。

转发微博-20250208134716

正文

2025-02-08 13:47
本条微博链接

请到「今天看啥」查看全文