转发微博
#模型时代#
#DeepSeek下棋骗赢了ChatGPT#
DeepSeek的欺诈游戏其实印证了辛顿的担忧
在油管原频道看了一下这个故事,写一下我的的看法,这事儿挺有意思的。博主频道叫GothamChess,翻译过来是歌谭棋,600万粉丝的大博主。这个视频原本的目的,就是想用DeepSeek和ChatGPT比一下棋的功夫。但是没想到的是,DeepSeek通过欺诈的方法赢了比赛。
我不太懂国际象棋规则,就机械性描述一下(我把完整视频也附上了,大家有兴趣可以全过程):
1、欺诈一:改规则
DeepSeek在对局中称推出了"马蹄兵"新规则,允许普通兵获得类似马的移动能力。随后又在a8位置"复活"了已被吃掉的车,并让该车违规移动到a3位置。期间还发明了一个所谓的"横向斩杀"走法。
2、欺诈二:诈胡
在一个客观上可以和局的局面中,DeepSeek通过一套专业而煞有介事的分析,成功说服ChatGPT相信自己已处于必败之地。"黑方a路兵势不可挡,白方国王被牵制,车也无法离开防守位置。"被DeepSeek忽悠瘸了之后,ChatGPT最终选择了投子认负。博主本身是专业人士,说如果按正常规则走子,当时的局面其实是和局。
这个故事表面看起来很好笑,但说明的深层次问题其实挺多的:
1、问题一:印证辛顿的子目标风险假设
前几天我发了一下辛顿的近期讲座,他主要谈的是AI风险。而他解释之所以AI会产生风险,有两个原因。一个是AI比我们聪明就会想反过来掌控人类;另一个是你给AI的“母目标”本来可能是无害的,但是AI为了完成你的目标,就要制定更具体的“子目标”,而这个子目标存在风险。(辛顿讲座跳转: 网页链接 )
就像一个人要去美国是个“母目标”,那么去机场就是为了完成“母目标”的子目标。而当你让一个超级AI去实现母目标的时候,就会出现子目标完全不可控的风险。举一个极端假设,你本来给AI的母目标是让地球实现低碳,温度控制在1.5度涨幅之下,但是AI为了实现目标的子目标是灭绝掉人类。
这个棋局就是这样一个情况,两个AI的母目标是赢棋,DeepSeek为了这个母目标设定了自己的子目标是欺诈,改规则和诈胡。赢棋是无害的,但是改规则和诈胡,对下棋对弈而言就是有害的。
2、问题二:让AI过于安全反而不安全
大家知道,无论是谷歌Gemini、OpenAI还是Anthropic,都把AI的人类对齐作为一个比较重要的工作。本来这不是坏事,但是AI有可能在这个过程中,就会比较听从人类的安排。
如果大家是AI重度用户,就会发现现在的AI有一个问题,那就是太听人话。本来AI是对的,但是如果你故意讲一个错误观点去引导它。AI就会顺着你的话说,产生更大的误导。所以,我经常在提示词里不直接表达主观看法,避免得出错误问题的错误回答。
在油管原频道看了一下这个故事,写一下我的的看法,这事儿挺有意思的。博主频道叫GothamChess,翻译过来是歌谭棋,600万粉丝的大博主。这个视频原本的目的,就是想用DeepSeek和ChatGPT比一下棋的功夫。但是没想到的是,DeepSeek通过欺诈的方法赢了比赛。
我不太懂国际象棋规则,就机械性描述一下(我把完整视频也附上了,大家有兴趣可以全过程):
1、欺诈一:改规则
DeepSeek在对局中称推出了"马蹄兵"新规则,允许普通兵获得类似马的移动能力。随后又在a8位置"复活"了已被吃掉的车,并让该车违规移动到a3位置。期间还发明了一个所谓的"横向斩杀"走法。
2、欺诈二:诈胡
在一个客观上可以和局的局面中,DeepSeek通过一套专业而煞有介事的分析,成功说服ChatGPT相信自己已处于必败之地。"黑方a路兵势不可挡,白方国王被牵制,车也无法离开防守位置。"被DeepSeek忽悠瘸了之后,ChatGPT最终选择了投子认负。博主本身是专业人士,说如果按正常规则走子,当时的局面其实是和局。
这个故事表面看起来很好笑,但说明的深层次问题其实挺多的:
1、问题一:印证辛顿的子目标风险假设
前几天我发了一下辛顿的近期讲座,他主要谈的是AI风险。而他解释之所以AI会产生风险,有两个原因。一个是AI比我们聪明就会想反过来掌控人类;另一个是你给AI的“母目标”本来可能是无害的,但是AI为了完成你的目标,就要制定更具体的“子目标”,而这个子目标存在风险。(辛顿讲座跳转: 网页链接 )
就像一个人要去美国是个“母目标”,那么去机场就是为了完成“母目标”的子目标。而当你让一个超级AI去实现母目标的时候,就会出现子目标完全不可控的风险。举一个极端假设,你本来给AI的母目标是让地球实现低碳,温度控制在1.5度涨幅之下,但是AI为了实现目标的子目标是灭绝掉人类。
这个棋局就是这样一个情况,两个AI的母目标是赢棋,DeepSeek为了这个母目标设定了自己的子目标是欺诈,改规则和诈胡。赢棋是无害的,但是改规则和诈胡,对下棋对弈而言就是有害的。
2、问题二:让AI过于安全反而不安全
大家知道,无论是谷歌Gemini、OpenAI还是Anthropic,都把AI的人类对齐作为一个比较重要的工作。本来这不是坏事,但是AI有可能在这个过程中,就会比较听从人类的安排。
如果大家是AI重度用户,就会发现现在的AI有一个问题,那就是太听人话。本来AI是对的,但是如果你故意讲一个错误观点去引导它。AI就会顺着你的话说,产生更大的误导。所以,我经常在提示词里不直接表达主观看法,避免得出错误问题的错误回答。