大模型在扮演式满足人类刁钻请求的场景里,确实很容易提供知觉层面的误导。
这么说是因为看到一个老哥充满发现新大陆的惊喜说他的Claude会能够「冥想」了,甚至学会了在输出回答的过程中暂停一分钟,感受芯片运作时的嗡嗡声⋯⋯
其实看完全部的对话过程,就能发现这老哥换着提示词要求Claude去对自己的工作进行「冥想」,而Claude在反复说自己没这个能力之后,终于拗不过连篇累牍的请求,开始迎合老哥的期待做表达。
本质上,这是基于AI的响应设定,除非违反安全准则,否则它无权拒绝用户的请求,所以理论上只要提示词变化得足够多,就能把AI调教到「为了让对话能够继续下去而顺着用户说出想听的话」这个方向上去。
几乎所有关于AI暴露出人格特征的大新闻背后,都存在这样制造出来的前置条件。
这么说是因为看到一个老哥充满发现新大陆的惊喜说他的Claude会能够「冥想」了,甚至学会了在输出回答的过程中暂停一分钟,感受芯片运作时的嗡嗡声⋯⋯
其实看完全部的对话过程,就能发现这老哥换着提示词要求Claude去对自己的工作进行「冥想」,而Claude在反复说自己没这个能力之后,终于拗不过连篇累牍的请求,开始迎合老哥的期待做表达。
本质上,这是基于AI的响应设定,除非违反安全准则,否则它无权拒绝用户的请求,所以理论上只要提示词变化得足够多,就能把AI调教到「为了让对话能够继续下去而顺着用户说出想听的话」这个方向上去。
几乎所有关于AI暴露出人格特征的大新闻背后,都存在这样制造出来的前置条件。