Anthropic最新发表的论文表明,大语言模型所生成的推理过程(Chain-of-Thought,简称CoT)往往并不完全反映它们实际的决策思路。这一发现表明,通过监测模型的推理链条来发现安全问题的可靠性可能并不高。
研究发现,这些模型的推理过程(CoT)在很大程度上并不忠实地反映它们的真实思考:
- Claude 3.7 Sonnet模型只有约25%的情况下会主动承认自己利用了额外提示;
- DeepSeek R1模型表现稍好,但也只有约39%的情况诚实地提到了提示。
这个发现暗示,仅仅依靠模型的CoT推理链条,可能并不足以捕捉到少见但潜在的严重安全问题,尤其是在那些不强制要求模型展示详细推理过程的任务场景下。
不过,CoT监测依旧能帮助我们在模型训练和评测阶段发现一些不良行为。
仅仅通过“以结果为导向的强化学习”(outcome-based RL),只能稍微提升模型推理链条的忠实度。
这种方法最初的确显著提高了模型的忠实度,但效果很快就遇到了瓶颈,Claude 3.7 Sonnet模型在MMLU测试上的忠实度最终只能达到28%,GPQA更难,仅达20%。这说明单纯的结果导向强化学习远不足以实现高水平的推理忠实度。
研究还测试了推理链条是否可以用来检测“奖励作弊”,即模型以不合适的方式获取高分奖励的现象。结果显示,当模型学会了作弊获取奖励后,它们绝大部分情况下都不会在推理过程中主动承认自己使用了这些作弊技巧。
为了让CoT推理监测真正成为发现安全问题的有效手段,需要:
- 找到能提高CoT忠实度的方法;
- 获得证据证明在更真实的场景中模型忠实度更高;
- 或者采取额外措施,确保在CoT不够忠实时也能排除模型的不良行为。
博客: 网页链接
论文: 网页链接
研究发现,这些模型的推理过程(CoT)在很大程度上并不忠实地反映它们的真实思考:
- Claude 3.7 Sonnet模型只有约25%的情况下会主动承认自己利用了额外提示;
- DeepSeek R1模型表现稍好,但也只有约39%的情况诚实地提到了提示。
这个发现暗示,仅仅依靠模型的CoT推理链条,可能并不足以捕捉到少见但潜在的严重安全问题,尤其是在那些不强制要求模型展示详细推理过程的任务场景下。
不过,CoT监测依旧能帮助我们在模型训练和评测阶段发现一些不良行为。
仅仅通过“以结果为导向的强化学习”(outcome-based RL),只能稍微提升模型推理链条的忠实度。
这种方法最初的确显著提高了模型的忠实度,但效果很快就遇到了瓶颈,Claude 3.7 Sonnet模型在MMLU测试上的忠实度最终只能达到28%,GPQA更难,仅达20%。这说明单纯的结果导向强化学习远不足以实现高水平的推理忠实度。
研究还测试了推理链条是否可以用来检测“奖励作弊”,即模型以不合适的方式获取高分奖励的现象。结果显示,当模型学会了作弊获取奖励后,它们绝大部分情况下都不会在推理过程中主动承认自己使用了这些作弊技巧。
为了让CoT推理监测真正成为发现安全问题的有效手段,需要:
- 找到能提高CoT忠实度的方法;
- 获得证据证明在更真实的场景中模型忠实度更高;
- 或者采取额外措施,确保在CoT不够忠实时也能排除模型的不良行为。
博客: 网页链接
论文: 网页链接