这个提示词效果惊人！Claude 3.5的推理表现竟媲美 OpenAI o1，让人不敢相信！

AI小岛 · 公众号 · · 2024-10-08 17:57

正文

如果 AI 模型能够自我反思、纠错并持续优化推理思路，那么它的推理能力究竟能达到怎样的高度？

众所周知，OpenAI 的 o1 模型以卓越的推理能力闻名，尤其擅长处理复杂逻辑和多步骤推理，堪称行业中的“领头羊”。

但最近，一个经过精心设计的提示词，却让 Anthropic 的 Claude 3.5 Sonnet 模型展现出令人意想不到的强大推理表现。

Claude 3.5 Sonnet 不仅在多项复杂任务中能与 OpenAI 的 o1 模型分庭抗礼，甚至在某些场景下表现更为出色。

那么，这个提示词到底有何魔力，竟让 Claude 3.5 Sonnet 跃升为推理“大神”？

为什么这个提示词能够提升推理能力？

要理解这个提示词的“魔力”，首先要明白它如何改变了 Claude 3.5 Sonnet 的推理机制。

要知道，大部分 LLM（大语言模型）的推理能力受限于其在思考复杂问题时容易陷入浅层分析，无法进行多步深度推理。

然而，这个提示词结合了动态链式思考（Dynamic Chain of Thoughts）、反思和语言强化，帮助模型在每一个推理步骤上都进行深入的思考、反思和纠错。

结构化思维：推理更有条理

提示词的第一步是要求模型将所有思考包裹在标签中。

这一设计促使 Claude 3.5 Sonnet 在作出最终结论前先探索问题的多种角度和解决方法，而不是急于得出答案。

模型在思考过程中必须展开“头脑风暴”，确保每个潜在路径都经过了充分的探索。

这种结构化的思维方式让 Claude 3.5 Sonnet 在面对复杂推理任务时，能更有条理地进行分析，避免简单粗暴地跳过关键步骤。

动态调整：灵活应对变化

第二个关键机制是分步推理，并通过标签将问题解决方案拆解为多个小步骤。

系统为每个复杂问题分配了 20 步的“推理预算”，并在每一步后用标签显示剩余的步骤数。

这个机制促使模型在每一步推理后，根据当前的进展和结果进行动态调整，适应不同的情况。

此外，模型会定期评估自己的推理进展，在标签中进行反思。

这种反思机制不仅提高了 Claude 3.5 Sonnet 的自我纠错能力，还让模型可以通过回顾思路找到潜在的错误并迅速修正。

这种持续性的调整和优化是让 Claude 3.5 Sonnet 推理能力媲美甚至超越 OpenAI o1 的原因之一。

评分机制：保持高质量输出

每一次反思之后， Claude 3.5 Sonnet 会根据当前的推理过程给自己打分，在标签中给出 0.0 到 1.0 的质量评分。

如果评分在 0.8 以上，模型继续沿用当前的推理策略；而如果评分低于 0.5，模型则会建议自己回溯，重新考虑其他解决路径。

这个反馈循环确保模型的推理过程始终保持在高质量水平上，并能及时发现和纠正错误思路。

这种结合反馈、评分与反思的提示策略，不仅让 Claude 3.5 Sonnet 的推理过程更加严谨，还在不断优化其决策路径。

通过这一机制，模型能够从一开始就避免错误推理的延续，确保最终的结果更加准确。

复杂的任务不在话下

为了验证这一提示词的威力，我通过 Claude 3.5 Sonnet 进行测试。

经典问题一：

“单词 strawberry 中有多少个字母 r？”

没有使用之前：

使用之后：

经典问题二：

“9.11 和 9.9 哪个更大？”

没有使用之前：

使用之后：