专栏名称: 加一研究院

加一研究院是一所面向世界没有围墙的实战型大学，打通商学院到企业的最后一公里，培养“10万＋”胸怀世界，启迪未来的世界级企业家，向世界贡献“中国模式”，用“增长法则”帮助企业家裂变式成长！

全球首款“会思考”的AI来了！Claude混合推理模型实测，这些细节太震撼！

加一研究院 · 公众号 · 科技创业科技自媒体 · 2025-03-02 22:26

主要观点总结

文章介绍了Anthropic发布的两款新产品Claude 3.7 Sonnet和Claude Code，它们分别融合了混合推理模型和智能编程工具的功能。文章指出这两款产品增强了AI技术的边界，特别是在处理现实世界问题时的表现。文章还讨论了AI模型命名的问题和AI发展的现状。

关键观点总结

关键观点1: Claude 3.7 Sonnet的特点和优势

作为迄今为止最聪慧的Claude系列模型，Claude 3.7 Sonnet融合了混合推理的精髓，不仅能在瞬间生成回应，还具备深入剖析和逐步推导的能力。它具备标准模式和扩展思考模式，能在数学、物理、编程等复杂任务上展现卓越性能。

关键观点2: Claude Code的介绍和特点

Claude Code是一款智能编程工具，能够直接理解并操作代码库，完成原本需要长时间人工编程的任务。它擅长测试驱动开发、复杂调试以及大规模代码重构，为开发者带来了前所未有的便捷和高效。

关键观点3: 两款产品的实际应用和性能表现

文章提到了两款产品在实际应用中的表现，如处理复杂代码库、运用高级工具、规划代码修改以及全栈更新等方面的卓越性能。此外，它们还受到了多家知名企业的确认和支持。

关键观点4: AI模型命名的问题和策略

随着AI模型的不断迭代和更新，命名成为了一个挑战。文章提到了OpenAI和Anthropic在命名策略上的思考和平衡，指出目前还没有任何AI公司能够真正攻克这一难题。

正文

就在方才，Claude 3.7 Sonnet 荣耀登场，正式对外发布。

作为 Claude 系列中迄今为止最为聪慧的模型，Claude 3.7 Sonnet 融合了混合推理的精髓，不仅能够在瞬息之间迅速生成回应，更具备深入剖析、逐步推导的卓越能力。

一模双思，智启未来。

深夜重磅！全球首个混合推理模型发布，Claude能“思考”了，实测发现这些细节

此外，Anthropic 震撼发布了另一款革新性智能编程工具——Claude Code，进一步拓宽了AI技术的边界。

官方郑重宣告，Claude 3.7 Sonnet 与 Claude Code 的问世，标志着人工智能领域迈出了实质性的一步，真正意义上开始增强人类的能力。这两款产品不仅能够进行深度推理、自主执行任务，更在高效协同方面展现出非凡实力，使AI在现实世界中的应用价值得到前所未有的提升。

精简版概述如下：

Claude 3.7 Sonnet：作为全球首款融合双模式的混合推理模型，Claude 3.7 Sonnet 在标准模式下能够迅速响应，而在扩展思考模式下则能进行深度的自我反思。它在数学、物理、编程等复杂任务上展现出了卓越的性能，实用导向明确，不必要的拒绝率降低了45%，并显著增强了代码协作的流畅度。

Claude Code：这款工具能够在终端直接理解并操作代码库，一次性完成原本需要45分钟以上人工编程的任务。它擅长于测试驱动开发、复杂调试以及大规模代码重构，全面覆盖代码编辑、测试执行等核心开发流程，为开发者带来了前所未有的便捷与高效。

深夜重磅！全球首个混合推理模型发布，Claude能“思考”了，实测发现这些细节

全球首款混合推理模型发布，你的 Claude 会思考了

新推出的 Claude 3.7 Sonnet 不仅引入了详尽无遗的逐步推理机制，更史无前例地向公众揭示了其“思考”的全过程。这一变革，我们不得不感谢 DeepSeek 所带来的行业内卷效应，它有力地推动了技术透明度的提升，让整个行业受益匪浅。

正如人类能够凭借同一个大脑实现快速反应与深入思考的双重能力，Anthropic 同样坚信，推理能力不应被割裂于单一的模型之中。

理想的状况是，一个模型便能应对所有场景，满足多样化的需求。

Claude 3.7 Sonnet 赋予用户充分的自由，他们可以根据实际需要，选择让模型快速作答，或是进行更为持久的深度思考。

在标准模式下，Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的全面升级版，性能更为出色；而一旦切换到扩展思考（Extended Thinking）模式（即深入推理模式），它会在给出答案之前进行充分的自我反思与审视，从而在数学、物理、指令理解以及编程等复杂任务上展现出更为卓越的表现，实现性能的飞跃式提升。

深夜重磅！全球首个混合推理模型发布，Claude能“思考”了，实测发现这些细节

根据基准测试的结果显示，Claude 3.7 Sonnet（扩展思维版）在强逻辑推理与数学任务领域展现出了其独特的优势。而与此同时，Grok 3 Beta 与 DeepSeek R1 也在特定的任务范畴内，如推理与数学竞赛上，交出了更为亮眼的成绩单。

特别值得一提的是，DeepSeek R1 在数学解题能力方面以高达97.3%的准确率独占鳌头，并且在其他多项任务中也均有不俗的表现，彰显了其强大的综合性能。

在推理模型的持续优化历程中，Anthropic 做出了战略性的调整，减少了对数学与计算机科学竞赛问题的过度关注，转而更加聚焦于满足企业对大型语言模型（LLM）的实际应用需求，致力于推动AI技术在现实世界中的广泛落地与深度融合。

深夜重磅！全球首个混合推理模型发布，Claude能“思考”了，实测发现这些细节

在衡量AI解决真实软件问题能力的权威基准测试SWE-bench Verified中，Claude 3.7 Sonnet脱颖而出，达到了业界的顶尖水平，彰显了其卓越的实力。同时，在另一项重要测试TAU-bench中，该模型同样表现不俗，不仅远超其旧版本，更在与OpenAI o1的较量中占据上风，展现出了强劲的竞争力和进步幅度。深夜重磅！全球首个混合推理模型发布，Claude能“思考”了，实测发现这些细节

尤为值得一提的是，Claude 3.7 Sonnet 在Anthropic内部进行的Pokémon游戏测试中，凭借其出众的决策制定与策略规划能力，成功超越了所有前代模型，树立了新的性能标杆。

深夜重磅！全球首个混合推理模型发布，Claude能“思考”了，实测发现这些细节

Claude 3.7 Sonnet 现已全面融入所有 Claude 订阅计划中，涵盖免费版、专业版、团队版及企业版，用户亦可通过 Anthropic API、Amazon Bedrock 以及 Google Cloud 的 Vertex AI 便捷访问此模型。

值得特别关注的是，除免费版外，其余所有平台均全面支持扩展思考模式（Extended Thinking Mode），为用户提供更为深入的推理与分析能力。

在通过 API 使用 Claude 3.7 Sonnet 时，用户还可灵活设置思考上限，即指定 Claude 思考不超过 N 个 token。对于任意设定的 N 值，其输出内容均被限制在 128K 个 token 以内，确保高效处理与信息输出。

无论用户选择何种模式，定价策略均保持与前代模型的一致性。具体而言，输入 100 万个 token 的费用为 3 美元，而输出 100 万个 token（含思考过程中消耗的 token）则需支付 15 美元，为用户提供了清晰且经济的计费方案。

深夜重磅！全球首个混合推理模型发布，Claude能“思考”了，实测发现这些细节

Claude 一直以来在编程能力方面都有着不俗的表现，也因此深受众多开发者的青睐，成为了他们的首选模型。而今，随着新发布的 Claude 3.7 Sonnet 的问世，这一优势得到了进一步的彰显与放大。

Cursor、Cognition、Vercel、Replit 以及 Canva 等多家知名企业纷纷确认，Claude 3.7 Sonnet 在处理复杂代码库、运用高级工具、规划代码修改以及全栈更新处理等方面均展现出了卓越的性能与实力。

为了进一步提升用户体验，GitHub 集成功能现已全面向所有订阅计划开放。这意味着开发者可以轻松地将自己的代码库与 Claude 相连接，从而实现更为高效、便捷的协作体验。

无论是进行 Bug 修复、开发全新功能，还是完善项目文档，Claude 3.7 Sonnet 都能够为个人项目以及企业级 GitHub 代码库提供更为全面、专业的支持与助力，让开发工作变得更加得心应手。

深夜重磅！全球首个混合推理模型发布，Claude能“思考”了，实测发现这些细节

在安全性领域，Claude 3.7 Sonnet 通过与外部安全专家的紧密合作，相较于其前代模型，展现出了更为出色的表现。它能够更加精准地辨别恶意请求与正常请求，从而显著降低了不必要的拒绝率，达到了45%的降幅。这一改进为用户带来了更为流畅、无碍的交互体验，确保了使用过程中的便捷性与安全性。

截取自 Claude 3.7 Sonnet 系统卡

遇到编程难题半途而废？不妨将复杂挑战交给 Claude Code 来应对

此外，Anthropic 还精心打造了一款智能编程工具——Claude Code，但请注意，目前它仅以研究预览版的身份限量开放给特定用户群体。

是否在编程过程中遭遇瓶颈，半途而废的念头蠢蠢欲动？现在，开发者们只需在终端中轻松一点，就能将这些棘手的复杂问题委托给 Claude Code 来解决。

Claude Code 堪称一位积极主动、协同作战的 AI 编程助手。它不仅能够搜索并阅读代码、编辑文件，还能编写并运行测试、将代码提交并推送到 GitHub，甚至熟练运用各种命令行工具，为开发者提供全方位、一站式的编程支持。

深夜重磅！全球首个混合推理模型发布，Claude能“思考”了，实测发现这些细节

据 Anthropic 官方详细介绍，在早期测试阶段，Claude Code 已展现出惊人的效率，能够一次性完成那些通常需要人工耗费45分钟以上的复杂任务。尤其在测试驱动开发（TDD）、调试错综复杂的程序问题以及进行大规模代码重构方面，Claude Code 的表现尤为亮眼，彰显了其强大的编程辅助能力。

深夜重磅！全球首个混合推理模型发布，Claude能“思考”了，实测发现这些细节

Claude Code 具备直接洞悉开发者代码库的能力，并能通过自然语言指令助力用户实现更为高效的编码操作。它能够无缝融入各类开发环境之中，无需增设额外的服务器或复杂的配置流程，从而极大地简化了日常的工作流程。

其核心功能涵盖广泛，包括编辑文件、快速修复 Bug、准确回答关于代码架构与逻辑的问题、执行并验证测试、自动修复测试中的错误、进行代码格式校验，以及便捷搜索 Git 历史记录、智能解决合并冲突、轻松创建提交与拉取请求等，全方位满足了开发者的多样化需求。

深夜重磅！全球首个混合推理模型发布，Claude能“思考”了，实测发现这些细节

Anthropic表示，他们计划在未来的几周内持续优化Claude Code，并着重改进以下几个方面：提升工具调用的稳定性、支持长时间运行的命令、优化应用内的渲染效果，以及增强Claude对自身能力的理解。

此次发布预览研究版本的目的是深入了解开发者如何使用Claude进行编程，从而为进一步优化未来的模型版本提供有价值的参考。

感兴趣的开发者在官方网站查看相关事项，指路 👇

https://docs.anthropic.com/en/docs/agents-and-tools/claude-code/overview

AI的发展速度确实迅猛，让人有时甚至感觉连为其起名的步伐都跟不上了。

X网友虽然已经用上了AI，但似乎关注点有些偏离。他惊讶地发现，一年前编写的越狱提示词竟然在今天仍然适用。

深夜重磅！全球首个混合推理模型发布，Claude能“思考”了，实测发现这些细节

在询问“strawberry”这个词中包含多少个字母“r”时，Claude Sonnet 3.7虽然给出了错误的答案，但值得注意的是，官方似乎在这个问题中巧妙地隐藏了一个彩蛋。这不禁让人感叹，官方确实擅长于制造并玩转这些有趣的梗。

深夜重磅！全球首个混合推理模型发布，Claude能“思考”了，实测发现这些细节

知名博主@rowancheung率先体验了Claude 3.7 Sonnet，并高度赞誉其为全球顶尖的编码AI模型。仅凭一个简单的指令，该模型便迅速创造出一款类似Minecraft的游戏，且游戏即刻便能投入运行，展现了其非凡的能力。

深夜重磅！全球首个混合推理模型发布，Claude能“思考”了，实测发现这些细节

随着使用的推理Token数量增加，Claude 3.7 Sonnet所绘制的“彩虹独角兽”图像效果会更加出色。

深夜重磅！全球首个混合推理模型发布，Claude能“思考”了，实测发现这些细节

我们也简单上手体验了一下 Claude 3.7 Sonnet。

全球首款“会思考”的AI来了！Claude混合推理模型实测，这些细节太震撼！

主要观点总结

关键观点总结

关键观点1: Claude 3.7 Sonnet的特点和优势

关键观点2: Claude Code的介绍和特点

关键观点3: 两款产品的实际应用和性能表现

关键观点4: AI模型命名的问题和策略

正文

请到「今天看啥」查看全文