专栏名称: Datawhale
一个专注于AI领域的开源组织,汇聚了众多顶尖院校和知名企业的优秀学习者,聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner,和学习者一起成长。
目录
相关文章推荐
51好读  ›  专栏  ›  Datawhale

全球首个混合推理模型:Claude 3.7 Sonnet来袭,主打编程能力

Datawhale  · 公众号  ·  · 2025-02-25 11:12

正文

Datawhale分享

最新发布:Claude,编辑:机器之心

就在昨晚,Anthropic 要发新模型的消息开始在 AI 社区广泛发酵,不过并不是期待中的 Claude 4.0,而是 3.7 Sonnet 版本。


图源:https://x.com/btibor91/status/1893970824484581825

今天凌晨,Anthropic 的新旗舰模型如约而至, 正式发布了其迄今为止最智能的模型以及市面上首款混合推理模型 —— Claude 3.7 Sonnet


Cursor 也第一时间发文表示,支持 Claude-3.7-sonnet ,同时在 Agent 模式下也可以使用。



Claude 3.7 Sonnet 可以产生近乎即时的响应或者向用户展示扩展的、逐步的思考 。按照 Anthropic 的说法,「一个模型,两种思考方式」(One model, two ways to think.),即标准和扩展思考模式。另外 API 用户还可以对模型的思考时间进行细粒度控制。


在发布 Claude 3.7 Sonnet 之外, Anthropic 还推出了用于智能编码的命令行工具 Claude Code 。它目前作为有限的研究预览版本使用,使开发人员能够直接从他们的终端将大量工程任务委托给 Claude。


在编码方面,Anthropic 还改进了 Claude.ai 上的编码体验,其 GitHub 集成现已在所有 Claude 计划中提供,使开发人员能够将他们的代码存储库直接连接到 Claude。通过更深入地了解个人、工作和开源项目,Claude 将成为用户在 GitHub 项目中修复错误、开发功能和构建文档的更强大合作伙伴。

因此,得益于编码和前端 web 开发方面的功能与改进, Claude 3.7 Sonnet 成为 Anthropic 迄今为止最好的编码模型

目前,新模型 Claude 3.7 Sonnet 可以通过所有 Claude 计划(包括 Free、Pro、Team 和 Enterprise)以及 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 使用。除了免费用户之外,所有其他用户均可体验扩展思考模式。

在标准和扩展思考模式下, Claude 3.7 Sonnet 的价格与其前代(Claude 3.5 Sonnet)相同,每百万输入 token 3 美元,每百万输出 token 15 美元(包括思考 token)

正如一位网友所评价的那样,「Anthropic 的每次发布都能让人微笑并感到兴奋!」


最强 Claude 3.7 Sonnet
让前沿推理触手可及

Anthropic 表示,其开发 Claude 3.7 Sonnet 的理念与市面上其他推理模型不同。正如人类使用单个大脑进行快速反应和深度思考一样,Anthropic 认为推理应该体现前沿模型的综合能力,而不再是完全独立的模型。这种统一的方法将为用户创造更无缝的体验。

遵循上述理念,Claude 3.7 Sonnet 形成了很多独有优势。

首先, Claude 3.7 Sonnet 既是普通的 LLM,又是推理模型。你可以选择何时希望模型正常回答,何时希望它在回答之前思考更长时间 。在标准模式下,Claude 3.7 Sonnet 是前代 Claude 3.5 Sonnet 的升级版。在扩展思维模式下,它会在回答之前进行自我反思,从而提高其在数学、物理、指令遵循、编码和许多其他任务上的表现。Anthropic 发现,两种模式下,模型的提示词工作方式类似。

其次, 当通过 API 使用 Claude 3.7 Sonnet 时,用户还可以控制思考预算 。你可以告诉 Claude 思考不超过 N 个 token。对于任何 N 值,其输出限制为 128K 个 token。这允许用户在速度(和成本)和答案质量之间进行权衡。

第三,在开发自家的推理模型时,A nthropic 对数学和计算机科学竞赛问题的优化较少,而是将重点转向更能反映企业实际使用 LLM 方式的现实任务

我们来看下 Claude 3.7 Sonnet 的基准测试结果,其中在 SWE-bench Verified(评估 LLM 解决 GitHub 上真实软件问题能力的基准测试数据集)上, Claude 3.7 Sonnet 实现了 SOTA 性能,远远超过了 Claude 3.5 Sonnet、OpenAI 的 o3-mini (high) 和 o1 以及 DeepSeek R1







请到「今天看啥」查看全文