Anthropic 又整大活！Claude 现在可以使用计算机完成任务

歸藏的AI工具箱 · 公众号 · AI 科技自媒体 · 2024-10-23 07:00

主要观点总结

Anthropic发布了Claude 3.5 Haiku和升级版的Claude 3.5 Sonnet，两者在代理编码和工具使用任务方面表现出显著的改进。新版Claude 3.5 Sonnet的推理分超过了O1，且支持像人类一样操作计算机。此外，还介绍了API使开发者能集成其能力来指导计算机行动。

新版Claude 3.5 Sonnet在代理编码和工具使用任务上显示出广泛的改进，特别是在SWE-bench Verified上的性能从33.4%提高到49.0%。其推理能力在GitLab的DevSecOps任务测试中得到了验证。

Claude 3.5 Haiku在各项技能上有所提升，并在许多智能基准上超过了上一代模型。它具有低延迟、改进的指令遵循和更准确的工具使用能力，尤其在编码任务上表现出色。

最新版本的Claude 3.5 Sonnet能够使用计算机，包括移动光标、点击和通过虚拟键盘输入信息。这一能力是通过API实现的，该API使Claude能够感知计算机界面并与之交互。

在评估人工智能模型像人一样使用计算机的能力的OSWorld上，Claude 3.5 Sonnet表现出色。在仅屏幕截图类别中得分为14.9%，明显优于其他人工智能系统。

从前几天 CEO 的文章，到评估AI对于任务破坏性的研究，我们大家应该都预感到了，Anthropic 估计是要发一些🐂🍺东西。

可能很多人都认为是 Claude 3.5 Opus，但没想到在内容发布安排上大家都是这么出其不意。

昨晚 Anthropic 发布了Claude 3.5 Haiku 和升级款的 Claude 3.5 Sonnet，3.5 Sonnet 升级款的推理分甚至超过了O1。

null

而且 Claude 现在支持像人类一样操作计算机，通过查看屏幕、移动光标、单击按钮和键入文本！

有意思的是 Claude 使用电脑的时候还会关掉录制按钮偷懒。开始偷偷浏览黄石公园的照片 。

更新后的Claude 3.5 Sonnet在行业基准上显示出广泛的改进，尤其是在代理编码和工具使用任务方面取得了显着的进步。

它在SWE-bench Verified上的性能从 33.4% 提高到 49.0%，得分高于所有公开可用的模型， 包括 OpenAI o1-preview 等推理模型和专为代理编码设计的专用系统 。

它还将在代理工具使用任务TAU-bench上的表现提高，零售领域从 62.6%提高到 69.2%，在更具挑战性的航空领域从 36.0%提高到 46.0%。

早期客户反馈表明，升级后的 Claude 3.5 Sonnet 代表了 AI 编码的重大飞跃。GitLab 为 DevSecOps 任务测试了该模型，发现它在没有增加延迟的情况下提供了更强的推理能力（在各种用例中高达 10%）。

Claude 3.5 Haiku 在各项技能上都有所提高，甚至在许多智能基准上超过了上一代最大的模型 Claude 3 Opus。

Claude 3.5 Haiku 具有低延迟、改进的指令遵循和更准确的工具使用能力。

Claude 3.5 Haiku 在编码任务上尤其强大。例如，它在 SWE-bench Verified 上得分为 40.6%， 优于许多使用公开可用的最先进模型（包括原始的 Claude 3.5 Sonnet 和 GPT-4o）的代理 。

Anthropic 宣布其最新版本的人工智能助手 Claude 3.5 Sonnet 能够使用计算机，包括移动光标、点击和通过虚拟键盘输入信息。

Claude 能够通过查看屏幕截图来理解和操作计算机软件，这一技能是通过对简单软件如计算器和文本编辑器的使用进行训练而来的。

为了使这些通用技能成为可能，构建了一个 API，使 Claude 能够感知计算机界面并与之交互。

开发人员可以集成此 API，使 Claude 能够将指令（例如，“使用我的计算机上的数据并在线填写此表格”）翻译成计算机命令（例如，检查电子表格；移动光标打开 Web 浏览器；导航到相关网页；使用这些网页中的数据填写表格；等等）。