AI 会自己操控电脑了！Claude 3.5 重磅升级：不敲一行代码，3 分钟搞定一个网站

人工智能与大数据技术 · 公众号 · 大数据 · 2024-11-06 09:36

正文

请到「今天看啥」查看全文

本文经授权转自公众号CSDN（ID：CSDNnews）

整理 | 郑丽媛

仅一个晚上过去，Claude 3.5 的重磅升级令整个 AI 圈都为之一震：

“ChatGPT 很好，但我宣布今天过后 Claude 3.5 Sonnet 赢疯了！”
“太疯狂了！Anthropic 刚发布了 Claude 3.5 Sonnet & Haiku，它将彻底改变 AI Agent 的游戏规则。”
“毫无争议，Claude 3.5 Sonnet 就是所有写代码模型中的王！”

根据 Anthropic AI 的官方介绍，此次 Claude 3.5 模型升级主要包括升级版 Claude 3.5 Sonnet 和全新模型 Claude 3.5 Haiku：Claude 3.5 Sonnet 在各方面都比前版本有显著提升，特别是在编码方面；Claude 3.5 Haiku 在许多评估中与之前的最大模型 Claude 3 Opus 的性能相当，成本和速度也与前一代 Haiku 相似。

其中最引人注目的更新，无疑是：Claude 3.5 Sonnet 居然能像人一样使用电脑（Computer us e）了！

1、“像人一样使用电脑”，3 分钟搞定网站设计&修改

不存在任何文字游戏，“像人一样使用电脑”与其字面意思一致：升级版 Claude 3.5 Sonnet 具备一项突破性的全新能力“Computer use”，即开发者可以通过 API 指示 Claude 像人一样使用计算机，包括观察屏幕、移动光标、点击按钮和输入文本等等。

在实现该功能的过程中，Anthropic AI 尝试了一种新方法：不是为 Claude 创建特定工具来完成单独任务，而是教会它通用计算机技能，使其能够使用一系列为人设计的标准工具和软件程序。

基于这样的设计理念，Anthropic AI 构建了一个 API，使 Claude 能够感知并与计算机界面互动。开发者可以集成该 API，使 Claude 能够将指令转化为计算机命令，实现任务的自动化和智能化。

例如，收到“使用我计算机上的数据和在线数据填写此表格”这句指令，Claude 可将其转化为：检查电子表格；移动光标以打开网页浏览器；导航至相关网页；使用这些页面中的数据填写表格。

所谓耳听为虚，Anthropic 研究员 Alex Albert 亲自录制了一个 demo：如何利用 Claude 自动完成一个网站编码任务。

（1）首先，要求 Claude 在 Chrome 浏览器中导航到 Claude.ai，并创建一个有趣的、以 90 年代为主题的个人主页。

（2）想要对这个网站做一些修改，可要求 Claude 点击下载并保存文件，然后在 VS Code 中将其打开。

（3）让 Claude 启动一个服务器，以便在浏览器中查看该文件。这一过程中 Claude 首次遇到了问题：尝试启动服务器，但设备中并没有安装 Python。意外的是 Claude 通过查看终端输出，自己发现了这个问题，之后用 Python 3 再次尝试后，成功启动了服务器。

（4）Alex Albert 发现终端输出中有个错误，即顶部还缺少了一个文件图标，便要求 Claude 自己识别并将其修复。结果：Claude 顺利找到并删除了引发错误的代码行，保存文件并重新运行后，网站终于再无其他问题！

以上整个过程，包括 Alex Albert 的讲解在内，仅仅只用了 3 分钟。

目前，Claude 3.5 Sonnet 已在公测阶段，且是业内首个在公测阶段提供“Computer use”功能的前沿 AI 模型——不过，千万别因此着急解雇你的助理，Anthropic 还补充道：“此阶段仍处于实验阶段，偶尔可能显得笨拙且容易出错。”

例如，在一项旨在测试 AI Agent 帮助完成机票预订任务的评估中，升级版 Claude 3.5 Sonnet 成功完成的任务不到一半；在另一项涉及发起退票等任务的测试中，Claude 3.5 Sonnet 的失败率也超过了 30%

Anthropic 承认，目前 Claude 3.5 Sonnet 的“Computer use”功能仍不完美。一些人们能轻松完成的操作（如滚动、拖动、缩放）目前对 Claude 来说仍具挑战性，整体速度也很慢，因此鼓励开发者从低风险任务开始探索。

尽管如此，Anthropic 依旧对“Computer use”的前景充满期待，并相信它将随着时间的推移迅速改善。据悉，目前 Asana、Canva、Cognition、DoorDash、Replit 和 The Browser Company 等公司已经开始探索 Claude 3.5 Sonnet 的可能性，尝试令其自动执行需要数十，甚至上百个步骤才能完成的任务。

正如 Anthropic 所说，这项尚处于起步阶段的技术，将从初步部署中不断学习并进步。

2、Claude 3.5 Sonne t 编码能力大幅提升

除了惊艳亮相的“Computer use”功能，升级后的 Claude 3.5 Sonnet 在行业基准测试中也有大幅改进，尤其在自主编码和工具使用任务上尤为突出。

在编码方面，Claude 3.5 Sonne t 在 SWE-bench Verified 上的表现从 33.4% 提升至 49.0%，超过所有公开可用的模型，包括 OpenAI o1-preview 和专为自主编码设计的系统。不仅如此，它在 TAU-bench（一个自主工具使用任务）中的表现也有显著提升：在零售领域从 62.6% 增加到 69.2%，在更具挑战性的航空领域从 36.0% 提升到 46.0%。

“全新的 Claude 3.5 Sonnet 在保持与前代相同的价格和速度的同时，实现了这些进步。”

除此之外，Anthropic 表示许多早期客户也反馈道，升级版 Claude 3.5 Sonnet 是 AI 驱动编码的一次重要飞跃：

GitLab 在对 DevSecOps 任务进行测试时发现，Claude 3.5 Sonnet 的推理能力提高了（在各种用例中最高可达 10%），且没有增加延迟，成为多步骤软件开发流程的理想选择；
Cognition 使用新版本 Claude 3.5 Sonnet 进行自主 AI 评估，发现其在编码、规划和问题解决方面的表现比之前的版本有了显著改善；
The Browser Company 在使用该模型自动化基于网页的工作流程时，注意到 Claude 3.5 Sonnet 超越了他们以往测试过的所有模型。

3、超越 GPT-4o，Claude 3.5 Haiku 推出在即

本次与 Claude 3.5 Sonnet 一同推出的，还有 Claude 3.5 Haiku——Anthropic 将其形容为：“高端性能与经济实惠的结合”。

据介绍，在与 Claude 3 Haiku 相同成本和类似速度下，Claude 3.5 Haiku 在每项技能上都有所提升，并在许多智能基准测试中超越了 Claude 3 Opus（Anthropic 的上一代最大模型）。在编码任务上，Claude 3.5 Haiku 的表现也尤为强劲，例如它在 SWE-bench Verified 上得分 40.6%，超越了原版 Claude 3.5 Sonnet 和 GPT-4o 等高端模型代理。

Anthropic 介绍道，凭借低延迟、改善的指令跟随能力和更准确的工具使用，Claude 3.5 Haiku 非常适合面向用户的产品、专门的子代理任务，以及根据大量数据生成个性化体验——如购买历史、定价或库存记录。

据悉，Claude 3.5 Haiku 将在本月晚些时候通过 Anthropic 官方 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 提供。需要注意的是，初期 Claude 3.5 Haiku 仅作为文本模型提供，后续将推出图像输入功能。

展望未来，Anthropic 呼吁开发者积极探索 Claude 3.5 的新模型以及“Computer use”功能，也期待这些发展为人们带来更多 AI 应用的可能性。

参考链接： https://www.anthropic.com/news/3-5-models-and-computer-use

本文转自公众号“CSDN”，ID：CSDNnews

---END---