专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

刚刚，OpenAI最强竞对官宣：大模型可以使用电脑了

学术头条 · 公众号 · · 2024-10-23 00:28

正文

刚刚，OpenAI 最强竞对 Anthropic 宣布： 现在，Claude 可以使用电脑了 。

据介绍，最新版本的 Claude 3.5 Sonnet 在通过适当的软件设置运行后，可以 按照用户的指令在电脑屏幕上移动光标，点击相关位置，并通过虚拟键盘输入信息，模拟人们与电脑进行交互的方式 。

Anthropic 认为，这项技能--目前处于公开测试阶段--代表了人工智能（AI）领域的重大突破。

在最新博客文章中，他们分享了在开发计算机使用（computer use）模型过程中的一些研究心得，以及如何让这些模型更加安全。

为什么要开发 computer use？

为什么这项新功能很重要？大量的现代工作都是通过计算机完成的。让人工智能能够像人类一样直接与计算机软件进行交互，将开启大量应用，而这些应用对于目前的人工智能助手来说根本无法实现。

在过去几年里，强大的人工智能发展已经取得了许多重要的里程碑式成果--例如，能够进行复杂的逻辑推理，能够看到和理解图像。下一个前沿领域是计算机应用：人工智能模型无需通过定制工具进行交互，而是可以根据指令使用任何软件。

研究过程

Anthropic 表示，他们以前在工具使用和多模态方面的工作为这些新的计算机使用技能奠定了基础。操作计算机需要具备查看和解释图像的能力，这里指的是计算机屏幕上的图像。它还要求推理如何以及何时根据屏幕上的内容执行特定操作。结合这些能力，他们训练 Claude 解读屏幕上的内容，然后使用可用的软件工具执行任务。

当开发人员让 Claude 使用一款计算机软件并赋予其必要的访问权限时，Claude 会查看用户可见内容的屏幕截图，然后计算光标需要纵向或横向移动多少像素才能点击正确的位置。训练 Claude 准确计算像素至关重要。如果没有这项技能，模型就很难下达鼠标指令--这就好比模型在回答“‘香蕉’这个词中有多少个 A？”这样看似简单的问题时经常会感到吃力一样。

令人感到惊讶的是，Claude 在接受了计算器和文本编辑器等几款简单软件的 computer-use 训练后（出于安全考虑，模型在训练期间无法访问互联网），竟然能够迅速地掌握这些技能。结合 Claude 的其他技能，这种训练使它具备了非凡的能力，能够将用户的书面提示转化为一连串的逻辑步骤，然后在计算机上进行操作。他们观察到，该模型甚至会在遇到障碍时进行自我纠正并重试任务。

虽然他们在取得初步突破后很快就取得了后续进展，但这需要大量的尝试和错误才能实现。Anthropic 的一些研究人员指出，开发 computer use 模型的过程与他们初入人工智能领域时想象的“理想化”人工智能研究过程非常接近：不断迭代，反复回到绘图板（drawing board），直到取得进展。

目前，Claude 是像人一样使用计算机的 SOTA 模型，即通过观察屏幕并采取相应行动。在 OSWorld 为测试开发者让模型使用计算机的尝试而创建的一项评估中，Claude 目前的得分率为 14.9%。尽管远未达到人类水平（一般为 70%-75%），但却远远高于同类产品中排名第二的人工智能模型的 7.7%。

安全使用计算机

人工智能的每一次进步都会带来新的安全挑战。computer use 主要是降低人工智能系统应用其现有认知技能的门槛，而不是从根本上提高这些技能，因此 Anthropic 对 computer use 的主要关注点是当前的危害而非未来的危害。他们发现，更新后的 Claude 3.5 Sonnet（包括其新的 computer use 技能）仍处于人工智能安全等级 2 级，也就是说，它并不需要比 Anthropic 现有的安全和安保措施更高的标准。

当未来的模型因存在灾难性风险而需要人工智能安全等级 3 级或 4 级保障措施时，computer use 可能会加剧这些风险。Anthropic 判断，在模型还只需要人工智能安全等级 2 的保障措施时，现在就引入 computer use 可能会更好。这意味着，他们可以在风险过高之前开始处理任何安全问题，而不是在风险更为严重的模型中首次添加 computer use 功能。

因此，Anthropic 的信任与安全团队对新的 computer use 模型进行了广泛的分析，以找出潜在的漏洞。他们发现的一个问题是“提示注入”--这是一种网络攻击，即向人工智能模型输入恶意指令，使其推翻先前的指令或执行偏离用户初衷的意外操作。由于 Claude 可以解读来自联网计算机的屏幕截图，因此有可能接触到包括提示注入攻击在内的内容。

使用公开测试版 Claude computer-use 版本的用户应采取相关预防措施，将此类风险降至最低。作为开发人员的资源，Anthropic 在参考实现中提供了进一步的指导。

与任何人工智能功能一样，用户也有可能故意滥用 Claude 的计算机技能。Anthropic 开发了分类器和其他方法来标记和减少这类滥用。

Anthropic 表示，根据他们对数据隐私采取的标准方法，默认情况下，他们不会对用户提交的数据（包括 Claude 收到的任何截图）训练他们的人工智能生成模型。

刚刚，OpenAI最强竞对官宣：大模型可以使用电脑了

正文

请到「今天看啥」查看全文