OpenAI的CUA和Antropic的MCP都是为了扩展AI的-20250124233609_黄建同学的专栏文章_微信文章

OpenAI的CUA和Antropic的MCP都是为了扩展AI的-20250124233609

黄建同学 · 微博 · AI · 2025-01-24 23:36

正文

2025-01-24 23:36
本条微博链接

OpenAI的CUA和Antropic的MCP都是为了扩展AI的能力，与更多的现实应用场景相结合。

不同之处在于：
1. CUA专注于模拟人类操作计算机的能力，强调与图形用户界面的交互，而MCP则关注于数据源的连接和集成，旨在解决数据孤岛问题。
2. CUA的实现依赖于视觉识别和强化学习，而MCP则提供了一种标准协议，促进不同系统之间的互操作性。

CUA和MCP分别代表了两个大佬在AI Agents上不同的发展思路，谁能笑到最后，我们拭目以待！

OpenAI 刚刚发布的 Operator 底层技术：Computer-Using Agent (CUA) 详解↓

核心功能:
1. 视觉感知: CUA 通过分析屏幕截图来理解网页界面，识别按钮、文本框和菜单等元素。这种能力使得它能够像人类一样与图形用户界面 (GUI) 进行交互。

2. 任务执行: CUA 模拟人类的鼠标和键盘操作，能够执行点击、输入和滚动等动作。这种方式使得它能够处理许多传统 API 无法覆盖的任务。

3. 自我纠错: 在执行任务时，如果遇到问题，CUA 能够通过推理自我调整，并在无法解决时请求用户的帮助。这种人机协作的方式提高了任务完成的灵活性和准确性。

在多个基准测试中，CUA 展现了出色的性能：
1. 在 WebVoyager 测试中，CUA 的成功率达到了 87%，这是针对实际网站的导航测试。

2. 在 WebArena 测试中，成功率为 58.1%，主要评估浏览器使用能力。

3. 在 OSWorld 测试中，CUA 在完整计算机使用任务中的成功率为 38.1%，尽管这一成绩仍低于人类的 72.4%，但相较于之前的模型有显著提升。

另外，OpenAI 在 Operator 中实施了多项安全措施，包括“接管模式”，在处理敏感操作（如输入登录凭据或支付信息）时，要求用户手动完成。这确保了用户的隐私和安全。

视频为其Browser use的一个测试，可以看到每一步之前都通过截图然后视觉识别后进行操作↓

#AI这回真成生活助理了#

OpenAI的CUA和Antropic的MCP都是为了扩展AI的-20250124233609

正文

请到「今天看啥」查看全文