OpenAI的CUA和Antropic的MCP都是为了扩展AI的能力,与更多的现实应用场景相结合。
不同之处在于:
1. CUA专注于模拟人类操作计算机的能力,强调与图形用户界面的交互,而MCP则关注于数据源的连接和集成,旨在解决数据孤岛问题。
2. CUA的实现依赖于视觉识别和强化学习,而MCP则提供了一种标准协议,促进不同系统之间的互操作性。
CUA和MCP分别代表了两个大佬在AI Agents上不同的发展思路,谁能笑到最后,我们拭目以待!
不同之处在于:
1. CUA专注于模拟人类操作计算机的能力,强调与图形用户界面的交互,而MCP则关注于数据源的连接和集成,旨在解决数据孤岛问题。
2. CUA的实现依赖于视觉识别和强化学习,而MCP则提供了一种标准协议,促进不同系统之间的互操作性。
CUA和MCP分别代表了两个大佬在AI Agents上不同的发展思路,谁能笑到最后,我们拭目以待!
OpenAI 刚刚发布的 Operator 底层技术:Computer-Using Agent (CUA) 详解↓
核心功能:
1. 视觉感知: CUA 通过分析屏幕截图来理解网页界面,识别按钮、文本框和菜单等元素。这种能力使得它能够像人类一样与图形用户界面 (GUI) 进行交互。
2. 任务执行: CUA 模拟人类的鼠标和键盘操作,能够执行点击、输入和滚动等动作。这种方式使得它能够处理许多传统 API 无法覆盖的任务。
3. 自我纠错: 在执行任务时,如果遇到问题,CUA 能够通过推理自我调整,并在无法解决时请求用户的帮助。这种人机协作的方式提高了任务完成的灵活性和准确性。
在多个基准测试中,CUA 展现了出色的性能:
1. 在 WebVoyager 测试中,CUA 的成功率达到了 87%,这是针对实际网站的导航测试。
2. 在 WebArena 测试中,成功率为 58.1%,主要评估浏览器使用能力。
3. 在 OSWorld 测试中,CUA 在完整计算机使用任务中的成功率为 38.1%,尽管这一成绩仍低于人类的 72.4%,但相较于之前的模型有显著提升。
另外,OpenAI 在 Operator 中实施了多项安全措施,包括“接管模式”,在处理敏感操作(如输入登录凭据或支付信息)时,要求用户手动完成。这确保了用户的隐私和安全。
视频为其Browser use的一个测试,可以看到每一步之前都通过截图然后视觉识别后进行操作↓
#AI这回真成生活助理了##OpenAI发布智能体Operator##ai创造营# 黄建同学的微博视频
核心功能:
1. 视觉感知: CUA 通过分析屏幕截图来理解网页界面,识别按钮、文本框和菜单等元素。这种能力使得它能够像人类一样与图形用户界面 (GUI) 进行交互。
2. 任务执行: CUA 模拟人类的鼠标和键盘操作,能够执行点击、输入和滚动等动作。这种方式使得它能够处理许多传统 API 无法覆盖的任务。
3. 自我纠错: 在执行任务时,如果遇到问题,CUA 能够通过推理自我调整,并在无法解决时请求用户的帮助。这种人机协作的方式提高了任务完成的灵活性和准确性。
在多个基准测试中,CUA 展现了出色的性能:
1. 在 WebVoyager 测试中,CUA 的成功率达到了 87%,这是针对实际网站的导航测试。
2. 在 WebArena 测试中,成功率为 58.1%,主要评估浏览器使用能力。
3. 在 OSWorld 测试中,CUA 在完整计算机使用任务中的成功率为 38.1%,尽管这一成绩仍低于人类的 72.4%,但相较于之前的模型有显著提升。
另外,OpenAI 在 Operator 中实施了多项安全措施,包括“接管模式”,在处理敏感操作(如输入登录凭据或支付信息)时,要求用户手动完成。这确保了用户的隐私和安全。
视频为其Browser use的一个测试,可以看到每一步之前都通过截图然后视觉识别后进行操作↓
#AI这回真成生活助理了##OpenAI发布智能体Operator##ai创造营# 黄建同学的微博视频