专栏名称: 黄建同学
数码博主 超话主持人(ChatGPT超话) 头条文章作者 我的学习笔记,关注AI+新能源
目录
相关文章推荐
爱可可-爱生活  ·  这篇论文创新性地提出了 ... ·  6 小时前  
爱可可-爱生活  ·  晚安~ #晚安# -20250125230440 ·  昨天  
AIbase基地  ·  AI日报:阶跃星辰跃问App推「AI ... ·  昨天  
AIbase基地  ·  AI日报:阶跃星辰跃问App推「AI ... ·  昨天  
爱可可-爱生活  ·  [CL]《Test-Time ... ·  3 天前  
51好读  ›  专栏  ›  黄建同学

OpenAI的CUA和Antropic的MCP都是为了扩展AI的-20250124233609

黄建同学  · 微博  · AI  · 2025-01-24 23:36

正文

2025-01-24 23:36

OpenAI的CUA和Antropic的MCP都是为了扩展AI的能力,与更多的现实应用场景相结合。

不同之处在于:
1. CUA专注于模拟人类操作计算机的能力,强调与图形用户界面的交互,而MCP则关注于数据源的连接和集成,旨在解决数据孤岛问题。
2. CUA的实现依赖于视觉识别和强化学习,而MCP则提供了一种标准协议,促进不同系统之间的互操作性。

CUA和MCP分别代表了两个大佬在AI Agents上不同的发展思路,谁能笑到最后,我们拭目以待!
OpenAI 刚刚发布的 Operator 底层技术:Computer-Using Agent (CUA) 详解↓

核心功能:
1. 视觉感知: CUA 通过分析屏幕截图来理解网页界面,识别按钮、文本框和菜单等元素。这种能力使得它能够像人类一样与图形用户界面 (GUI) 进行交互。

2. 任务执行: CUA 模拟人类的鼠标和键盘操作,能够执行点击、输入和滚动等动作。这种方式使得它能够处理许多传统 API 无法覆盖的任务。

3. 自我纠错: 在执行任务时,如果遇到问题,CUA 能够通过推理自我调整,并在无法解决时请求用户的帮助。这种人机协作的方式提高了任务完成的灵活性和准确性。

在多个基准测试中,CUA 展现了出色的性能:
1. 在 WebVoyager 测试中,CUA 的成功率达到了 87%,这是针对实际网站的导航测试。

2. 在 WebArena 测试中,成功率为 58.1%,主要评估浏览器使用能力。

3. 在 OSWorld 测试中,CUA 在完整计算机使用任务中的成功率为 38.1%,尽管这一成绩仍低于人类的 72.4%,但相较于之前的模型有显著提升。

另外,OpenAI 在 Operator 中实施了多项安全措施,包括“接管模式”,在处理敏感操作(如输入登录凭据或支付信息)时,要求用户手动完成。这确保了用户的隐私和安全。

视频为其Browser use的一个测试,可以看到每一步之前都通过截图然后视觉识别后进行操作↓

#AI这回真成生活助理了##OpenAI发布智能体Operator##ai创造营# 黄建同学的微博视频