专栏名称: AI科技评论
点评学术,服务 AI !
相关文章推荐
西安头条  ·  痛心!一对90后夫妻被困身亡 ·  昨天  
扬子晚报  ·  3·15曝光问题,多地连夜查处! ·  昨天  
贵阳日报  ·  贵阳市市场监督管理局连夜部署 ... ·  昨天  
51好读  ›  专栏  ›  AI科技评论

大镖客里骑马,星露谷里种地,天际线里盖房,还能修图剪视频,Cradle 操控一切软件!

AI科技评论  · 公众号  ·  · 2024-07-10 17:37

正文

智能体又双叒叕进化了!这次什么游戏都能玩,什么软件都能操控了。
Agent不仅能在《荒野大镖客2》里完成长达40分钟主线剧情还能在开放世界自由探索。
在《星露谷物语》里清理农场,种地,去商店购物。
在《城市天际线》中建造出千人小镇。
在《当铺人生2》中 和客户讨价还价,最高达到87%的周收益率!
浏览网页,发推,下载paper不在话下。
撰写、回复、查找邮件样样精通。
美图秀秀里修图。
剪映里剪视频。
飞书里日常办公。



1

Cradle:真正的全能AI Agent
近日,昆仑万维携手北京智源人工智能研究院、新加坡南洋理工大学、北京大学等顶尖名校机构,提出通用计算机控制框架Cradle,使AI Agent无需训练便能像人一样直接控制键盘鼠标,不依赖任何内部API,实现任意开闭源软件交互。
Cradle不仅能够在游戏《荒野大镖客2》中完成长达40分钟的主线任务,在《星露谷物语》中清理农场、种地、购物,在《城市天际线》中建造出千人小镇,在《当铺人生2》中和客户讨价还价,最高获得87%的周收益率;还能够用Chrome浏览网页、用Outlook发送邮件、用飞书办公;甚至能用美图秀秀修图,用剪映剪辑视频,成为真正的全能AI Agent!
Cradle是迄今为止第一个既能玩多种商业游戏又能操作各种软件应用的AI框架,其论文、项目、代码均已开源。
论文标题:Cradle: Empowering Foundation Agents Towards General Computer Control
论文链接:https://arxiv.org/abs/2403.03186
项目主页:https://baai-agents.github.io/Cradle
代码链接:https://github.com/BAAI-Agents/Cradle



2

GCC:通用计算机控制
随着大模型的发展,越来越多的智能体(AI Agents)研究关注计算机控制,包括浏览网页、操作智能手机、玩游戏等。然而,已有研究依赖软件内部API获取输入,并输出预先定义好的动作,无法真正像人类一样通过眼、脑、手的配合操控计算机。
要构建能完成计算机上一切任务的通用智能体,必须使用最通用和最标准的输入输出与计算机进行交互。因此,通用计算机控制使用统一的输入和输出,从而让智能体的通用性变为可能。
但通用性带来了操作上的难度:
  1. 使用计算机屏幕作为输入对智能体的视频理解能力提出了更高的要求,例如由于没有内部API,需要通过视觉信息判断动作是否执行成功;

  2. 使用键盘和鼠标操作作为输出使得智能体需要更高的时空操作精度,比如键盘按键和鼠标点击通常额外涉及时间维度;

  3. 许多计算机上的复杂任务往往需要连续执行成百上千次的正确操作才能完成,是智能体的长程规划决策和历史信息维护处理能力的一大挑战;

  4. 虚拟世界中多如繁星的环境和任务是对智能体高效探索并自我提升实现通用性的一大考验。

这些难题成为了构建通用计算机控制智能体(GCC Agents)的挑战。



3

六大模块,三大环节
Cradle一共由6个模块组成: 信息收集、自我反思、任务推断、技能管理、行动规划 ,以及 记忆 模块。
Cradle高度的通用性来源于其对和电脑交互过程中的原始输入输出的合理封装和抽象,以从屏幕中显示的视频图像作为输入,提取其中的文本和视觉信息进行决策,并且输出最底层的操作系统中控制键盘和鼠标的信号去和电脑交互,使得其可以不依赖于任何假设和任何内部API进行交互。






请到「今天看啥」查看全文