专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
目录
相关文章推荐
巴比特资讯  ·  全球最快AI视频生成火了,5秒让老黄马斯克拥 ... ·  12 小时前  
巴比特资讯  ·  人刚毕业,代码一点不会,他纯靠ChatGPT ... ·  12 小时前  
顽主杯实盘大赛  ·  大娃封神一战 ·  2 天前  
顽主杯实盘大赛  ·  大娃封神一战 ·  2 天前  
巴比特资讯  ·  前高管组团创业,OpenAI没有竞业协议? ·  3 天前  
巴比特资讯  ·  因为AI,阿里终于被市场看作一家要做102年 ... ·  3 天前  
51好读  ›  专栏  ›  FightingCV

全新Mobile-Agent-v2发布,自动化手机操作助手全面升级!

FightingCV  · 公众号  ·  · 2024-06-07 20:12

正文

关注“ FightingCV ”公众号

回复“ AI ”即可获得超100G人工智能的 教程

点击进入→ FightingCV交流群

Mobile-Agent 于今年年初发布,凭借强劲的自动化手机操作能力迅速在AI领域和手机制造商中引起广泛关注。短短五个月内,它已经在Github获得了 2,000个Star 。该系统采用纯视觉方案,通过视觉感知工具和操作工具完成智能体在手机上的操作,无需依赖任何系统级别的UI文件。得益于这种智能体中枢模型的强大,Mobile-Agent实现了即插即用,无需进行额外的训练和探索。

近日,团队推出了新版本Mobile-Agent-v2,并列举了几大改进亮点:继续采用纯视觉方案、多智能体协作架构、增强的任务拆解能力、跨应用操作能力以及多语言支持。目前,Mobile-Agent-v2的论文和代码已经发布,详情链接如下:

  • 论文:https://arxiv.org/abs/2406.01014
  • 代码:https://github.com/X-PLUG/MobileAgent

此外,ModelScope-Agent现已集成了Mobile-Agent-v2,详情请参考以下链接: https://github.com/modelscope/modelscope-agent 。根据魔搭团队发布的演示视频,ModelScope-Agent拥有了使用Mobile-Agent-v2完成自动化打车的能力。用户只需输入目的地,ModelScope-Agent即能通过规划、决策和优化等过程,为用户完成叫车服务。

作者团队在社交媒体和Github发布了一系列展示Mobile-Agent-v2在手机上实操的视频。下面的视频中展示了一个跨应用操作的实例。首先,用户需要Mobile-Agent-v2查看聊天软件中的未读消息并执行相关任务。

Mobile-Agent-v2根据指令先打开了WhatsApp,查看了来自 "Ao Li" 的消息。消息内容要求在TikTok上找到一个与宠物相关的视频并分享。于是,Mobile-Agent-v2退出WhatsApp,进入TikTok开始浏览视频。在发现一个宠物猫的视频后,它点击分享按钮,将视频链接发送给了 "Ao Li"。

以下是一个在社交媒体应用中的示例。用户要求Mobile-Agent-v2在X(推特)上搜索名人“马斯克”,然后关注他并评论他发布的一条帖子。由于社交媒体应用通常文字繁多,且UI布局复杂,这使得操作难度较大。

然而,从视频中可以看到,Mobile-Agent-v2精准地执行了每一步操作。尤其是在点击关注按钮后,推荐用户弹窗遮挡了原推文,但Mobile-Agent-v2通过上划屏幕,顺利完成了评论任务。

接下来是关于在同样复杂的长视频平台YouTube上操作的示例。从展示的视频可以看出,Mobile-Agent-v2在处理社交媒体和视频平台方面表现得非常出色。


中文应用小红书和微信提供了先进的用户互动体验。例如,小红书允许用户不仅能搜索各种攻略,还可以随时发表评论。微信则方便用户进行高效的消息回复。Mobile-Agent-v2在这两大平台上具备强大的功能,它能够根据微信消息的内容自动生成回复,同时还能依据小红书帖子的具体内容发表相关评论。这样一来,用户就能享受到更加智能化的互动服务。

Mobile-Agent-v2的技术实现将在下面进行介绍。在手机操作任务中,智能体通常需要通过多步骤来满足任务需求。每步操作时,必须跟踪当前任务的进展,即了解先前完成的要求,从而推断出依据用户指令进行的下一步操作。而操作历史记录,每一步包含的具体操作和对应的屏幕状态,都会被保存下来。然而,随着操作次数的增加,这些历史记载会不断变长。操作历史因图文交错的格式,使得任务进度的跟踪变得更加复杂。

正如下面的图例所展示的,经过7轮操作后,输入的操作历史序列长度已经超过了一万个token,图文交错的格式显著加大了智能体追踪任务进度的难度。

Mobile-Agent-v2为了缓解任务处理中的困境,采用了规划智能体,如图所示,其角色是为操作智能体提供任务的进度。这一智能体将冗长的操作记录转换为简洁的纯文本,从而简化任务追踪。然而,这种简化方法导致了屏幕信息的丢失,使得决策智能体无法从历史屏幕中获取关键信息。

在一些任务中,智能体需要查看天气并撰写穿衣指南。生成指南时,智能体需要依赖历史屏幕中的天气信息。因应这一需求,Mobile-Agent-v2设计了记忆单元,由决策智能体负责更新与任务相关的信息。此外,由于决策智能体无法直接观察操作后的屏幕信息,系统还引入了反思智能体,用于监测并评估决策智能体操作前后的屏幕状态变化,确保操作的正确性。

本文采用了一种动态评估方法,对五个系统内置应用和五个 第三方应用 进行了测试,测试范围涵盖了英文和非英文应用。在每个应用中,设计了两类指令:基础指令和进阶指令。另外,跨应用操作的指令也包括两条基础指令和两条进阶指令。

评估结果如表所示,详细展示了不同语言场景中的表现。从结果中可以看出,Mobile-Agent-v2在多项指标上,无论在英文还是非英文场景,都表现出了全面的提升。此外,通过人为增加操作知识(Mobile-Agent-v2 + Know.),性能得到了进一步的增强。

在本文中,作者通过消融实验结果(如下表所示)展示了去除规划智能体、决策智能体和 记忆单元 后的性能下降。

随后,通过对操作失败任务的分析(如下图所示),作者发现Mobile-Agent在任务后期失败的操作占比较高,而Mobile-Agent-v2则显示出更均匀的失败分布,这表明Mobile-Agent-v2在处理长序列任务方面更为有效。

最后,文章还展示了一个完整的操作流程和一个成功反思的实例,其中包括每个角色的输出。更多实例详见文章的最后部分。



往期回顾


基础知识

【CV知识点汇总与解析】|损失函数篇

【CV知识点汇总与解析】|激活函数篇

【CV知识点汇总与解析】| optimizer和学习率篇

【CV知识点汇总与解析】| 正则化篇

【CV知识点汇总与解析】| 参数初始化篇

【CV知识点汇总与解析】| 卷积和池化篇 (超多图警告)

【CV知识点汇总与解析】| 技术发展篇 (超详细!!!)


最新论文解析

NeurIPS2022 Spotlight | TANGO:一种基于光照分解实现逼真稳健的文本驱动3D风格化

ECCV2022 Oral | 微软提出UNICORN,统一文本生成与边框预测任务

NeurIPS 2022 | VideoMAE:南大&腾讯联合提出第一个视频版MAE框架,遮盖率达到90%

NeurIPS 2022 | 清华大学提出OrdinalCLIP,基于序数提示学习的语言引导有序回归

SlowFast Network:用于计算机视觉视频理解的双模CNN







请到「今天看啥」查看全文


推荐文章
顽主杯实盘大赛  ·  大娃封神一战
2 天前
顽主杯实盘大赛  ·  大娃封神一战
2 天前
巴比特资讯  ·  前高管组团创业,OpenAI没有竞业协议?
3 天前
BMWsky宝马会  ·  宝马摩托也有xDrive?!还是混合动力!
7 年前
第一电动汽车网  ·  保时捷和奥迪宣布将共享平台打造电动车
7 年前
THLDL领导力  ·  你的自律里,藏着你的运气
7 年前