专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

智能手机GUI自动化的综合认知LLM智体

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-03-08 16:59

正文

24年2月上海交大的论文“Comprehensive Cognitive LLM Agent for Smartphone GUI Automation”。

大语言模型(LLM)作为类人的自主语言智体,在与现实世界环境交互方面,特别是在图形用户界面(GUI)自动化方面,显示出了巨大的潜力。然而,这些GUI智体需要全面的认知能力,包括详尽的感知和可靠的动作响应。作者提出综合认知LLM智体,CoCo-Agent,以及两种新方法,即 综合环境感知(CEP) 条件动作预测(CAP) ,系统地提高GUI自动化性能。首先,CEP通过不同的方面和粒度来促进GUI感知,包括视觉通道的屏幕截图和辅助详细布局以及文本通道的历史动作。其次,CAP将动作预测分解为子问题:动作类型预测和以动作类型为条件的动作目标(target)。


最近的研究(Li2023b;Richards2023)使用语言智体一词来指代与环境或其他智体交互并解决问题的语言模型。

一条研究路线依赖于LLM强大的基础能力。基于ChatGPT或GPT-4,只有编写良好的提示才能构建自主智体。现有工作已经证明了基于GPT智体的推理、规划和泛化能力,例如,AutoGPT(Richards,2023)、BabyAGI(Nakajima,2023)。

然而,当期望实用性和可靠性时,追求可以定制和私有化的可训练语言智体,以与给定的环境保持一致(Shao2023)。因此,另一个研究方向转向开源语言模型的可训练方法。m-BASH(Sun2022b)采用ROI池来在基于BERT的多任务系统中呈现GUI图标。AutoUI(Zhang2023)在多模态T5(Raffel2020)上进行训练,将GUI交互公式化为第一个主要的VQA形式。CogAgent(Hong2023)将基于额外注意的高分辨率视觉模块与对齐的预训练方法相结合。

除了语言建模,最近的工作还研究了与其他模态的融合。由于LLM的发展,主流方法通常遵循以语言为中心的框架,即将其他模态的信息编码到语言嵌入空间中。这些模型包括其他模态的预训练编码器、语言模型和作为桥接器的适配器(或投影器)。例如,LLaVA(Liu2023)使用线性层来映射来自CLIP的视觉编码,而BLIP-2(Li2023c)则采用Q-former来学习表示图像的查询向量。这一努力导致各种多模态LLM的出现,如Flamingo(Alayrac2022)、mPLUG(Ye2023)、MiniGPT-4&v2(Zhu2020;Chen2021)、Video LLaMA(Zhang2023b)和SpeechGPT(Zhang2023a)。

然而,多模态感知对GUI智体来说更具挑战性。因为GUI包含大量具有复杂语义连接的详细信息,例如传达习惯含义的非常小的图标。在现有的视觉模块和GUI智体所必需的感知之间仍然存在差距。


如图所示:CoCo-Agent,展示其时间步长的感知和动作响应。CEP集成所显示的细粒度元素。预测的动作是根据CAP制定的。

主干模型遵循LLaVA(Liu2023),它揭示了LLM对视觉模态的推广。 LLaVA 由Llama-2-chat-7B(Touvron2023)、视觉编码器(ENCODERimage)、CLIP(Radford2021)和一层线性投影(PRJ)组成,用于将图像特征桥接到语言嵌入空间(EMBEDtext)。







请到「今天看啥」查看全文