专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
目录
相关文章推荐
宝玉xp  ·  Satya: Microsoft 365 ... ·  昨天  
宝玉xp  ·  //@庆丰://@Zodzod_张浩:转发微 ... ·  昨天  
黄建同学  ·  这有点厉害!Microsoft开源的RD自动 ... ·  2 天前  
爱可可-爱生活  ·  【[66星]ERQA:一个为机器人领域设计的 ... ·  3 天前  
51好读  ›  专栏  ›  机器之心

引领人机交互革命?微软研究团队发布80页的大模型GUI智能体综述

机器之心  · 公众号  · AI  · 2025-01-09 12:29

正文

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:[email protected][email protected]

本论文的主要作者 Chaoyun Zhang、Shilin He、Liqun Li,Si Qin 等均来自 Data, Knowledge, and Intelligence (DKI) 团队,为微软 Windows GUI Agent UFO 的核心开发团队的成员。


图形用户界面(Graphical User Interface, GUI)作为数字时代最具代表性的创新之一,大幅简化了人机交互的复杂度。从简单的图标、按钮、窗口到复杂的多应用工作流程,GUI 为用户提供了直观、友好的操作体验。 然而,在自动化和智能化升级的过程中,传统的 GUI 操控方式始终面临诸多技术挑战。 以往的脚本化或规则驱动方法在特定场景下确实有所帮助,但随着现代应用环境的日益复杂和动态化,它们的局限性愈发凸显。


近年,人工智能与大语言模型(Large Language Models, LLMs)的快速发展为此领域带来了变革性机遇。


近日,微软研究团队发布了一篇长达 80 页、逾 3 万字的综述论文《Large Language Model-Brained GUI Agents: A Survey》。这份综述系统梳理了大模型驱动的 GUI 智能体在现状、技术框架、挑战与应用等方面的研究进展。论文指出,通过将大语言模型(LLMs)与多模态模型(Visual Language Models, VLMs)相结合,GUI 智能体可以根据自然语言指令自动操作图形界面,并完成复杂的多步骤任务。这一突破不仅超越了传统 GUI 自动化的固有瓶颈,更推动了人机交互方式从「 点击 + 输入 」向「 自然语言 + 智能操作 」的跃迁。



链接:https://arxiv.org/abs/2411.18279

传统 GUI 自动化的局限与新挑战

过去数十年中,GUI 自动化技术主要依靠两大途径:

  1. 脚本化方法 :如 Selenium、AutoIt 等工具依赖预先编写的固定脚本,以模拟点击、输入等操作。这类方法适用于相对稳定的界面和流程,但当界面频繁更新或布局动态变化时,脚本易失效且维护成本高。
  2. 规则驱动方法 :根据预设规则识别 GUI 组件(如按钮、输入框)并执行相应操作。这类方法缺乏灵活性,难以应对复杂或非标准化的工作流程。

这些传统方法在面对高度动态、跨应用的复杂任务时显得力不从心。例如:

  • 如何让自动化系统理解网页内容并从中提取用户所需的关键信息?
  • 如何适应不同设备、操作系统上的多样化 GUI 界面?
  • 如何在多步骤任务中保持上下文的连贯与一致性?

大模型:智能化 GUI 交互的引擎
图 1:GUI 智能体的概念展示。

微软的综述指出,大语言模型(LLM)在解决上述问题中发挥着关键作用,其优势主要体现在以下三个方面:

1. 自然语言理解与任务规划

以 GPT 系列为代表的大模型拥有出色的自然语言理解与生成能力。它们能够将用户简单直观的指令(如「打开文件,提取关键信息,然后发送给同事」)自动解析为一系列可执行的操作步骤。通过多步推理(Chain-of-Thought)和任务分解,智能体可逐步完成极为复杂的流程。

2. 视觉理解与环境感知

引入多模态技术后,视觉语言模型(VLM)可处理文本与视觉信息。通过分析 GUI 截图或 UI 结构树,智能体可以理解界面元素(按钮、菜单、文本框)的布局和含义。这为智能体提供了类似人类的视觉理解能力,使其能够在动态界面中执行精准操作。如自动在网页中定位搜索栏并输入关键词,或在桌面应用中找到特定按钮进行复制、粘贴操作。

3. 动态执行与自适应能力

相较传统脚本方法,使用大模型的 GUI 智能体能对实时反馈做出响应,并动态调整策略。当界面状态变化或出现错误提示时,智能体可以尝试新的路径与方案,而不再依赖固定的脚本流程。

图 2:GUI 智能体的发展和主要工作。

在大模型的加持下,GUI 智能体为人机交互带来了质变的提升。用户仅需自然语言指令,智能体即可完成原本需要繁琐点击和复杂操作才能达成的目标。这不仅降低了用户的操作和学习成本,也减少了对特定软件 API 的依赖,提升了系统通用性。如图 2 所示,自 2023 年以来,以大模型驱动的 GUI 智能体为主题的研究层出不穷,逐渐成为前沿热点。

GUI 智能体的核心架构

微软的综述指出,一个大模型驱动的 GUI 智能体通常包括以下关键组件,如图 3 所示:

图 3:GUI 智能体基本架构。

1. 操作环境感知

输入数据包括 GUI 截图、UI 结构树、元素属性(类型、标签、位置)以及窗口层级信息。通过 Windows UI Automation、Android Accessibility API 等工具,智能体可有效捕获界面信息。

2. 提示工程(Prompt Engineering)

智能体将用户指令与当前 GUI 状态相结合,构建输入提示(Prompt),并利用大语言模型生成下一步操作计划。例如:「用户指令 + 界面截图 + UI 元素属性」 经过 LLM 处理后,智能体将输出明确的操作步骤(点击、输入、拖拽等)。

3. 模型推理

将构建好的 Prompt 输入 LLM 后,模型会预测后续的执行动作和计划步骤。

4. 操作执行

智能体根据 LLM 输出的高层指令进行实际操作,如鼠标点击、键盘输入或触摸操作,从而在网页、移动应用或桌面系统中完成任务。

5. 记忆机制

为应对多步骤复杂任务,GUI 智能体设计了短期记忆(STM)与长期记忆(LTM)机制,用于跟踪任务进度和历史操作,确保上下文的一致性与连贯性。

此外,更高阶的技术(如基于计算机视觉的 GUI 解析、多智能体协同、自我反思与进化、强化学习 等)也在不断探索中。这些技术将使 GUI 智能体日益强大和完善。微软的综述已对这些前沿方向进行了详细论述。

GUI 智能体框架、数据、模型与测评:全面梳理与实践指南

微软的综述对该领域的发展路径进行了系统性总结,涵盖框架设计、数据采集、模型优化和性能测评,为研究者与开发者提供了完整的指导框架。

1. 框架设计:多平台适配与跨领域扩展

当下 GUI 智能体的框架设计根据应用场景和平台特性,可分为:

  • Web 平台智能体:如 WebAgent 与 SeeAct 基于 HTML DOM 或可视化特征,执行网页导航、数据抓取、表单填写等多步骤操作。






请到「今天看啥」查看全文