AutoGLM-图形用户界面操作自主基础智能体技术详解

旺知识 · 公众号 · · 2024-11-09 16:59

正文

我们介绍了AutoGLM，这是ChatGLM家族[11]中的新成员，旨在作为通过图形用户界面（GUI）自主控制数字设备的基础智能体。虽然基础模型在获取人类知识方面表现出色，但在动态现实世界环境中的决策制定方面常常遇到困难，限制了它们向人工通用智能的发展。这一限制强调了开发能够通过自主环境交互学习的基础智能体的重要性，以加强现有模型。专注于Web浏览器和手机作为代表性的GUI场景，我们开发了AutoGLM作为实际的基础智能体系统，用于现实世界的GUI交互。我们的方法整合了一系列技术和基础设施，以创建适合用户交付的可部署智能体系统。通过这一发展，我们得出了两个关键见解：首先，为GUI控制设计适当的“中间接口”至关重要，它使得规划和定位行为的分离成为可能，这些行为需要分别为灵活性和准确性进行优化。其次，我们开发了一种新颖的渐进式训练框架，使得AutoGLM能够进行自我进化的在线课程强化学习。我们的评估表明AutoGLM在多个领域都具有有效性。在Web浏览方面，AutoGLM在VAB-WebArena-Lite上取得了55.2%的成功率（第二次尝试提高到59.1%），在OpenTable评估任务上达到了96.2%。在Android设备控制方面，AutoGLM在AndroidLab（VAB-Mobile）上获得了36.2%的成功率，在流行的中国APP中的常见任务上达到了89.7%。AutoGLM的部分能力现在可以通过Qingyan浏览器插件用于Web应用程序，并通过表单应用程序邀请进行Android测试。

我们翻译解读最新论文：AutoGLM ，文末有论文信息。作者：张长旺，图源：旺知识

1 引言

包括大型语言模型（LLMs）[5; 27; 7; 2; 42; 11]和大型多模态模型（LMMs）[20; 25; 26; 1]在内的基础模型因其卓越的语言理解和生成能力而受到广泛关注。通过在互联网规模的语料库上进行广泛的自监督[22]预训练，这些模型不仅获得了知识和语言能力，还获得了类似人类的推理和规划能力，使得LLMs作为智能体[21; 28]的崛起。这些智能体已经在多个领域证明了它们的实用性，包括编码[35; 16; 44]、数据分析[14; 21]和游戏[34; 18]，为通过开发多模态基础智能体[23]作为多个任务和环境的通才，为人工通用智能（AGI）的发展指明了充满希望的路径。

数字设备的普遍性为GUI能力智能体[13; 46; 43; 17]提供了独特的机会。这个领域提供了几个优势：GUI模拟器可以并行部署用于数据注释和在线强化学习（RL）；GUI环境为基于基础模型的智能体提供了丰富的文本和视觉输入，但与具体环境相比，在更安全和可控的环境中；GUI智能体由于其广泛的潜在用户基础而具有广泛的实际吸引力。它们成功的发展可以根本改变人机交互。

然而，GUI基础智能体的发展面临着一个关键挑战：现有预训练集中决策制定数据的稀缺。虽然互联网包含了大量的人类知识，但它主要由静态信息组成，这些信息不足以充分捕捉人类的决策制定和环境交互。构建有能力的基础智能体需要通过直接与现实世界环境交互或通过学习合成轨迹来丰富它们，这些基础智能体随后可以在数字世界中自我进化，逐步改进以实现真正的通用智能。

至关重要的是，这些系统必须以渐进式用户部署为发展目标。自主智能体旨在增强而非取代人类能力。用户部署既服务于教授智能体有效的人类辅助，也允许人类适应智能助手。这种方法还使研究人员能够在开发过程中系统地理解、发现和检查自主基础智能体的潜在利益和风险。

针对这些机会和挑战，我们介绍了AutoGLM，这是基于ChatGLM[11]模型家族构建的一系列基础智能体。AutoGLM代表了开发Web浏览器和Android两个基本GUI场景的基础智能体原型的开创性尝试。为了解决数据稀缺的挑战，我们采用了一套全面的培训技术和开发关键基础设施，以实现用户部署。这个过程产生了两个关键见解：

• 中间接口设计： 我们发现设计一个中间接口对于分离基础GUI智能体中的规划和定位行为至关重要。它们提出了不同的要求——规划需要灵活性和错误恢复，而定位强调行动准确性。它们的分离使得更灵活的开发和提高性能成为可能。

• 自我进化的在线课程RL[30]： 我们认识到错误恢复[23]对于强大和可部署的智能体应用至关重要，但仅通过离线训练很难获得。此外，指令和轨迹的短缺阻碍了训练进展。我们通过在线方式根据从弱到强的课程时间表实施自我进化RL来解决这一挑战。

基于这些见解，AutoGLM在各种基准测试和现实世界测试中展现出卓越的能力。在Web浏览方面，AutoGLM在具有挑战性的VAB-WebArena-Lite[47; 23]上实现了55.2%的任务成功率（第二次尝试提高到59.1%），大大超过了GPT-4o的18.2%。在OpenTable现实世界预订任务上，AutoGLM实现了96.2%的成功率，超过了GPT-4o（62.6%成功率）和Agent Q[29]（81.7%）。AutoGLM的部分Web能力已通过Qingyan浏览器插件在Chrome和Edge插件商店公开提供。参见图2中的实际示例。

对于Android控制，AutoGLM在AndroidLab[37]（之前称为VAB-Mobile[23]）上实现了36.2%的成功率，这是一个全面的交互式Android评估框架。这一性能超过了GPT-4o（31.2%成功率）和Claude-3.5-Sonnet（29.0%成功率）。我们还在Android上通过AccessibilityService实现了一个实用的应用程序，用于自主设备控制。在人类评估中，AutoGLM在流行的中国APP中的常见任务上取得了令人印象深刻的89.7%成功率（例如，“请从最近的咖啡店为我订购一大杯半糖冰美式咖啡，送到我的公司”）。Android客户端目前正在通过表单应用程序邀请内部测试。参见图1中的实际示例。

2 AutoGLM：技术和见解

在本节中，我们将概述开发AutoGLM所涉及的技术。特别是，我们将讨论两个重要的见解，这些见解使AutoGLM与现有的基于LLM或LMM的GUI智能体相比有了显著的改进。

2.1 重要技术

训练智能体与训练普通的LLM或LMM不同。一个关键障碍在于缺乏包含决策过程的高质量轨迹数据。以下是我们在项目中实现的一些有用技术。

预训练。 通常，互联网文本语料库中几乎没有与智能体相关的数据，这使得LLMs无法有效地作为智能体。此外，现有的LMM预训练主要是“视觉指令调整”，模型了文本和图像之间的对齐，而没有充分从顺序多模态数据中学习[4; 10]。因此，适当利用现有的在线数据，利用弱监督决策信号进行预训练实际上会有帮助。此外，对于多模态感知，高分辨率视觉输入非常重要，根据CogAgent[13]和我们的观察，特别是在使用定位策略，如Set-of-Marks（SoM）提示[38]时。

大型多模态模型（LMMs）。 LMMs对GUI理解和操作至关重要。传统上，在机器人流程自动化（RPA）中，范式是使用光学字符识别（OCR）捕获器匹配人类手工制作的自动化程序中的关键元素，这无法扩展和泛化。相反，LMMs可以执行模糊匹配，并得益于其强大的对常识和GUI环境的把握，从预训练中进行长期规划。然而，LMMs仍然需要大量训练以获得执行智能体任务所需的强大规划和推理能力。

行为克隆（监督微调）。 行为克隆（BC）是从头开始用高质量的专家轨迹训练智能体的关键策略。该策略也已验证对基于LLM和LMM的智能体训练有效[24; 41; 6; 13;17; 23]。然而，收集专家轨迹的成本和时间极高。此外，使用BC的一个基本问题是智能体只学习模仿专家的行为，而没有完全理解其目标。当专家轨迹是神谕（大多数情况下为了保持训练稳定性）时，智能体未能培养从错误中恢复的能力[23]。

课程学习。 智能体任务通常难度差异很大。因此，明智的做法是随着课程时间表逐步增加训练难度。例如，AutoWebGLM[17; 15]采用多阶段课程，智能体模型依次用单步任务、简单的几步任务和复杂的长期任务进行训练。DigiRL[3]还提出了一个简单的课程，根据特定时间戳对应的智能体能力，从固定指令集中过滤适当的任务。我们发现这种策略对于构建具有复杂目标实现能力的基礎智能体非常有用。

奖励建模（RM）。 要使在线RL与基础智能体一起使用，需要适当的RM以提供监督。传统上，许多RL智能体都是用有限的任务和精确的基于规则的奖励函数进行训练的。然而，基于LLM和LMM的基础智能体针对的是开放世界中的通用任务完成，这与特定任务奖励函数的能力相矛盾。因此，构建可处理广泛现实世界智能体任务的可泛化RM至关重要。具体来说，RM可以分为结果监督ORM和过程监督PRM[19; 8; 40]，它们提供不同粒度的有效监督。

强化学习（RL）。 与BC相比，从狭义上讲，RL可以更好地从失败中学习。这对于基础智能体训练尤为重要，因为获得高质量的专家轨迹非常困难[24]。然而，将RL应用于基础智能体训练的挑战在于环境采样的低效率。这个问题可以从两个方面理解：1）模拟器：当智能体在Web或Android环境中探索时，它们的效率受到互联网连接速度和最大并行度的限制。像Android虚拟设备这样的环境非常耗费内存[23]。2）样本多样性：LLM和LMM被训练以输出某些基于功能的行动。严格的功能格式化通常需要过度拟合训练与模型，导致即使在高温度下进行推理，也会产生固执的单调采样结果[33]。

尽管存在挑战，我们认为扩大RL和对基础模型的后期训练对于构建强大的基础智能体至关重要，这一点由OpenAI o1的成功所表明。如果不让它从与现实世界环境的交互中学习，就不可能构建通用智能。

表1：在VAB-WebArena-Lite[47; 23]上中间接口设计的实验。

2.2 见解1：中间接口设计

在开发过程中，我们发现中间接口设计对于分离基础智能体中的规划和定位行为至关重要。通过将它们分成不同的模块，可以从灵活性和准确性两个维度改进基础智能体，而不会相互干扰。

直觉很简单：我们发现现有的LLM和LMM在执行现有基准上的智能体任务时，在规划方面比在定位方面更有能力。虽然规划还有很大的改进空间，但大多数当前错误源于定位期间的错误元素识别[23]。例如，在VAB-WebArena-Lite进行视觉输入测试时生成的典型动作可能是：

AutoGLM-图形用户界面操作自主基础智能体技术详解

正文

请到「今天看啥」查看全文