专栏名称: 学术头条

致力于科学传播和学术分享，关注计算机科学、认知科学、人工智能科学、神经科学、脑科学等学科领域。我们从跨学科的角度，围绕“认知智能”向科学界和大众介绍相关领域的前沿话题和深度解读。

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

学术头条 · 公众号 · · 2024-11-08 08:08

正文

在手机、笔记本电脑等移动设备普及的背景下，开发能够自主完成复杂任务的 Agent 意义重大。

尤其是，安卓（Android）系统在全球移动操作系统中广泛应用，设计和训练 Android Agent 以完成复杂任务，已经成为人工智能（AI）领域的热门研究方向。

然而，现有的 Android Agent 多基于闭源语言模型，虽然具备不错的自然语言理解和推理能力，但在动态任务应对、环境交互和开源适配性等方面存在局限，且对 Android Agent 的训练与评估研究缺乏对开源和闭源模型的系统研究。

如今，来自清华大学与北京大学的研究团队推出了 一个集成文本和图像模态操作环境、统一操作空间及可重现的基准测试的框架——AndroidLab ，为 Android agent 的研究和开发提供了强有力的支持。AndroidLab 特别整合了 Android Instruct 数据集，显著 提升了开源模型在任务执行中的表现 。

论文链接：

https://arxiv.org/abs/2410.24024

Github 地址：

https://github.com/THUDM/Android-Lab

结果显示，经过指令微调的开源模型在任务处理能力上明显缩小了与闭源模型的差距，将 LLM 的平均成功率从 4.59% 提高到 21.50%，LMM 的平均成功率从 1.93% 提高到 13.28%，为 Agent 的研究和应用开辟了新的路径。

标准化多模态操作环境

AndroidLab 定义了一个标准化的操作环境，能够支持 LLMs 和 LMMs 在相同的操作空间内进行交互从而支持不同模型间的公平比较。为了满足不同模型的需求，他们设计了以下两种操作模式：

XML 模式 。专为文本输入的 LLMs 设计，通过压缩 XML 信息传递界面状态，模型直接选择元素执行操作。这种方法优化了 XML 数据的压缩和解析流程，减少信息冗余，提高了交互效率。每个操作前后，他们通过解析 UI 树结构，确保操作的精确性和一致性。
SoM 模式 。针对 LMMs 的设计，采用 Set-of-Mark 方法，将屏幕截图与标记信息结合，模型选择带有编号的标记元素进行操作。每个可点击元素都有一个独特的标记编号，确保模型在多模态输入下能够精确地选取目标。SoM 模式为多模态模型提供了完整的视觉和文本上下文，优化了模型的任务执行能力。

为进一步提升模型在任务中的表现，他们实现了两种新颖的高级操作框架：

ReAct 框架 。基于逐步推理和操作输出。模型不仅输出操作，还展示中间推理过程。这一框架在复杂任务中表现优越，因为它鼓励模型先思考，再执行操作，减少了无效或错误步骤。
SeeAct 框架 。推理与操作分离，分两轮交互进行。第一轮模型生成详细的推理步骤，第二轮执行具体操作。这种框架在多模态环境中应用效果有限，但在特定任务中能够提升精度。

图｜SoM 模式与 XML 模式以及两种模式下的 ReAct 和 SeeAct 框架（a）。闭源模型在 AndroidLab 评价基准的表现。在 XML 模式下，GPT-4-1106-Preview 的成功率最高，为 31.16%，与 SoM 模式下的 GPT-4o 相同（b）。

图｜训练数据收集流程（a），经过训练后，开源模型能力接近闭源模型（b）

基准测试

研究团队设计了一个覆盖 9 个常见应用的 AndroidLab 基准测试，共包含 138 个任务，覆盖多样化的真实世界复杂交互场景。任务类型包括操作任务和查询任务两大类：

操作任务 ：例如，打开设置并调整系统时间、在浏览器中打开特定网页、或在社交媒体应用中发布消息。这类任务包含多个操作步骤，要求 Agent 具备良好的任务规划与执行能力。
查询任务 ：例如，从日历中查找事件详情、在图库中获取特定照片的描述等。这类任务评估 Agent 探索环境并获取信息的能力。

图｜任务设计示例和任务类别分布图

每个任务都设计了多个子目标，以便细化任务评估。他们使用 XML 树结构匹配来验证每个子目标的完成情况，从而确保结果准确性和操作的高效性。为了保证结果的可重现性，他们在环境中使用固定的设备状态、离线测试和预定义答案验证。

图｜一个 agent 完成整个任务的所有子目标的例子

为精准评估 Agent 的任务表现，AndroidLab 基准测试还引入以下评价指标：

任务完成率（SR） ：衡量 Agent 完成任务的成功次数，作为直接的任务完成指标。每个任务仅在所有子目标均成功完成时计为成功。
子目标成功率 （Sub-SR） ：他们将任务拆分为多个子目标，逐步评估模型在每个步骤上的表现。此指标鼓励模型分阶段成功执行任务，特别适用于复杂操作任务的细粒度评估。
反向冗余率（RRR） ：比较模型的操作路径与人类最优路径的长度，计算冗余操作的程度。该指标的数值越高，代表模型路径越接近最优路径，操作更高效。
合理操作比率（ROR） ：评估每次操作是否合理，判断屏幕是否发生变化。无效操作（如点击无效区域）视为不合理，计算所有操作中合理操作的比例。

数据集

为进一步增强模型在多模态与文本输入任务中的表现，研究团队构建了一个包含 726 条操作轨迹和 6k 步骤的 Android Instruct 数据集作为高效的训练与优化工具。

该数据集结合自动化探索与人工标注，生成高质量的操作数据，极大提升了开源模型在任务完成率和操作效率，确保覆盖范围广且操作路径清晰准确。

具体而言，数据集的构建包括以下步骤：

任务生成与扩展 ：初期使用学术数据集的任务指令进行生成，之后使用大语言模型自动扩展，确保指令多样性并覆盖常见应用场景。所有生成的任务均需人工审查，确保其可行性。
自动化探索 ：采用 LLMs 和 LMMs 自动探索任务场景，模型在操作完成后输出“finish”，记录其完成的操作路径。他们使用奖励模型对这些路径进行筛选，剔除低效或错误操作。
人工标注与校验 ：采用专门的标注工具进行详细标注，记录每个操作的前后页面状态。标注过程包括：任务可行性审查、界面探索与操作记录、操作轨迹记录及交叉验证，确保标注的准确性和一致性。

图｜Android Instruct 数据集统计信息，如任务步数分布、指令长度和常用词汇分布

实验结果

研究团队在多种开源和闭源模型上测试了 AndroidLab 基准，得到以下主要结果：

在 XML 模式下，GPT-4-1106-Preview 表现最优，任务成功率高达 31.16%，而子目标成功率为 38.21%，显示出在处理文本输入任务时的出色表现。GPT-4o 在任务成功率上略低于 GPT-4-1106-Preview，但在操作路径的优化方面表现突出，其反向冗余率达 107.45，显著减少了不必要的操作步骤。开源模型方面，Llama-3.1-8B-Instruct、GLM-4-9B-Chat 和 Qwen2-7B-Instruct 在微调后实现了明显提升，任务成功率分别从 2.17%、4.59% 和 4.35% 提升至 23.91%、21.01% 和 19.57%。

清华、北大团队推出「安卓智能体」训练评估新框架 AndroidLab

正文

标准化多模态操作环境

基准测试

数据集

实验结果

请到「今天看啥」查看全文