专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

登顶AndroidWorld！超越Claude 3.5，Aria-UI开启电脑与手机的智能操控新范式

PaperWeekly · 公众号 · 科研 · 2025-01-08 13:34

正文

Rhymes AI 与港大合作发布了 Aria-UI，这是一款专为 GUI 智能体 Grounding 任务设计的大型多模态模型（LMM）。Aria-UI 使 AI 能够通过“观察”用户界面本身来完成复杂操作。

在数字智能体的关键测试基准 AndroidWorld 和 OSWorld 上，Aria-UI 搭配 GPT-4 分别取得了第一名和第三名的优异成绩，超越了 Claude 3.5 Sonnet Computer Use 智能体。作为一款仅激活 3.9B 参数的高效 MoE 模型，Aria-UI 支持在资源敏感环境中进行高效推理，展现出卓越的适应性和性能。

值得一提的是，Aria-UI 已完全开源其模型权重和训练数据。研究团队同时提供了基于 vLLM 和 Hugging Face Transformers 的推理方案，支持快速部署应用。

亮点：

🎯 精确的指令理解能力：Aria-UI 具备全面的基础指令处理能力，可灵活应对各类格式和场景需求，为智能规划和动态交互提供可靠支持。

🔍 强大的上下文感知：模型能精准理解和关联历史信息，无论是纯文本还是多模态输入，都能实现准确的场景理解和任务执行。

⚡ 高效轻量的架构设计：基于混合专家（MoE）架构，Aria-UI 仅需激活 3.9B 参数，就能高效处理各种分辨率和比例的 GUI 输入，实现卓越性能。

🏆 领先的基准测试成绩：在权威测试平台表现优异：

AndroidWorld：位居第一

OSWorld：排名第三超越 Claude 3.5 Sonnet 的设备操控能力。

⚓ 项目主页：

https://ariaui.github.io

🤗 Hugging Face 在线 demo（立即试用！）：

https://huggingface.co/spaces/Aria-UI/Aria-UI

🔧 GitHub 仓库：

https://github.com/AriaUI/Aria-UI

📑 论文链接：

https://arxiv.org/abs/2412.1702

🤗 Hugging Face 链接：

https://huggingface.co/Aria-UI/Aria-UI-base

▶️ 视频演示：

https://raw.githubusercontent.com/AriaUI/AriaUI.github.io/refs/heads/master/static/videos/Can you make Bing the main search thingy when I look stuff up on the internet.mp4
https://github.com/AriaUI/AriaUI.github.io/raw/refs/heads/master/static/videos/Delete the following expenses from pro expense Streaming Services, Unexpected Expenses, Pet Supplies..mp4
https://github.com/AriaUI/AriaUI.github.io/raw/refs/heads/master/static/videos/add audio into my presentation file.mp4

研究背景：高性能视觉驱动的GUI智能体

图形用户界面（GUI）作为当今数字世界的核心交互范式，已深度渗透到网页、桌面和移动设备等各类平台中。在这个背景下，GUI 智能体正在革新任务自动化的实现方式，从日常场景（如在线购物、订票服务）到专业领域的复杂工作流程，展现出强大的应用潜力。

决策规划（Planning）： 通过持续感知和分析屏幕状态，智能体能够为特定用户目标规划出最优的操作序列。
语言-视觉定位（Grounding）： 基于规划阶段生成的操作指令，智能体精确识别界面元素位置并执行相应的交互动作，实现从决策到行动的转化。

尽管大规模多模态模型（LMMs）在决策规划领域取得显著突破，特别是通过链式推理（CoT）和模型扩展等技术提升了推理能力，但在 GUI 元素的精确定位方面仍面临诸多挑战。具体而言，这些挑战主要体现在三个核心维度：

界面布局的异构性：不同设备和平台间的 GUI 呈现出显著的视觉差异，增加了元素定位的复杂度
交互指令的多样化：用户指令在表达形式和内容上存在巨大变化，要求模型具备强大的语义理解能力
任务场景的动态性：GUI 环境的实时变化和任务执行过程的复杂性，对模型的适应能力提出了更高要求

这些问题对模型的鲁棒性、适配性和效率提出了更高要求，同时也为开发真正通用、高效的 GUI 智能体提供了全新研究方向。

随着数字助手在多平台任务处理中的广泛应用，如何实现从自然语言指令到界面元素的精准映射（Grounding）成为关键技术挑战。传统方案主要依赖后台数据（如无障碍信息或 HTML 源码），但普遍存在效率低下、数据获取受限等问题。

Aria-UI 突破性地采用纯视觉方法，通过直接感知和理解用户界面，实现了自然语言与界面元素的智能对齐。其核心优势体现在：

强大的指令适配能力：为应对多种任务指令，Aria-UI 构建了一条灵活且可扩展的数据生成管道，能够高效生成多样化、高质量的指令样本。这使模型具备强大的泛化能力，无论何种任务环境都能灵活适应。
深度上下文感知：动态操作上下文对任务执行至关重要。Aria-UI 集成了纯文本和图文结合的历史操作记录，使其具备强大的上下文感知推理能力，显著提升模型在复杂任务场景下的执行效率和准确度。

在全面测试中，Aria-UI 在多项离线和在线基准任务中刷新了 SOTA 记录，不仅超越了传统纯视觉模型，也远远领先依赖 AXTree 等额外信息的方案。这一成果展示了纯视觉方法在 GUI 自动化领域的强大潜力，为未来更智能、高效的跨平台任务自动化探索提供了新思路。Aria-UI 的发布标志着纯视觉 GUI Grounding 从学术研究迈向实际应用。

高质量数据驱动：跨平台指令适配的关键突破

在设计 Aria-UI 时，我们发现现有的 GUI Grounding 数据集存在诸多不足。很多数据集规模小、不可公开获取，或者仅支持单一平台，且缺乏对动态任务上下文的支持。这些问题极大限制了多模态模型（LMM）在跨平台任务中的表现和泛化能力。

为此，Aria-UI 采用了一种创新的数据驱动方法，通过全新的数据合成 pipeline，覆盖了网页、桌面和移动端三大平台，为多样化指令适配能力提供了坚实的基础。

2.1 全方位覆盖多平台数据

Aria-UI 采用双阶段数据生成策略，构建了一套高效的数据处理 Pipeline：

第一阶段：界面元素的精细化描述

我们基于先进的多模态语言模型（如 GPT-4V 或 Qwen2-VL-72B）构建了元素描述生成系统。该系统整合了多维度输入信息：

界面元素截图
HTML 文本内容
空间位置信息

为获取更高质量的描述，我们优化了视觉输入方案：

精准截取：聚焦目标元素的核心区域
可视化增强：通过红框标注突出目标元素

系统生成的描述涵盖视觉特征、功能属性和空间关系等多个维度。示例：“位于 ChefMaria 频道右上角的订阅按钮，采用红底白字设计，配有铃铛图标，下方显示 ‘2.3M 订阅者’。”

第二阶段：指令的智能化构建

基于前述高保真元素描述，我们利用大语言模型（LLM）构建了指令生成系统。该系统能够产生自然、多样的交互指令，充分考虑实际使用场景和用户表达习惯。例如，对于上述订阅按钮，系统可生成如下指令：“点击 ChefMaria的订阅按钮”

为增强模型的泛化能力和鲁棒性，我们采用多样化策略，为每个界面元素自动生成三种不同表达形式的指令。这种方法不仅丰富了训练数据的多样性，也提升了模型对不同指令表达的理解能力。

通过这套精心设计的数据处理流水线，我们成功构建了一个跨平台的大规模指令数据集，涵盖网页、桌面应用和移动平台等多种场景，为模型训练提供了坚实的数据基础。

2.1.1 网页平台数据（Web）

为构建高质量的 GUI Grounding 数据集，我们选择了网页环境作为核心数据来源，其丰富的交互场景和动态特性为模型训练提供了理想基础。基于最新的 Common Crawl 数据，我们设计了一套精细的数据处理流程：

网页智能筛选：首先，在网页筛选阶段，我们采用 fastText 模型对海量网页进行智能评估，建立了严格的质量控制机制。通过多维度的内容分析，系统自动过滤低质量和不当内容，重点保留那些具有丰富交互特性的高质量页面，确保数据源的可靠性。
元素提取：在交互元素提取环节，我们开发了基于 HTML 结构的智能识别算法，精准定位并提取具有交互功能的界面组件。算法重点关注按钮、图标等核心交互元素，并优先从复杂场景中采集具有代表性的样本，以提升数据集的实用价值。
多分辨率渲染：为适应不同设备环境，我们利用 Playwright 工具实现了多分辨率渲染策略，重点覆盖 1920×1080 和 2440×1600 两种主流分辨率。这种自适应渲染方案确保了数据集在各类显示设备上的通用性，显著提升了模型的跨设备适应能力。

通过这套系统化的处理流程，我们从 173K 个网页中成功提取了 200 万个高质量交互元素，并最终生成了 600 万条精准指令样本。这个规模可观、质量优异的数据集为网页任务自动化奠定了坚实的数据基础。

2.1.2 桌面平台数据（Desktop）

桌面环境数据采集一直是 GUI 自动化领域的重要挑战。传统方法依赖人工标注，不仅成本高昂，且数据规模受限。例如，目前最大的公开数据集 OmniACT 仅包含 7.3K 个手动标注样本。为突破这一瓶颈，我们开发了基于大语言模型的自动化采集 Agent 系统。

智能探索：Agent 通过访问系统的 A11y 树（可访问性树）选择下一步交互元素，并采用深度优先搜索遍历未访问区域；

该系统采用创新的三层架构设计：核心是智能探索引擎，通过深度优先搜索策略，基于系统的可访问性树（A11y Tree）动态规划交互路径。系统实时分析界面结构，自主决策下一个交互目标，确保对界面元素的全面覆盖。为避免重复采集，我们实现了高效的状态记忆机制，显著提升了数据采集的准确性和效率。

在数据采集过程中，系统采用多模态方式记录界面元素信息，包括高清截图、精确位置坐标以及完整的可访问性属性。这种全方位的数据收集策略确保了采集数据的完整性和多样性。

通过这套自动化系统，我们成功构建了包含 50K 个高质量桌面元素样本的数据集，并据此生成了 150K 条丰富多样的交互指令，有效填补了桌面环境数据的空白，为 GUI 自动化研究提供了坚实的数据基础。

2.1.3 移动平台数据（Mobile）

移动平台作为 GUI 自动化研究的核心领域，已积累了丰富的公开数据资源。其中，AMEX 数据集以其 104K 界面截图和 1.6M 交互元素的显著规模优势脱颖而出。然而，这个数据集存在一个关键局限：绝大部分界面元素仅配有简单的文本描述，缺少与实际应用紧密关联的自然语言指令。

上下文感知：动态任务执行的关键能力

与传统的静态任务不同，动态任务需要模型能够理解上下文信息以准确完成操作。为此，Aria-UI 通过引入文本和图文交错的操作历史，强化了上下文感知能力。例如，在多步操作中，模型不仅参考当前元素的描述，还结合前几步的操作记录来生成更精准的指令。这种上下文感知机制让 Aria-UI 在复杂、多步骤任务中表现出更高的准确度和鲁棒性。

通过这一系列创新，Aria-UI 不仅解决了现有数据集的局限性，还为模型在多样化指令适配能力上提供了更强的支持。无论是网页、桌面还是移动端，Aria-UI 都展现出卓越的性能，为未来的跨平台任务自动化提供了强有力的工具支持。

高效精准：Aria-UI 的模型架构解析

Aria-UI 系统建立在先进的混合专家多模态大模型 Aria 之上，通过创新的架构设计充分发挥了基础模型的优势，实现了卓越的性能表现。该系统的核心竞争力主要体现在两个关键方面：

强大的多模态理解能力：Aria模型采用先进的多模态架构设计，能够精准理解和处理复杂的视觉-语言交互场景。其原生的多模态处理机制不仅可以准确识别 GUI 元素的视觉特征，还能深入理解元素间的空间关系和语义联系，为各类 GUI 任务提供了强大的环境适应能力，确保在不同场景下都能维持稳定的性能表现。
突出的性能效率：得益于创新的混合专家架构设计，Aria 模型将活跃参数规模精简至 3.9B，显著低于传统 7B 规模的密集模型。这种高效的参数配置不仅大幅提升了推理速度，还实现了更经济的计算资源利用。在实际应用中，系统能够快速响应用户指令，提供流畅的交互体验，完美平衡了性能和效率的需求。

4.1 高分辨率适配：提升界面处理精度

随着显示技术的快速发展，设备屏幕分辨率已从 1080p 迈向 2K 乃至更高水平。在此趋势下，提升 GUI Grounding 模型的高分辨率处理能力成为关键技术挑战。虽然 Aria 模型的原生分辨率仅为 980×980，但通过创新的技术优化，Aria-UI 成功将支持分辨率提升至 3920×2940，实现了质的飞跃。

这一突破主要基于两项核心技术改进：

首先，我们设计了高效的图像分块处理机制。系统将高分辨率输入智能划分为多个适度大小的图像块，既保持了细节信息的完整性，又确保了处理效率。这种分块策略使模型能够精确捕获复杂界面中的细微特征。

其次，借鉴先进的 NaViT 技术理念，我们实现了比例自适应机制。在进行分辨率调整时，通过智能填充算法严格保持原始图像比例，有效避免了图像变形导致的信息失真。这确保了模型在面对各种尺寸和布局的界面时，都能保持稳定的识别精度。

这些技术创新使 Aria-UI 在处理现代高分辨率界面时展现出卓越的适应性和精确性，为复杂 GUI 场景的自动化提供了可靠保障。

4.2 双阶段训练策略：构建全面交互能力

Aria-UI 采用创新的双阶段训练方法，系统性地构建模型的基础能力和动态适应能力，实现了从简单定位到复杂交互的全面提升。

1. 精准定位能力培养：在基础训练阶段，模型专注于掌握核心的 GUI Grounding 技能。通过大规模的单步定位任务训练，系统学习将自然语言指令（如“定位界面中特定描述的元素”）精确转化为标准化的相对坐标（0-1000 范围内）。这一阶段为模型构建了稳固的元素识别和定位基础，确保在各类界面环境中都能实现准确定位。

2. 上下文理解强化：进阶阶段着重提升模型的动态场景适应能力，主要通过两类关键上下文信息进行训练：i）纯文本历史记录：增强语言理解连贯性；ii）多模态混合记录：提升跨模态交互能力

为确保模型的泛化性能，我们在训练过程中融入 20% 的基础单步数据，有效防止过度拟合特定场景。这种混合训练策略使模型在保持基础精度的同时，获得了出色的动态任务处理能力。

4.3 推理阶段：动态上下文赋能

在推理过程中，Aria-UI 会生成归一化至 [0, 1000] 范围的像素坐标，用于定位目标元素。借助上下文感知训练，模型可以将历史操作记录（如先前的元素交互或定位结果）作为输入，这种设计大幅提升了模型在复杂动态环境中的表现，使其能够高效执行跨平台任务。

通过这些优化，Aria-UI 不仅精准适配高分辨率和复杂界面，还能灵活应对动态环境中的多种任务，展现了卓越的性能和适应能力，为 GUI Grounding 的未来发展指明了方向。

全面测评：Aria-UI 在 Agent 任务中的卓越表现

在 ScreenSpot 基准测试中，我们率先评估了 Aria-UI 的单步 GUI Grounding 能力。该测试涵盖六个子集，涉及多种类型元素和三大平台，为每个测试样本提供一张独特的 GUI 图像及人工标注的指令，要求模型精准定位特定元素。测试中，移动端与网页端的分辨率为 2K，桌面端样本分辨率为 540p。

结果表明，Aria-UI 在所有子集上的平均准确率达到 82.4%，展现了卓越的基础 Grounding 性能。特别是在涉及文本元素的任务中，Aria-UI 展现出强大的优势，充分证明了其在不同平台和元素类型中的强大适应能力与稳健性。

5.1 移动端：离线 Agent 表现强劲

在离线动态测试场景中，模型需为智能体的任务轨迹生成定位坐标。我们选择了 AndroidControl-Low、GUI-Odyssey 和 AndroidControl-High 三个数据集进行测试：

AndroidControl-Low 和 GUI-Odyssey提供逐步指令；
AndroidControl-High仅提供用户目标任务，需额外使用 GPT-4o 规划器生成逐步指令。

测试中，我们引入了两种变体：

Aria-UI_TH：输入基于文本格式的动作历史，用于辅助理解任务上下文，兼顾效率与性能。
Aria-UI_IH：结合文本动作历史与图像信息的混合输入，提供更丰富的上下文，适用于需要精确视觉感知的场景。

结果显示，这两种变体在 AndroidControl 和 GUI-Odyssey 数据集上均超越现有基准模型，进一步验证了历史信息在任务完成中的重要作用。尤其是 Aria-UI_TH 在效率与性能之间实现了完美平衡。

5.2 网页端：离线 Agent 的多模态适应能力

我们在 Multimodal-Mind2Web 基准上验证了 Aria-UI 的网页智能代理性能。此基准包含跨任务、跨网站及跨领域三种子集，考察模型在零样本场景中的表现。测试中，Aria-UI 平均准确率达到 57.5%，而两种变体分别达到 58.9%，显著超越现有模型。特别是在跨网站和跨领域任务上，Aria-UI_IH 展现了其强大的多模态上下文理解能力，为复杂网页环境中的精准定位提供了有力支持。

5.3 在线评估：真实场景中的强大能力

5.3.1 移动端与电脑端在线任务评估

移动与 Web 环境表现突破

在 AndroidWorld 移动模拟环境中，Aria-UI_TH 创造了 44.8% 的任务成功率新纪录，显著超越现有最先进方法。系统通过虚拟设备状态监测，在复杂指令处理和动态场景适应方面展现出独特优势。
在 MobileMiniWob++ 网页任务评估中，尽管传统 SoM 方法在简单布局任务上具有一定优势，但 Aria-UI 凭借其强大的纯视觉处理能力，在整体表现上仍然遥遥领先。这一成果充分证明了模型在跨场景应用中的卓越泛化能力。

5.3.2 复杂电脑系统环境下的优势效果

在全新的 OSWorld 基准测试中，Aria-UI 再次展示了令人瞩目的性能：整体任务平均成功率达到 15.15%，在多个关键应用场景中表现优异：