专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

空间具身通用操作模型！百万真实数据训练，预训练代码全开源 | 上海AI Lab/TeleAI/上科大等团队新作

量子位 · 公众号 · AI · 2025-03-05 12:21

正文

SpatialVLA团队投稿
量子位 | 公众号 QbitAI

与3D物理环境交互、适应不同机器人形态并执行复杂任务的通用操作策略，一直是机器人领域的长期追求。

现有的通用操作模型局限于2D输入，缺乏鲁棒的3D感知能力，在面对单视角视差、光照变化和环境不一致等视觉外观变化时表现较差，限制了其在现实世界中的通用性。

而 人类具有通用且结构化的空间认知能力，能够在不同的场景中精细准确的操作物体 。因此，当前领域的一个关键问题是 如何有效地为VLA模型赋予通用的3D物理世界空间理解能力？

来自上海AI Lab、TeleAI、上科大等机构的研究员提SpatialVLA——

百万真机数据预训练的空间具身通用操作模型 ，全面探究了空间表征在具身通用操作模型中的潜力，在zero-shot泛化控制、场景高效微调、空间理解等多项评估中取得了最先进的性能。

通用操作策略面临的挑战

近期视觉-语言-动作模型的进展为构建此类通用策略提供了有前景的范式，特别是通过在多样化机器人数据上训练视觉-语言模型。相关的最新研究包括OpenVLA、RDT、π0等。然而现有的VLA模型大多局限于2D输入，缺乏稳健的3D感知能力，且在面对单视角视差差距、光照变化和环境不一致等视觉外观变化时表现较差，限制了其在现实世界中的可靠性。人类本能地形成结构化的空间认知模型，轻松地在直观且个性化的工作空间中组织物体进行操作。

因此，当前领域的一个关键问题是 如何有效地为VLA模型赋予通用的3D物理世界空间理解能力？

然而，开发具有3D空间智能的通用机器人策略面临两个关键挑战：

首先，由于相机传感器和安装位置（例如腕部安装与第三方视角）不同，机器人在各个形态下的观察数据缺乏3D对齐，造成了3D观察空间未同一校准的。

其次，机器人表现出多样的动作特性，源自自由度、运动控制器、工作空间配置和任务复杂性的差异，使得学习通用空间动作变得复杂。

空间具身通用操作模型

为应对以上挑战，本文提出了一个 通用机器人策略SpatialVLA ，通过探索对齐的空间表示，将VLA模型赋予3D空间智能。给定图像观察和任务指令，模型利用Ego3D位置编码处理图像，并自回归地预测空间动作token，随后解码为连续动作At进行机器人控制:

Ego3D Position Encoding : SpatialVLA通过Ego3D位置编码感知3D世界，将3D空间上下文与语义特征融合，消除了对特定机器人相机校准的需求，具有广泛的适用性。
Adaptive Spatial Action Grids ：对于机器人动作，SpatialVLA采用自适应动作网格统一动作空间，将连续动作离散化为基于机器人任务数据的自适应网格，使得不同机器人之间的动作与物理世界的3D结构对齐。
Spatial Embedding Adaption : 在后训练中，空间动作网格通过自适应网格重新离散化，展现了在新机器人环境中适应的卓越能力，提供了一种灵活且有效的机器人特定后期训练方法。

具体来说，对于给定一个图像观察和任务指令 L，模型通过Ego3D位置编码处理图像，并自回归地预测空间动作token，随后将这些token解码为连续动作 At 用于机器人控制。

该模型包含三个关键组件：（1）SigLIP视觉编码器提取2D语义特征，随后通过Ego3D位置编码将其与3D空间上下文相融合；（2）连续的7D动作 ΔT,ΔR, G 通过查询自适应动作网格转化为3个空间动作token，并自回归地预测并解码以用于机器人控制；（3）在后期训练中，动作网格和空间嵌入根据新的高斯分布进行调整，以便有效地迁移到全新的机器人平台。

团队发现，所提出的SpatialVLA模型以通用且与机器人无关的方式桥接了观察输入和动作输出，探索强大的3D空间感知表示，从而增强了VLA模型的鲁棒性与通用性。

实验验证

团队在7种不同的机器人学习场景中评估SpatialVLA的能力，包括24个真实机器人任务和3个仿真环境Simpler Env Google Robot、Simpler Env WidowX、LIBERO。

重点考察模型的三个关键能力：zero-shot泛化控制、新场景高效微调和空间理解能力。同时，团队还进行了详细的消融研究，验证了设计决策。模型在多项评估中取得了最先进的性能。

1. zero-shot泛化控制

SimplerEnv Benchmark SOTA性能 ：包含WidowX和Google机器人配置，提供多样的操作场景，并涵盖不同的光照、颜色、纹理和机器人摄像头位姿。团队将模型与最新的通用操作策略进行比较，包括RT-1、RT-1-X、RT-2-X、Octo、OpenVLA、HPT、TraceVLA和RoboVLM等。

SpatialVLA在zero-shot和微调setting中均表展示了更强的泛化能力和鲁棒性，尤其在具有外观多样的机器人操作任务和环境条件下。

对于WidowX配置，SpatialVLA超越了RoboVLM，取得了34.4%和42.7%的整体成功率。在BridgeV2数据集上微调后，在“将茄子放入黄色篮子”任务中达到了100%的成功率，显示了模型出色的零样本泛化操作能力。

△ Figure 1. SimplerEnv evaluation across different policies on Google Robot tasks.

△ Figure 2. SimplerEnv evaluation across different policies on WidowX Robot tasks.

WidowX机器人平台开箱即用 ：团队还在真实的WidowX机器人平台上进行实验，涵盖语言绑定、语义理解和运动干扰等任务。总体而言，SpatiaVLA在未见过的场景、物体、语言绑定和动态动作中表现出了较高的平均成功率，能够根据提示中的颜色描述准确地执行任务，超越了OpenVLA和其他通用策略展示了强大的泛化能力操作和指令跟随能力。

△ Figure 3. Zero-shot Robot Control Evaluation on WidowX Robot.

2.新场景高效微调

Franka高效微调，LIBERO Benchmark SOTA性能 ：团队在13个Franka机械臂平台上从1）拾取、放置、推拉和关闭基本任务；2）指令跟随；3）混合多任务三个角度来验证模型的操作性能，与主流策略（包括Diffusion Policy、Octo和OpenVLA）进行比较。

评估结果展示了其作为通用机器人控制策略的多功能性，在多种任务中表现出色，并可有效作为新机器人微调的初始化。同时SpatialVLA能够有效适应LIBERO环境中的任务，取得了78.1%的最高平均成功率，并在所有无state输入的策略中排名第一。

△ Figure 4. Adapting to New Robot Setups on Franka Robot.

△ Figure 5. LIBERO Simulation Benchmark Results.

3.空间理解能力评估

团队从三类机器人设置评估的空间理解能力：Franka机器人微调， WidowX机器人零样本泛化，以及Libero-Spatial微调。任务展示了不同的空间复杂性，任务涉及提示理解，深度变化感知，物体布局变化。与现有策略相比，SpatialVLA展现了优越的空间理解能力，在Franka任务#1中取得了73%的准确率，显著提升了在WidowX零-shot任务（任务#2-4）中的操作能力，尤其是在复杂的位置变化上。在LIBERO-Spatial任务中，SpatiaVLA取得了88.2%的成功率。像Octo、Diffusion Policy和OpenVLA等策略，由于缺乏深度信息的集成，在适应空间布局变化时面临较大挑战，其成功率始终低于50%。因此，团队建议将3D信息，如深度或点云，集成到VLA框架中，以提高模型在空间布局变化中的适应性和鲁棒性。