专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
相关文章推荐
黄建同学  ·  这个Vegs ... ·  14 小时前  
爱可可-爱生活  ·  [CL]《Q-Filters: ... ·  昨天  
AI创业伙伴  ·  Manus和DeepSeek差别是什么?全能 ... ·  2 天前  
AI创业伙伴  ·  Manus和DeepSeek差别是什么?全能 ... ·  2 天前  
爱可可-爱生活  ·  突破传统限制的十亿级语料库搜索利器 ... ·  2 天前  
AIGC开放社区  ·  微软AI技术进阶课第4期【文档智能技术】,锁 ... ·  3 天前  
AIGC开放社区  ·  微软AI技术进阶课第4期【文档智能技术】,锁 ... ·  3 天前  
51好读  ›  专栏  ›  量子位

空间具身通用操作模型!百万真实数据训练,预训练代码全开源 | 上海AI Lab/TeleAI/上科大等团队新作

量子位  · 公众号  · AI  · 2025-03-05 12:21

正文

SpatialVLA团队 投稿
量子位 | 公众号 QbitAI

与3D物理环境交互、适应不同机器人形态并执行复杂任务的通用操作策略,一直是机器人领域的长期追求。

现有的通用操作模型局限于2D输入,缺乏鲁棒的3D感知能力,在面对单视角视差、光照变化和环境不一致等视觉外观变化时表现较差,限制了其在现实世界中的通用性。

人类具有通用且结构化的空间认知能力,能够在不同的场景中精细准确的操作物体 。因此,当前领域的一个关键问题是 如何有效地为VLA模型赋予通用的3D物理世界空间理解能力?

来自上海AI Lab、TeleAI、 上科大 等机构的研究员提SpatialVLA——

百万真机数据预训练的空间具身通用操作模型 ,全面探究了空间表征在具身通用操作模型中的潜力,在zero-shot泛化控制、场景高效微调、空间理解等多项评估中取得了最先进的性能。

通用操作策略面临的挑战

近期视觉-语言-动作模型的进展为构建此类通用策略提供了有前景的范式,特别是通过在多样化机器人数据上训练视觉-语言模型。相关的最新研究包括OpenVLA、RDT、π0等。然而现有的VLA模型大多局限于2D输入,缺乏稳健的3D感知能力,且在面对单视角视差差距、光照变化和环境不一致等视觉外观变化时表现较差,限制了其在现实世界中的可靠性。人类本能地形成结构化的空间认知模型,轻松地在直观且个性化的工作空间中组织物体进行操作。

因此,当前领域的一个关键问题是 如何有效地为VLA模型赋予通用的3D物理世界空间理解能力?

然而,开发具有3D空间智能的通用机器人策略面临两个关键挑战:

首先,由于相机传感器和安装位置(例如腕部安装与第三方视角)不同,机器人在各个形态下的观察数据缺乏3D对齐,造成了3D观察空间未同一校准的。

其次,机器人表现出多样的动作特性,源自自由度、运动控制器、工作空间配置和任务复杂性的差异,使得学习通用空间动作变得复杂。

空间具身通用操作模型

为应对以上挑战,本文提出了一个 通用机器人策略SpatialVLA ,通过探索对齐的空间表示,将VLA模型赋予3D空间智能。给定图像观察和任务指令,模型利用Ego3D位置编码处理图像,并自回归地预测空间动作token,随后解码为连续动作At进行机器人控制:

  • Ego3D Position Encoding : SpatialVLA通过Ego3D位置编码感知3D世界,将3D空间上下文与语义特征融合,消除了对特定机器人相机校准的需求,具有广泛的适用性。

  • Adaptive Spatial Action Grids :对于机器人动作,SpatialVLA采用自适应动作网格统一动作空间,将连续动作离散化为基于机器人任务数据的自适应网格,使得不同机器人之间的动作与物理世界的3D结构对齐。

  • Spatial Embedding Adaption : 在后训练中,空间动作网格通过自适应网格重新离散化,展现了在新机器人环境中适应的卓越能力,提供了一种灵活且有效的机器人特定后期训练方法。

具体来说,对于给定一个图像观察 和任务指令 L,模型通过Ego3D位置编码处理图像,并自回归地预测空间动作token,随后将这些token解码为连续动作 At 用于机器人控制。

该模型包含三个关键组件:(1)SigLIP视觉编码器提取2D语义特征,随后通过Ego3D位置编码将其与3D空间上下文相融合;(2)连续的7D动作 ΔT,ΔR, G 通过查询自适应动作网格转化为3个空间动作token,并自回归地预测并解码以用于机器人控制;(3)在后期训练中,动作网格和空间嵌入根据新的高斯分布进行调整,以便有效地迁移到全新的机器人平台。

团队发现,所提出的SpatialVLA模型以通用且与机器人无关的方式桥接了观察输入和动作输出,探索强大的3D空间感知表示,从而增强了VLA模型的鲁棒性与通用性。

实验验证

团队在7种不同的机器人学习场景中评估SpatialVLA的能力,包括24个真实机器人任务和3个仿真环境Simpler Env Google Robot、Simpler Env WidowX、LIBERO。

重点考察模型的三个关键能力:zero-shot泛化控制、新场景高效微调和空间理解能力。同时,团队还进行了详细的消融研究,验证了设计决策。模型在多项评估中取得了最先进的性能。

1. zero-shot泛化控制

SimplerEnv Benchmark SOTA性能 :包含WidowX和Google机器人配置,提供多样的操作场景,并涵盖不同的光照、颜色、纹理和机器人摄像头位姿。团队将模型与最新的通用操作策略进行比较,包括RT-1、RT-1-X、RT-2-X、Octo、OpenVLA、HPT、TraceVLA和RoboVLM等。

SpatialVLA在zero-shot和微调setting中均表展示了更强的泛化能力和鲁棒性,尤其在具有外观多样的机器人操作任务和环境条件下。

对于WidowX配置,SpatialVLA超越了RoboVLM,取得了34.4%和42.7%的整体成功率。在BridgeV2数据集上微调后,在“将茄子放入黄色篮子”任务中达到了100%的成功率,显示了模型出色的零样本泛化操作能力。

Figure 1. SimplerEnv evaluation across different policies on Google Robot tasks.

Figure 2. SimplerEnv evaluation across different policies on WidowX Robot tasks.

WidowX机器人平台开箱即用 :团队还在真实的WidowX机器人平台上进行实验,涵盖语言绑定、语义理解和运动干扰等任务。总体而言,SpatiaVLA在未见过的场景、物体、语言绑定和动态动作中表现出了较高的平均成功率,能够根据提示中的颜色描述准确地执行任务,超越了OpenVLA和其他通用策略展示了强大的泛化能力操作和指令跟随能力。

Figure 3. Zero-shot Robot Control Evaluation on WidowX Robot.

2.新场景高效微调

Franka高效微调,LIBERO Benchmark SOTA性能 :团队在13个Franka机械臂平台上 从1)拾取、放置、推拉和关闭基本任务;2)指令跟随;3)混合多任务三个角度来验证模型的操作性能,与主流策略(包括Diffusion Policy、Octo和OpenVLA)进行比较。

评估结果展示了其作为通用机器人控制策略的多功能性,在多种任务中表现出色,并可有效作为新机器人微调的初始化。同时SpatialVLA能够有效适应LIBERO环境中的任务,取得了78.1%的最高平均成功率,并在所有无state输入的策略中排名第一。

Figure 4. Adapting to New Robot Setups on Franka Robot.

Figure 5. LIBERO Simulation Benchmark Results.

3.空间理解能力评估

团队从三类机器人设置评估的空间理解能力:Franka机器人微调, WidowX机器人零样本泛化,以及Libero-Spatial微调。任务展示了不同的空间复杂性,任务涉及提示理解,深度变化感知,物体布局变化。与现有策略相比,SpatialVLA展现了优越的空间理解能力,在Franka任务#1中取得了73%的准确率,显著提升了在WidowX零-shot任务(任务#2-4)中的操作能力,尤其是在复杂的位置变化上。在LIBERO-Spatial任务中,SpatiaVLA取得了88.2%的成功率。像Octo、Diffusion Policy和OpenVLA等策略,由于缺乏深度信息的集成,在适应空间布局变化时面临较大挑战,其成功率始终低于50%。因此,团队建议将3D信息,如深度或点云,集成到VLA框架中,以提高模型在空间布局变化中的适应性和鲁棒性。







请到「今天看啥」查看全文