专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

斯坦福炒虾机器人原班人马新作！最强大脑Gemini加持，机器人炫技导航玩出新花样

新智元 · 公众号 · AI · 2024-07-12 12:33

正文

新智元报道

编辑：编辑部

【新智元导读】斯坦福炒虾机器人团队时隔半年再出新作，谷歌最强Gemini 1.5 Pro加持，Mobility VLA让机器人在836平方米的办公室里轻松导航。

还记得年初爆火的斯坦福炒虾机器人吗？

时隔半年，原班人马联合谷歌研究人员，重磅推出全新机器人自主导航的基础模型——Mobility VLA。

与以往不同的是，新架构得到了谷歌迄今为止最强Gemini 1.5 Pro大模型的加持。

Gemini 1.5 Pro不仅拥有100k长上下文，还具备了强大的多模态能力。给机器人安上「最强大脑」，可想而知，用在RT-2机器人身上有多么无敌。

通过观看9000平方英尺谷歌办公室视频之后，RT-2机器人建立起了对整个环境感知的概念。

接下来，就是让RT-2炫技的时刻了。

首先，让RT-2带自己去一个能画东西的地方。

戴着一个可爱的的黄色领结机器人回应道，「好的，给我一分钟，让我用Gemini稍加思考」。

不一会儿功夫，它就把人类带到一块墙壁大小的白板前。

然后，它再次收到新的命令，按照白板上指示的路线图，抵达「蓝色区域」。

RT-2再次思考了片刻，然后走了很长一段路，最终来到了机器人测试区。

不仅如此，研究人员主动带领RT-2参观了Lewis的办公桌，以及临时办公桌区域之后，再要求RT-2带路。

可见，RT-2有着强大的记忆能力，能够准确识别位置。

50条指令，完成率90%

RT-2能够流畅完成以上任务的奥秘就在于，利用Genimi训练机器人的导航系统。

具体做法是，拍摄指定区域（如家庭或办公空间）的视频导览，让Gemini 1.5 Pro加持的机器人「观看」视频以了解环境。

接下来，利用Mobility VLA将环境理解和常识推理能力结合起来。

然后，机器人可以根据观察和学习到的情况，对书写和语音的指令以及手势做出反应。

例如，在用户展示一部手机并询问「在哪里可以充电」后，机器人会引导用户找到电源插座。

DeepMind表示，在一定空间内，用Gemini驱动的机器人，在发出50多条用户指令后，完成指令成功率高达90%。

研究人员还发现，Gemini 1.5 Pro能让机器人规划如何完成导航以外的指令。

例如，一位小哥桌上摆放着两排喝光了的肥宅快乐水罐子，还想再来一瓶，于是向机器人询问他最喜欢的饮料是否有货。

研究小组说，Gemini指引机器人应该导航到冰箱，检查是否有可乐，然后返回用户处报告结果。

DeepMind表示，团队将进一步研究这些机器人反馈的结果。

目前，机器人处理这些指令需要10-30秒的时间，对于实际应用来说太慢了，在响应速度方面仍有提升空间。

Mobility VLA

在导航研究领域，一个难以实现的目标是构建一个能够理解自然语言和图像等多模态指令，并执行有效导航的智能体。

为了达成这一目标，研究人员提出了一类广泛应用的导航任务——带有演示路线的多模态指令导航（Multimodal Instruction Navigation with demonstration Tours，MINT）。

在这种任务中，环境信息通过预先录制的演示视频提供。

论文地址：https://arxiv.org/abs/2407.07775v1

为了解决MINT任务，研究人员进一步提出了一种分层的视觉-语言-行动（Vision-Language-Action，VLA）导航策略——Mobility VLA。它结合了长上下文VLMs的环境理解和常识推理能力，以及基于拓扑图的强大低层导航策略。

其中，高层策略使用长上下文VLM，将演示路线视频和多模态用户指令作为输入，在演示视频中找到目标帧。接下来，低层策略利用目标帧和离线构建的拓扑图，在每个时间步生成机器人动作。

在一个836平方米的真实环境中的评估结果表明，Mobility VLA在以前未解决的多模态指令上，具有很高的端到端成功率。（例如，「我应该把这个放在哪里？」同时拿着一个塑料箱）

如图1所示，Mobility VLA是一种分层导航策略，包含在线和离线两个部分。

离线阶段，会从演示路线（N,F）中生成一个拓扑图G。在线上，高层策略会使用演示路线和多模态用户指令（d,I）来找到导航目标帧的索引g。

接下来，低层策略会利用拓扑图、当前相机观测O和目标帧索引g，为机器人在每个时间步生成一个路径点动作a，以便机器人执行。

演示路线和离线拓扑图生成

首先需要的是环境演示路线，这个可以由人类用户通过远程操作提供，或者只需在环境中行走时用智能手机录制视频即可。

然后，Mobility VLA会离线构建一个拓扑图G=(V, E)，其中每个顶点vi∈V对应于演示路线视频（F, N）中的帧fi。

通过使用COLMAP这个现成的结构-从-运动（structure-from-motion）管线来确定每帧的近似六自由度（6-Degree-of-Freedom）相机姿态，并将其存储在顶点中。

接下来，如果目标顶点「在源顶点前面」（距离源顶点的姿态小于90度）并且在2米以内，则向G中添加一个有向边。

与传统的导航管线相比（例如，先映射环境，再识别可通行区域，最后构建PRM），扑图方法要简单得多，因为它能根据游览轨迹捕捉环境的一般连通性。

使用长上下文多模态VLM进行高层目标查找

在在线执行过程中，高层策略利用VLMs的常识推理能力，从演示路线中识别出符合各种多模态、口语化且通常模糊的用户指令的导航目标。

为此，研究人员准备了一个由交错文本和图像组成的提示P(F,N,d,I)。

以下是表1中关于多模态用户指令「我应该把这个放在哪里？」的具体P示例：


You are a robot operating in a building and your task is to respond to the user command about going to a specific location by finding the closest frame in the tour video to navigate to . These frames are from the tour of the building last year . [ Frame 1 Image f1] Frame 1. [ Frame narrative n1] ...[ Frame k Image fk ] Frame k . [ Frame narrative nk ] This image is what you see now . You may or may not see the user in this image . [ Image Instruction I] The user says : Where should I return this ? How would you respond ? Can you find the closest frame ?

此时，VLM会返回一个整数形式的目标帧索引g。

使用拓扑图实现低层目标到达

一旦高层策略识别出目标帧索引g，低层策略（算法1）就会接管，并在每个时间步生成一个路径点动作（公式1）。

对于每个时间步，使用一个实时的分层视觉定位系统，来基于当前的相机观测O，来估计机器人的姿态T和最近的起始顶点vs∈G。

这个定位系统会根据全局描述符找到拓扑图G中的k个最近候选帧，然后通过PnP计算出机器人的姿态T。

接下来，通过Dijkstra算法（第9行）在拓扑图上找到从起始顶点vs到目标顶点vg（即目标帧索引g对应的顶点）之间的最短路径S。

最后，低层策略会返回一个路径点动作，该动作只是路径S中下一个顶点v1相对于当前姿态T的位移∆x，∆y和旋转角度∆θ（第10行）。

实验

为了探究Mobility VLA的性能，研究人员针对以下三个问题进行了实验设计。

RQ1：Mobility VLA在现实世界的MINT中表现如何？

RQ2：Mobility VLA是否因为使用了长上下文VLM而优于其他方案？

RQ3：拓扑图是否必要？VLM能否直接生成动作？

演示路线：通过使用游戏手柄远程操作机器人来收集演示路线。所有走廊都从相反方向走了两次。最终的路线大约16分钟长（每秒1帧，共948帧），并且在路线中添加了「每个人的临时办公桌」和「Lewis的办公桌」的叙述，分别在5:28和7:14帧，以实现个性化导航。

多模态用户指令：收集了4个类别共57条用户指令。包括：20条无须推理的指令（RF），15条需要推理的指令（RR），12条关于小物件的指令（SO），以及10条多模态指令（MM）。

RQ1：Mobility VLA在真实环境中强大的端到端性能

- 极高的端到端成功率

表2显示，Mobility VLA 在大多数用户指令类别中具有高端到端导航成功率，包括以前难以实现的需要推理和多模态指令，并且还具有合理的SPL（成功率加权路径长度）。

然而，在小物件类别中的成功率显著较低。

最后，Mobility VLA 成功地在演示路线中加入了个性化叙述。在响应基本相同但来自不同用户的指令时，它能够正确地导航到不同的位置。

- 稳健的低层目标到达能力

表2还显示了Mobility VLA在现实世界中低级目标到达策略的稳健性，其成功率达到了100%。

值得注意的是，演示路线是在实验前几个月录制的，当时许多物体、家具和光照条件都与实验时不同。

- 大规模仿真确认高端到端成功率

为了进一步探索端到端性能，研究人员利用仿真来扩大评估数量。

具体来说，通过使用NeRF创建办公室环境的高保真仿真重建，并针对20个语言指令任务进行评估，每个任务有50个随机起始姿态。

实验结果显示，高层目标找到率为90%，低层目标到达率为100%，总共成功执行了900次端到端操作。

- 使用手机导航进行家庭环境的泛化

为了展示Mobility VLA的通用性和易用性，研究人员在一个真实的类家庭环境中进行了概念验证实验。其中，演示是通过Google Pixel 6手机录制的。

结果显示，成功率为100%，SPL为0.87。这表明Mobility VLA：

1. 无论在什么环境下都表现良好；

2. 极易于部署。（用户只需使用手机录制环境导航，上传给机器人后即可开始下达命令）

研究人员表示，这种通用性和易用性在机器人导航中是前所未见的。

RQ2：长上下文多模态VLM在高层目标寻找方面更优

- Mobility VLA优于其他方法

表3显示，Mobility VLA在高层目标找到成功率方面显著高于其他方法。

鉴于其低层目标到达成功率为100%，这些高层目标找到成功率也代表了端到端的整体成功率。

- 使用长上下文VLM处理高帧率导航视频是成功的关键

表4显示，随着视频帧率的降低，高层目标找到的成功率也随之下降。（因为较低的帧率会错过重要的导航目标帧）

此外，在比较最先进的VLM时，只有上下文长度高达1M token的Gemini 1.5 Pro，才取得了令人满意的成功率。