专栏名称: 3D视觉工坊

1、OpenCV的技术传播； 2、3D点云与重建技术； 3、Vslam技术； 4、深度学习； 5、技术干货分享。

兼容一切机器人！The One RING：机器人室内导航通才！具身智能新突破！

3D视觉工坊 · 公众号 · · 2024-12-22 00:00

正文

点击下方卡片，关注 「3D视觉工坊」 公众号
选择星标，干货第一时间送达

来源：3D视觉工坊

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：The One RING: a Robotic Indoor Navigation Generalist

作者：Ainaz Eftekhar, Luca Weihs, Rose Hendrix, Ege Caglar, Jordi Salvador, Alvaro Herrasti, Winson Han, Eli VanderBil, Aniruddha Kembhavi, Ali Farhadi, Ranjay Krishna, Kiana Ehsani, Kuo-Hao Zeng

机构：Allen Institute for AI、University of Washington

原文链接：https://arxiv.org/abs/2412.14401

代码链接：https://one-ring-policy.allen.ai/

1. 导读

现代机器人在形状、大小和用于感知环境并与之互动的传感器配置方面有很大差异。然而，大多数导航策略是特定于实施例的；使用一个机器人的配置学习到的策略通常不会优雅地推广到另一个机器人。即使是身体大小或相机视角的微小变化也可能导致故障。随着最近定制硬件开发的激增，有必要学习可以转移到其他实施例的单个策略，从而消除对每个特定机器人进行(重新)训练的需要。在本文中，我们介绍了RING(机器人室内导航通才)，这是一种与实施例无关的策略，仅在大规模的不同随机初始化实施例的模拟中进行训练。具体来说，我们增加了AI2-托尔模拟器的能力，以实例化具有可控配置的机器人实施例，改变身体大小，旋转枢轴点和相机配置。在视觉对象-目标导航任务中，RING在真实未知的机器人平台(Stretch RE-1、LoCoBot、Unitree的Go1)上实现了稳健的性能，在模拟的5个实施例和真实世界的4个机器人平台上实现了平均72.1%和78.9%的成功率。

2. 引言

机器人实体形态多样且不断演进，以更好地适应新环境和新任务。这些实体形态的差异——包括尺寸、形状、轮式或腿式移动方式以及传感器配置的不同——不仅决定了机器人如何感知世界，还决定了它们如何在其中行动。具有宽视场（Field of View, FoV）或多摄像头的机器人可以快速扫描周围环境，而视场较窄的机器人可能需要更积极地探索房间。小型机器人可以穿过狭窄空间，低矮型机器人可以躲避家具，而大型机器人可能需要遵循更保守的路线。实体形态对行为的影响意味着，针对某一设计甚至多个设计训练的策略，往往无法在其他领域表现良好。

在可伸缩跨实体形态训练和通用导航策略开发方面已取得进展。虽然这些方法在某些未见过的实体形态上表现出一定的迁移能力，但它们需要构建拓扑地图或图，并且当实体形态发生相对较小的变化（例如，同一机器人上的摄像头位置修改）时，性能会下降。这可能是因为这些方法依赖于公共数据集中可用的少量现实世界数据，总数仅约20种实体形态。这凸显了需要一种更全面的解决方案，该方案能够可靠地覆盖各种可能的实体形态，而无需重新训练或额外适应。

我们介绍了RING，一种机器人室内导航通用策略。RING仅在模拟环境中进行训练，未使用任何真实世界的机器人实体形态。换句话说，我们在评估时使用的所有机器人平台（即Stretch RE-1、LoCoBot、Unitree的A1）在RING训练期间都是未见过的。我们利用模拟环境随机采样100万个代理实体形态，改变机器人的摄像头参数、碰撞器尺寸和旋转中心。具体来说，每个实体形态由一个不同尺寸的碰撞器盒子和具有随机视场和尺寸的摄像头组成，这些摄像头随机放置在碰撞器盒子内。推荐课程：国内首个面向具身智能方向的理论与实战课程。

我们的方法受到最近在仅在大规模模拟环境中训练就能在真实世界实验中取得成功的启发。模拟训练能够受益于AI2-THOR模拟器中庞大的场景（150,000个ProcTHOR房屋）和物体（Objaverse中的40,000多个标注的3D物体）。对视觉观测进行广泛的域随机化以及使用预训练的视觉编码器，使得模拟训练的策略能够弥合模拟与现实之间的鸿沟。我们遵循FLaRe中概述的训练程序，首先在我们的策略上训练从100万个随机实体形态中收集的专家轨迹，随后在模拟器内使用在线策略强化学习（Reinforcement Learning, RL）对其进行微调。

我们的结果表明，RING能够真正泛化到未见过的实体形态。尽管RING仅在模拟环境中进行训练，且无法访问真实机器人配置，但它仍能泛化到各种真实世界的实体形态，而无需任何适应。我们在各种实体形态（包括Stretch RE-1、LoCoBot、Unitree的A1，甚至“导航助手”，其中人类用户通过手机捕捉以自我为中心的观测，并提示RING策略预测导航动作）中进行了零样本设置下的策略评估。RING在模拟和真实世界中平均成功率分别达到72.1%和78.9%，显著优于最佳基线。

我们强调了RING的三个关键特性：1）它能在未见过的实体形态上实现零样本泛化，并保持一致的高性能；2）它可以在不进行任何适应或针对真实世界进行特定微调的情况下，实现零样本迁移到真实世界；3）通过最小程度的微调，它可以适应特定实体形态的策略，并获得更好的性能；4）在推理时，它能根据实体形态动态调整其行为（图6）。RING可以直接部署到任何机器人平台上进行导航，易于安装，社区研究人员即可使用。我们将发布我们的预训练模型、生成的数据和训练代码。

3. 效果展示

(A)我们在一百万个随机生成的实施例上进行训练，模拟不同的相机配置、身体大小和旋转枢轴点。该图显示了30k随机代理和三个特定机器人的实施例参数ce ∈ R19的t-SNE可视化(机器人用于可视化-我们不训练任何真实的机器人实施例参数)。显示了10个样本代理的第一个摄像机的自我中心视图。(B)我们训练有素的政策将zero-shot转移到现实世界中的各种化身，包括Stretch RE-1、LoCoBot和Unitree Go1，以及人类化身。(C)环策略显示实施例适应性行为，基于其实施例调整其导航策略。

4. 方法

随着研究实验室和真实世界应用中使用的机器人日益多样化，仍然需要一种策略，该策略能够操作广泛的实体形态，并以零样本或少样本的方式迁移到未见过的机器人上。我们介绍了RING，这是一种室内视觉导航的通用策略，它从广泛的实体形态中学习，且仅在模拟环境中进行训练，无需直接使用真实的机器人实体形态。我们证明，在约100万个随机实体形态上进行训练可以产生稳健的导航策略，从而实现向未见过的真实世界机器人实体形态的零样本迁移。为了训练RING，我们定义了随机实体形态的空间，实现了在模拟中为随机实体形态生成专家轨迹，并使用了最先进的架构设计，结合模仿学习（Imitation Learning, IL）和强化学习方法进行训练。

5. 实验结果

结果。表2展示了所有策略在四个实体形态上的零样本评估结果。我们比较了成功率（Success Rate）和按情节长度加权的成功率（Success Weighted by Episode Length, SEL），后者是衡量效率的指标。结果表明，所有基于单一实体形态的基线都难以有效泛化到新实体形态，且随着实体形态差异的增加，性能呈下降趋势。例如，在Stretch RE-1上用两个摄像头训练的SPOC，随着评估实体形态在表2顶部一行从左到右的变化，其性能逐渐下降。在Unitree A1上的评估结果最差，因为高度差异较大。相比之下，RING在所有实体形态上都表现出强大的泛化能力，尽管它未在任何一种实体形态上进行训练，但在成功率上平均绝对提高了16.7%。在某些情况下，它的表现甚至优于在目标实体形态上训练的基线：在LoCoBot（61.5%→68.5%）和Unitree A1（55.3%→72.0%）上训练的PoliFormer。这表明，RING通过在大规模随机实体形态上进行训练而受益，从而产生了更有效的导航策略，甚至优于一些针对特定实体形态的策略。

6. 总结

本文中，我们介绍了RINGi(RoboticIndoorNavigation Generalist)，这是一种无实例依赖的策略，仅在模拟中训练，使用多种随机初始化的大规模实例(100万个实例)。RING显示了对各种未见过的实例的零样本泛化能力，在所有实例中保持一致的性能。我们的实验结果表明，RING在新实例上达到了最先进的水平，在某些情况下甚至优于实例特定策略。尽管仅在模拟中训练，但它可以直接部署到现实世界中。最后，RING能够根据其实施方式和与环境的交互动态调整其行为。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球