专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
丁香医生  ·  想老得慢一点,劝你先把脸皮「变厚」! ·  昨天  
营养师顾中一  ·  你其实从没吃过「香芋」,不信来看! ·  2 天前  
丁香医生  ·  得了关节炎,真的是行走的「晴雨表」吗? ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

InfiniteWorld:通用视觉-语言机器人交互的统一可扩展仿真框架

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2025-01-06 00:01

正文

24年12月来自鹏城实验室、中山大学、南方科技大学和 MBZUAI 的论文“InfiniteWorld: A Unified Scalable Simulation Framework for General Visual-Language Robot Interaction”。

实现具身人工智能的规模化规律已成为关注点。然而,以前的工作分散在不同的模拟平台上,资产和模型缺乏统一的接口,导致研究效率低下。为了解决这个问题,推出 InfiniteWorld,一个基于 Nvidia Isaac Sim 构建、用于通用视觉语言机器人交互、统一且可扩展的模拟器。InfiniteWorld 包含一整套物理资产构建方法和通用的免费机器人交互基准。具体而言,首先构建一个统一且可扩展的具身学习模拟框架,该框架集成一系列基于生成驱动的 3D 资产构建、Real2Sim、自动注释框架和统一 3D 资产处理的改进。该框架为机器人交互和学习提供一个统一且可扩展的平台。此外,为了模拟逼真的机器人交互,构建四个新的通用基准,包括场景图协作探索和开放世界社交移动操作。前者往往被忽视为机器人探索环境、构建场景知识的重要任务,而后者则在前者的基础上,模拟具有不同层次知识智体的机器人交互任务,可以更全面地评估具身智体在环境理解、任务规划和执行以及智能交互方面的能力。


为具身人工智能(AI)[12]构建一个无限的世界,使机器人能够像人类一样在开放环境中自由交互和学习,是具身社区的一个重要方向。要实现这一点,机器人仿真学习平台必须具备几个关键属性:快速而精确的物理模拟、用户友好且便捷的界面设计、高度真实和多样化的3D资产以及全面的机器人交互任务设计。最近,NVIDIA的Omniverse Isaac Sim [47]在基于物理的渲染、低级交互复杂性、变形模拟等方面取得优异的成绩。然而,以前的工作[42、58、68、71、75]在资产构建和交互设计方面仍然缺乏系统统一的设计,导致社区内的努力分散、任务重复。因此,考虑如何在具身人工智能领域实现规模化规律和逼真的机器人交互已成为业界关注的两大问题。人工智能的最新进展,特别是多模态大语言模型 (MLLM) [1, 36, 66],受到海量互联网规模数据的推动。相比之下,与网上丰富的视觉和语言资源相比,机器人数据仍然很稀疏。

一种直接的方法是直接在现实世界中收集大规模机器人数据,如 Open X-Embodiment [48] 和 DROID [29]。然而,它们受到高数据收集成本和跨不同硬件平台的泛化问题的严重限制。因此,模拟被视为一种有前途的替代方案。为了实现具身人工智能的规模化定律,社区做了很多尝试。例如,以前的工作 [20, 38, 45, 68, 71] 使用人工智能生成工具 [37, 45, 65, 75],或半自动化 [20, 45] 或手动设计方法 [68] 来构建 3D 场景和目标资产。这些高质量资产的创建或收集需要大量劳动力,且通常分散在各个仿真平台上,从而影响其有效使用。造成这一困境的主要原因是当前仿真平台缺乏统一、高质量的具身资产构建界面。

另一方面,之前的具身基准测试主要侧重于目标定位、导航或操控等常规任务。最近,人们对更接近人机交互的社交导航 [52, 68] 越来越感兴趣。具体而言,GRUtopia [68] 提出一个具有全局视野的非玩家角色 (NPC),并将其作为机器人导航任务中的交互目标,协助其完成相应的模糊任务。然而,由于现实中缺乏具有“上帝视角”的角色,这限制其完全模拟现实世界交互的能力。特别是在通讯受限的特殊场景(如煤矿),这需要机器人具备独立探索和协作完成任务的能力。模拟更真实的人类交互对于评估具身智体在任务推理、规划、感知和交互层面的能力至关重要,但目前模拟器中的交互与现实世界仍然存在很大差距。

具身智能模拟器

目前,已开发出许多用于具身智能相关研究的模拟器[6、9、10、25、42、52、54、58、70、71、73、75]。它们主要侧重于提高真实物理模拟的准确性和任务设计的多样性。例如在 物理模拟 方面,从将物理交互抽象为符号推理(例如 VirtualHome [51] 和 Alfred [61]),到在 3D 扫描场景中进行导航研究(例如 Habitat [58]),再到逼真的动作、环境交互和物理模拟(例如 Habitat 2.0 [64]、 ManiSkills [22]、 TDW [19]、 SoftGym [35]、 RFUniverse [18] 和 iGibson [31, 60]),虚拟与现实环境的差距正在逐步缩小。在 任务设计 方面,当前的工作主要探索具身 AI 任务设置的多样性 [25, 41, 56, 81]。例如, RoboGen [69] 和 MimicGen [40] 使用生成模型和 LLM 来生成任务, Surfer [56] 和 HandMeThat [67] 研究桌面操作的层次推理任务, GRUtopia [68] 和 Habitat 3.0 [52] 研究社交互动等。

模拟器中的交互

具身智能中的社交互动是最接近人类的交互方式,也是人机交互研究的关键。例如, Habitat 3.0 [52] 提出了一种人-在-环范式,利用 LLM 模拟真实的人类行为,探索家庭环境中人形机器人与机器人智体之间的协作。此外, GRUtopia [68] 设计一个具有全局真实环境信息的 NPC,用于人机交互,为机器人提供关键的交互信息,帮助机器人完成复杂任务,模拟真实世界的社交互动。这种 NPC 设计在一定程度上超越传统的人-在-环范式,但现实世界中并不存在具有全局环境信息的 NPC,不利于模拟真实的社交互动。

场景与资产处理

已实现仿真平台资产的扩展是当前具身智能发展中最关键的问题之一,是获取大规模机器人数据集的基础。为此,社区研究了各种具身资产生成技术,如基于 3D 高斯splatting技术的真实场景逼真虚拟化 [7, 26]、大规模 3D 场景 [75, 77] 和 3D 目标 [65] 以及铰接目标资产生成。但它们往往缺乏统一有效的接口,无法充分应用。


基于以上观察,本研究旨在基于 NVIDIA Isaac Sim 构建一个无限世界的统一机器人交互模拟平台:全面的物理资产构建和通用的自由机器人交互。

生成-驱动下 3D 资产构建

为模拟器平台构建大规模、交互式、逼真的环境对于具身学习至关重要。成本和多样性是困扰大型 3D 环境构建的主要限制。利用语言作为大规模场景生成-驱动程序 [34, 76] 是一种流行的解决方案。特别是, HOLODECK [77] 可以使用文本作为驱动程序,并利用广泛的 3D 资产数据库来创建具有准确语义、良好空间布局和交互性的 3D 环境。此外,受到 RoboCasa [45] 中使用手工设计的场景样式扩展场景资产的启发,基于 HOLODECK [77] 在 Isaac Sim 上实现大规模用户定义场景资产的自动扩展。它支持自由更换 236 种不同的地板和墙壁纹理。这意味着场景数量可以轻松扩大 236 倍。以及对场景中目标资产进行相似替换、删除、添加、纹理替换等编辑操作,为大规模自动场景生成提供统一高效的接口。

基于上述方法,首先构建10K个室内场景,主要包括家庭和社会环境。对于家庭场景,模拟真实家庭场景的布局,并为每个场景生成1-5个不同的房间号,以满足不同的任务需求。社交环境包括办公室、餐厅、酒吧、健身房和商店等许多场景。并且,还使用场景风格替换生成总共2.36 M个场景。如图展示一些语言驱动的自动场景生成和编辑示例。


此外,在InfiniteWorld模拟器中集成单幅图像到3D目标资产重建[65]和可控铰接生成[37],以进一步丰富资产库。这为具身智体学习提供了大量多样化的交互场景。

深度先验约束的 Real2Sim

最近,以 GauStudio [78]、SuGaR [23] 和 PGSR [7] 为代表的 3D Gaussian Splatting (3DGS) [27] 变型在提供显式几何信息的同时实现高质量的网格重建效果。然而,它们难以解决光滑表面上反射产生的复杂性。如果这些反射处理不正确,它们会严重干扰点云初始化的基础步骤,特别是在运动恢复结构 (SfM) 阶段。为了缓解这些问题,引入两种基于深度的正则化损失和基于 PGSR [7] 的法向量。具体来说,采用预训练的深度估计模型 Depth Pro [4],为每个 RGB 图像在相机坐标系内生成深度估计。此外,使用 PGSR 中的局部平面假设 [7] 来计算平面法向量,从而为 PGSR 中的单视图损失提供额外的监督。

如图展示相关方法在真实办公场景中的重建效果比较。如图所示,PGSR [7] 在场景重建任务中生成最高质量的网格。相比之下,改进的方法在处理某些平面和反射表面时能够生成精细的网格。此外,还为重建的场景设计一个完整的后处理步骤,以进一步优化模型在轴对齐、噪声、表面连续性和尺寸等问题上的性能。


Annot8-3D:自动注释框架

还提出一个工具 Annot8-3D,这是一种基于 Web 的智能点云自动注释框架,它将 AI 辅助自动化与人机交互细化相结合,以实现高效、准确的 3D 点云标记。该框架实现一个多阶段注释流水线,通过从粗到细的标记逐步细化分割结果,利用最先进的深度学习模型,同时在需要时允许人工指导。具体来说,如图显示 Annot8-3D 的多阶段注释流水线,主要包含三个阶段:初始粗分割、交互式细化和手动微调。首先,在初始粗分割阶段,流水线从使用 Point Transformer V3 [72] 的自动粗粒度分割开始,它提供了跨点云的初始目标提议。其次,在交互式细化阶段,系统允许人类审阅者通过正面和负面提示来检查和细化粗分割结果,这些提示引导对特定区域的重点细化。此阶段集成 SAM2Point [24] 来处理这些提示并生成精细的分割,允许迭代细化循环,直到获得满意的结果。最后,对于自动细化不足的情况,手动微调阶段提供手动分割工具进行精确调整。







请到「今天看啥」查看全文