24年12月来自鹏城实验室、中山大学、南方科技大学和 MBZUAI 的论文“InfiniteWorld: A Unified Scalable Simulation Framework for General Visual-Language Robot Interaction”。
实现具身人工智能的规模化规律已成为关注点。然而,以前的工作分散在不同的模拟平台上,资产和模型缺乏统一的接口,导致研究效率低下。为了解决这个问题,推出 InfiniteWorld,一个基于 Nvidia Isaac Sim 构建、用于通用视觉语言机器人交互、统一且可扩展的模拟器。InfiniteWorld 包含一整套物理资产构建方法和通用的免费机器人交互基准。具体而言,首先构建一个统一且可扩展的具身学习模拟框架,该框架集成一系列基于生成驱动的 3D 资产构建、Real2Sim、自动注释框架和统一 3D 资产处理的改进。该框架为机器人交互和学习提供一个统一且可扩展的平台。此外,为了模拟逼真的机器人交互,构建四个新的通用基准,包括场景图协作探索和开放世界社交移动操作。前者往往被忽视为机器人探索环境、构建场景知识的重要任务,而后者则在前者的基础上,模拟具有不同层次知识智体的机器人交互任务,可以更全面地评估具身智体在环境理解、任务规划和执行以及智能交互方面的能力。
为具身人工智能(AI)[12]构建一个无限的世界,使机器人能够像人类一样在开放环境中自由交互和学习,是具身社区的一个重要方向。要实现这一点,机器人仿真学习平台必须具备几个关键属性:快速而精确的物理模拟、用户友好且便捷的界面设计、高度真实和多样化的3D资产以及全面的机器人交互任务设计。最近,NVIDIA的Omniverse Isaac Sim [47]在基于物理的渲染、低级交互复杂性、变形模拟等方面取得优异的成绩。然而,以前的工作[42、58、68、71、75]在资产构建和交互设计方面仍然缺乏系统统一的设计,导致社区内的努力分散、任务重复。因此,考虑如何在具身人工智能领域实现规模化规律和逼真的机器人交互已成为业界关注的两大问题。人工智能的最新进展,特别是多模态大语言模型 (MLLM) [1, 36, 66],受到海量互联网规模数据的推动。相比之下,与网上丰富的视觉和语言资源相比,机器人数据仍然很稀疏。
已实现仿真平台资产的扩展是当前具身智能发展中最关键的问题之一,是获取大规模机器人数据集的基础。为此,社区研究了各种具身资产生成技术,如基于 3D 高斯splatting技术的真实场景逼真虚拟化 [7, 26]、大规模 3D 场景 [75, 77] 和 3D 目标 [65] 以及铰接目标资产生成。但它们往往缺乏统一有效的接口,无法充分应用。
基于以上观察,本研究旨在基于 NVIDIA Isaac Sim 构建一个无限世界的统一机器人交互模拟平台:全面的物理资产构建和通用的自由机器人交互。
生成-驱动下 3D 资产构建
为模拟器平台构建大规模、交互式、逼真的环境对于具身学习至关重要。成本和多样性是困扰大型 3D 环境构建的主要限制。利用语言作为大规模场景生成-驱动程序 [34, 76] 是一种流行的解决方案。特别是,
HOLODECK
[77] 可以使用文本作为驱动程序,并利用广泛的 3D 资产数据库来创建具有准确语义、良好空间布局和交互性的 3D 环境。此外,受到
RoboCasa
[45] 中使用手工设计的场景样式扩展场景资产的启发,基于 HOLODECK [77] 在 Isaac Sim 上实现大规模用户定义场景资产的自动扩展。它支持自由更换 236 种不同的地板和墙壁纹理。这意味着场景数量可以轻松扩大 236 倍。以及对场景中目标资产进行相似替换、删除、添加、纹理替换等编辑操作,为大规模自动场景生成提供统一高效的接口。
还提出一个工具 Annot8-3D,这是一种基于 Web 的智能点云自动注释框架,它将 AI 辅助自动化与人机交互细化相结合,以实现高效、准确的 3D 点云标记。该框架实现一个多阶段注释流水线,通过从粗到细的标记逐步细化分割结果,利用最先进的深度学习模型,同时在需要时允许人工指导。具体来说,如图显示 Annot8-3D 的多阶段注释流水线,主要包含三个阶段:初始粗分割、交互式细化和手动微调。首先,在初始粗分割阶段,流水线从使用 Point Transformer V3 [72] 的自动粗粒度分割开始,它提供了跨点云的初始目标提议。其次,在交互式细化阶段,系统允许人类审阅者通过正面和负面提示来检查和细化粗分割结果,这些提示引导对特定区域的重点细化。此阶段集成 SAM2Point [24] 来处理这些提示并生成精细的分割,允许迭代细化循环,直到获得满意的结果。最后,对于自动细化不足的情况,手动微调阶段提供手动分割工具进行精确调整。