RoboTwin：生成式数字孪生的双臂机器人基准

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-12-25 00:07

正文

24年9月来自香港大学、松灵机器人、上海AI实验室、深圳大学和中科院自动化所的论文“RoboTwin: Dual-Arm Robot Benchmark with Generative Digital Twins”。

双臂机器人的有效协作及其工具使用能力，是机器人技术进步中越来越重要的领域。这些技能在扩展机器人各种现实环境中运行能力的方面发挥着重要作用。然而，由于缺乏专门的训练数据，进展受到阻碍。RoboTwin，是一个基准数据集，它将现实世界的遥控数据与数字孪生的合成数据相结合，专为双臂机器人场景而设计。使用 COBOT Magic 平台，收集有关工具使用和人机交互的各种数据。提出一种使用 AI 生成内容创建数字孪生的方法，将 2D 图像转换为详细的 3D 模型。此外，利用大语言模型来生成面向功能的专家级训练数据和特定于任务的姿态序列。

如图所示 RoboTwin 基准：

在快速发展的机器人领域，双臂协调和先进工具使用的集成对于开发复杂的自主系统至关重要。这些功能对于使机器人能够在各种现实环境中（例如制造厂、医疗中心和家庭）有效运作至关重要。通过使用工具，机器人可以大大扩展其操作范围，以更大的灵活性适应各种任务和挑战。然而，这些领域的进步因缺乏专门的高质量训练数据而受到严重阻碍。这些活动通常需要量身定制的解决方案，很难标准化，并且通常无法在传统数据集中很好地体现。

采用人类示范来指导机器人操作技能是机器人操作学习的一种普遍方法 [4,6,15,21,29]。在这些技术中，行为克隆脱颖而出，可以从这些示范中离线学习策略。它从精选数据集中复制观察到的动作 [5,9,10,14,16,24,28,34]。相反，离线强化学习通过基于预定义奖励函数优化动作和利用大型数据集来增强策略学习 [7,12,17–20]。使用 Transformer 的动作分块 ( ACT ) 技术，将基于 Transformer 的视觉运动策略与条件变分自动编码器相结合，以构建动作序列的学习 [30,31,35]。最近，扩散策略（DP）方法越来越受到重视。它采用条件去噪扩散过程来表示视觉运动策略，有效地减少了基于 Transformer 的视觉运动策略中经常出现的轨迹生成累积误差 [8]。 3D 扩散策略 [32] 使用点云进行环境观测，增强了空间信息的利用率，仅需少量演示即可在模拟和真实环境中管理各种机器人任务。

为了增强对机器人任务有效演示的收集，传统上一直采用人类遥操作。在这种方法中，人类操作员手动引导机器人完成各种任务 [10,14,22,25,26,34]。最近的进展扩展了这种方法，通过长期雇用人类操作员团队来收集大量现实世界数据集 [3,5,10, 14]。另一种方法是在模拟中使用算法轨迹生成器 [9,11,13,16,33]，这种方法虽然高效，但通常依赖于特别信息和手工设计的启发式方法，这使得它们对于任意任务来说都是劳动密集型的。然而，目前的系统往往无法生成高保真度的专家模拟数据，无法准确模拟实际机器操作的数据。尽管 MimicGen [23] 和 RoboCaca [27] 等计划努力使用有限的人类演示生成模拟专家数据，但它们仍然严重依赖预定义的场景和交互式对象。

为了克服这些限制，RoboTwin 系统不仅可以生成源自真实场景的专家数据和模拟场景，还可以利用大语言模型 (LLM) 为涉及同一类目标的类似任务生成演示代码和专家数据。这种策略大大减少对持续人工干预的依赖，从而简化了机器人任务可靠训练数据的生成。

本文使用 AIGC 从由 Deemos 的 Rodin 平台支持的简单 2D RGB 图像构建 3D 模型。流程从生成机器人任务中涉及目标对象详细 3D 网格和纹理开始，这些网格和纹理来自单个真实世界图像。此功能可确保在模拟环境中高保真地重现真实世界场景。该过程首先将单个 2D 图像转换为包含详细几何图形、表面法线、线框和纹理的 3D 模型。这些功能增强了视觉真实感并确保与模拟物理引擎的兼容性。 3D 模型准备就绪后，为模型中对象的功能部件分配特定的坐标轴。例如，如图所示，对于锤子，一个轴与锤头对齐（标识功能部件），而另一个轴指示接近方向。这种战略对齐对于自动计算抓取姿势至关重要，这对于机器人操作和工具使用至关重要。抓取姿态是沿指定的接近方向轴垂直于功能部件的表面法线计算的，从而以最少的手动干预实现正确和高效的工具使用。

如图所示AIGC 和专家数据生成流水线。从单张 RGB 照片中自动提取目标分割和文本描述，然后生成 3D 几何图形、表面法线、线框和纹理贴图，以创建高保真模拟目标。利用目标的表面法线和姿态信息，可以分解和生成抓取姿势，并利用大模型的功能为任务零样本生成专家数据。

利用 GPT4-V [1] 的推理能力编写代码来计算关键姿态与目标功能坐标轴之间的关系。GPT4-V 分析任务要求并生成符合这些要求的姿势序列，确保任务的精确执行。还通过 GPT4 [2] 生成代码，以根据计算出的姿态调用轨迹规划工具。这种自动化大大减少与手动编程相关的时间和劳动力，促进机器人系统在不同应用中的快速部署。它还提供了一种可扩展的方法来生成对机器人学习至关重要的高质量数据。

为了进一步研究和开发该领域，如图所示，引入了一个专门设计用于评估各种场景中双臂机器人的综合基准。该基准涵盖了一系列不同的任务，每个任务都提出了独特的挑战，这些挑战对于评估模拟环境中机械臂的灵活性、协调性和操作效率至关重要。这些任务范围从简单的目标操作到需要双臂同步运动的复杂协调动作。对于每项任务，提供一个 API，支持在无限变化的场景（例如不同的目标位置和环境条件）中生成专家数据。此功能使研究人员能够在受控但多变的条件下广泛测试和改进机器人系统的适应性和精度。此外，每个任务都有一个离线数据集，提供预生成的专家数据以促进算法的离线训练和基准测试。该基准旨在弥合理论机器人控制模型与实际实现之间的差距，确保机器人系统能够在动态的现实环境中可靠运行。

RoboTwin：生成式数字孪生的双臂机器人基准

正文

请到「今天看啥」查看全文