LucidSim：从生成图像学习视觉跑酷

计算机视觉深度学习和自动驾驶 · 公众号 · · 2024-12-03 00:05

正文

24年11月CoRL‘24来自 MIT 和 NSF 人工智能基础交互研究所的论文“Learning Visual Parkour from Generated Images”。

快速而准确的物理模拟是机器人学习的重要组成部分，机器人可以探索现实世界中难以产生的故障场景，并从无限的在线策略数据中学习。然而，将 RGB 颜色感知纳入模拟-到-现实的流水线，使其丰富性和真实性与现实世界相匹配，仍然具有挑战性。这项工作在模拟中训练机器狗进行视觉跑酷，提出一种使用生成模型从机器人自我中心的角度合成场景的多样化和物理精确图像序列的方法， LucidSim 。在配备低成本现成彩色相机的机器人上，其展示零样本迁移到现实世界的 RGB 纯观察演示。

如图所示从生成图像学习真实世界的策略。左图：将结构化图像提示与来自底层物理模拟器的几何和语义控制相结合，生成多样化且符合策略的视觉数据。右图：该策略足够稳健，可以迁移到现实世界中各种具有挑战性的地形，即使对在训练期间未见过的真实数据。

另一种方法是在模拟中进行训练，可以在模拟中采样更多样化的环境条件，机器人可以安全地探索故障案例并直接从自己的动作中学习。尽管在模拟物理和渲染方面投入了大量资金，但在实现真实性方面所做的最大努力仍然存在现实差距 [1、2、3、4]。这是因为渲染逼真的图像意味着制作详细而逼真的场景内容。尝试大规模手工制作此类内容以获得机器人从模拟-到-现实迁移所需的多样性，其成本高昂得令人望而却步。如果没有多样化和高质量的场景内容，在模拟中训练的机器人就太脆弱，无法迁移到现实世界。因此，如何匹配现实世界的无限乐趣，并将色彩感知融入模拟到现实的学习中，是一个关键挑战。

如图所示，本文LucidSim方法如下：用流行的物理引擎 MuJoCo [2]，并在每一帧上渲染深度图像和语义掩码，它们一起用作深度调节 ControlNet 的输入。然后，从已知的场景几何形状和相机姿势的变化中计算出真实的密集光流，并在接下来的六个时间步中扭曲（warping）初始生成的帧，生成时间一致的视频序列。在学习方面，分两个阶段训练视觉策略：首先，优化策略以模仿一个特别教师收集的专家行为。在经过这一预训练步骤后，该策略表现不佳。训练后步骤涉及从视觉策略本身收集在线-策略数据，并采用聚合的所有数据学习交错进行。重复此步骤三次可使视觉策略的性能显著提高。该策略足够稳健，可以在测试场景中将零样本迁移到现实世界中的彩色观察。

来自 LLM 的多样化结构化提示。从同一提示中反复采样往往会重现相似的图像，如图所示。

为了获得多样化的图像，首先用包含字幕块、请求详细信息的“元”提示，去提示 chatGPT 生成批量结构化图像提示，最后以一个要求以 JSON (3) 格式提供结构化输出的问题结束。如图所示：

请求包括特定的天气、一天中的时间、光照条件和文化遗址。手动编辑生成的图像提示是不切实际的。相反，生成少量图像来调整元提示，并进行迭代，直到它们始终如一地生成合理的图像。如图底行显示了来自同一元提示但不同图像提示的不同样本示例：

使用几何和物理指导生成图像。增强原始文本-到-图像模型 [6]，增加额外的语义和几何控制，使其与模拟物理保持一致。首先，将图像的文本提示替换为提示-语义掩码对，每个提示和语义掩码都对应一种资产类型。例如，在楼梯场景中，通过文本指定粗略轮廓内台阶的材质和纹理。为了使图像在几何上一致，采用现成的 ControlNet [7]，该模型在 MiDAS [8] 的单目深度估计上训练。调节深度图像是通过反转 z 缓冲区并在每幅图像内对其进行归一化来计算的。调整控制强度以避免丢失图像细节非常重要。场景几何形状是来自先前工作 [5、9、10] 的简单地形，其中可选地包括侧壁。避免随机化地形几何形状，以便将分析重点放在视觉多样性上。

为了制作短视频，开发 Dreams In Motion (DIM) ，它使用根据场景几何形状计算出的真值光流和两帧之间相机视角变化，将生成的图像扭曲（warping）成后续帧。生成的图像堆栈包含对跑酷至关重要的时间信息。生成速度也很重要。DIM 显著提高了渲染速度，因为计算光流和应用扭曲比生成图像快得多。

训练过程分为两个阶段：预训练阶段，通过模仿有权直接访问高度图的特殊专家来引导视觉策略，高度图通过 RL 进行训练，具体过程参见 [5]。从专家及其不完善的早期检查点收集输出展开，并向专家查询动作标签以监督视觉策略。视觉策略在预训练后表现不佳，但它在第二个后训练阶段中做出了足够合理的决策来收集基于在线策略的数据，如图所示。

LucidSim：从生成图像学习视觉跑酷

正文

请到「今天看啥」查看全文