专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
广州房姐  ·  广州有民办学校,开学前2天,宣布罢工... ·  21 小时前  
航空工业  ·  闹元宵猜灯谜赢惊喜! ·  22 小时前  
德善学园微讯  ·  凝聚人心,攻坚克难,开拓德善教育教学工作新局 ... ·  23 小时前  
黑马程序员  ·  喜报!应届生均薪破万,最高薪资24000元! ·  昨天  
黑马程序员  ·  喜报!应届生均薪破万,最高薪资24000元! ·  昨天  
酒醒梦已残  ·  DeepSeek ... ·  3 天前  
酒醒梦已残  ·  DeepSeek ... ·  3 天前  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

G3Flow:用于姿势-觉察和可泛化目标操作的生成式 3D 语义流

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2025-01-25 00:06

正文

24年11月来自香港大学、中国电信、深圳大学、松灵机器人和广东信息智能科技研究院的论文“G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation”。

3D 机器人操作模仿学习的最新进展表明,基于扩散的策略可以带来有希望的结果。然而,要实现人类水平的灵活性,需要几何精度和语义理解的无缝集成。 G3Flow 框架,它利用基础模型构建实时语义流,即动态的以目标为中心的 3D 语义表示。该方法结合用于数字孪生创建的 3D 生成模型、用于语义特征提取的视觉基础模型和用于持续语义流更新的姿势跟踪。这种集成即使在遮挡下也能实现完整的语义理解,同时消除手动注释的要求。通过将语义流纳入扩散策略,在终端约束操作和跨目标泛化方面都表现出显着的改进。在五个模拟任务中进行的大量实验表明,G3Flow 始终优于现有方法,在终端约束操作和跨目标泛化任务上的平均成功率分别高达 68.3% 和 50.1%。

如图所示:该方法利用 3D 生成模型和语言引导的目标检测模型来生成 3D 语义流(顶部)。通过基于跟踪的持续更新,G3Flow 实现姿势-觉察和可泛化的操作,在多个具有挑战性的 3D 操作任务中表现出色(底部),与基线(DP、DP3 和 RGB 的 DP3)相比有显著改进。



用于机器人操作的 3D 语义场

语义场通过提供对环境的丰富语义理解,已成为增强机器人操作的一个有前途的方向 [24、28、33、34]。这些方法旨在弥合几何感知和语义理解之间的差距,这对于高级操作能力至关重要。

D3 Fields[34] 率先将动态 3D 描述子字段集成到操作中,而后续工作进一步扩展语义场的潜力。OVMM[24] 通过视觉-语言模型探索开放词汇移动操作,GenDP[33] 解决扩散策略中的类别-级泛化问题,F3RM[28] 通过基于 CLIP 的语义蒸馏实现自然语言规范。

然而,在获取和维护用于机器人操作的可靠语义场方面仍然存在根本挑战。当前的方法,如 D3 Fields[34] 和 GenDP[33] 严重依赖于参考目标的手动注释,并且在目标交互过程中面临重大挑战。具体而言,遮挡不仅会导致目标观察不完整,还会对特征获取造成重大挑战,严重影响操作过程中的语义理解。这些限制强调在操作任务期间构建和维护语义场的方式需要进行范式转变。

用于机器人模拟的 3D 生成模型

3D 目标生成的最新进展见证采用不同技术方法的各种基础模型。早期的尝试如 GET3D [3]利用生成对抗网络从图像生成带纹理的3D网格,而Point-E [20]和Shap-E [9]分别通过点云和隐函数探索文本-到-3D的生成。在这些工作之后,基于扩散的方法,如DreamFusion [23]和Magic3D [14],在从文本描述合成高分辨率3D内容方面表现出改进的能力。然而,这些方法通常难以生成复杂的几何细节和高保真纹理,而这些对于逼真的机器人应用至关重要。为了解决这些限制,Rodin [37]被开发出来,它具有增强的生成能力,可以生成详细且带纹理的3D目标。它在生成高保真3D资产方面的卓越性能已经在实际的机器人应用中得到验证,例如RoboTwin [18],这使得它特别适合创建逼真的虚拟模拟的工作。

用于模仿学习的扩散模型

扩散模型 [7, 31] 是一类功能强大的生成模型,它模拟的是分布得分(能量的梯度),而不是能量本身 [27, 30]。扩散模型背后的关键思想,是通过顺序去噪过程将简单的先验分布迭代转换为目标分布。在机器人技术中,基于扩散的策略 [1, 2, 8, 12, 13, 17, 19, 22, 26, 38] 在从演示中学习复杂操作技能方面表现出色。最近的研究探索不同的方向:3D 扩散策略 [38] 将 3D 场景表示与扩散目标相结合,ChainedDiffuser [36] 专注于关键姿势之间的轨迹生成,3D Diffuser Actor [10] 处理联合关键姿势和轨迹预测。然而,这些方法主要在几何表示上操作,没有明确的语义理解,限制它们在终端约束操作和跨目标变化泛化中的精度。


将问题表述为如何获取和维护语义流 Ovsf,以及如何从专家数据中学习视觉运动策略 π : O → A,其中观察空间 O 由真实点云观测 Or 和 Ovsf 组成。关键见解是利用基础模型通过实时语义流在动态交互过程中构建和维护完整的 4D 语义理解,这解决现有以几何为中心的方法在处理遮挡和语义变化方面的局限性。

该框架分为两个阶段:(1)通过以目标为中心的探索和数字孪生生成构建初始语义流,其中机器人主动收集多视角观测以创建全面的数字孪生并提取其语义特征;(2)通过实时姿势跟踪维护动态流,在操作过程中不断转换这些语义特征以与物理目标对齐,即使在具有挑战性的遮挡或部分观察下也能保持完整性。具体来说,首先采用 3D 生成模型从多视角 RGB 观测中重建高保真数字孪生,利用模型的嵌入式知识准确推断出甚至未见过的目标部分。重建的孪生在虚拟环境中通过 DINOv2 [21] 进行语义特征提取,通过 PCA [11] 进行降维,创建初始语义点云。然后,利用 FoundationPose [35] 在现实场景中实现稳健的目标姿态跟踪,实现这些语义特征的动态转换,同时在遮挡和部分观察下保持完整性。

系统 G3Flow 由五个关键模块组成,详述如下:a) 以目标为中心探索主动多视角观察收集;b) 通过 3D 生成模型生成目标 3D 模型;c) 将数字孪生与视觉基础模型相结合的虚拟语义流生成; d) 通过目标跟踪进行空间对齐;e) G3Flow 增强扩散策略利用 Or 和 Ovsf 进行精确操作。如图说明该框架:


以目标为中心的探索 。为了构建准确而完整的语义流,第一阶段重点是获得全面的目标观测。传统的单视图方法面临两个关键挑战:首先,由于自遮挡(例如,杯子把手隐藏在相机视图之外),不良的初始目标姿势可能导致重建不完整。其次,在操作过程中,机械臂经常遮挡相机对目标物体的视图,导致信息丢失。如图所示,虽然单视图重建看似合理,但它们往往无法捕捉操作所需的关键几何细节。


为了应对这些挑战,开发一种主动探索策略。首先采用 Grounded-SAM [25] 从全局相机视角检测目标边框和掩码。结合深度信息,这提供初始目标点云和空间坐标。然后,机械臂使用其腕部摄像头系统地捕获多视角 RGB 观测值 O/explore,C 表示视点数。此探索可确保全面覆盖目标,同时考虑后续操作阶段的潜在遮挡。

目标 3D 模型生成 。获得多视角观测值后,利用基于基础模型的 3D 资产生成 [37] 来重建高质量的数字孪生。这个自动化过程,利用模型中嵌入的常见目标知识来准确完成甚至部分可见的区域。当面对遮挡时,例如从某些视图中隐藏的杯子把手,模型的先验知识可以合理地重建这些未见过的部分,从而提供完整的目标表示,这对于后续的操作规划至关重要。为了确保重建质量,生成的数字孪生会根据观察的视图评估其几何和纹理一致性。这个验证步骤有助于保持下游语义理解的保真度。重建的孪生具有双重用途:为全面的语义特征提取提供基础,并在动态交互过程中实现准确的姿势跟踪。

虚拟语义流生成 。数字孪生在克服现实世界的感知限制方面具有关键优势。真实相机通常会产生不完整或嘈杂的深度信息,许多传感器具有无效区域或分辨率有限。相比之下,虚拟空间允许从任意视点生成高分辨率 RGBD 观测,从而能够创建不受物理感知限制约束的完整目标表示。

语义流生成过程始于多视角特征提取。在虚拟空间中生成的多视图 RGB 观测通过 DINOv2 [21] 处理,生成丰富的特征图 O,可捕获对操作至关重要的低级几何细节和高级语义信息。为了提高计算效率同时保留基本信息,使用 PCA 将这些高维特征压缩到 D/feat 维度。 PCA 模型在训练数据集中的虚拟空间特征上进行训练,确保在不同目标和视点之间稳定且一致的特征提取。这种降维显著提高系统的实时性能,同时保持语义理解。基于通过空间对齐获得的初始目标姿势,在虚拟空间中排列数字资产,并通过将多视图特征与精确的虚拟深度信息相结合来合成完整的语义流。使用最远点采样 (FPS) 将得到的语义流均匀采样到 K 点以获得 P/init。这种基于虚拟空间的方法可确保与现实世界观察噪声和遮挡无关的准确性。

生成的语义流作为一种规范表示,可以在操作过程中动态转换,同时保持语义一致性。由于此流是使用完整的目标模型在虚拟空间中构建的,因此它对现实世界交互期间发生的部分观察和遮挡仍然具有鲁棒性。

通过目标跟踪进行空间对齐 。一旦建立初始语义流,在动态操作过程中保持其准确性就变得至关重要。通过语义流和物理目标之间的持续空间对齐来实现这一点。

通过将 Grounded-SAM 与任务描述相结合,首先从单视角 RGB 图像中检测和分割目标物体,以获得掩码 RGBD 观测值。这些观测值与之前生成的数字孪生相结合,使 FoundationPose [35] 能够计算初始目标姿势矩阵 M/init。在操作过程中,通过 FoundationPose 不断更新姿势估计,在每个时间步获得精确的目标姿势 M/update。这使得语义流的动态转换成为可能。

如图所示:通过目标跟踪的空间对齐


本文方法的关键优势在于 FoundationPose 能够利用数字孪生中包含的丰富信息,即使在严重遮挡的情况下也能保持准确的姿势估计。由于特征点云是从虚拟空间中的完整观测中获得的,因此认为它是最佳的。不是在每个时间步重复检测、分割和计算特征(这可能会导致复合错误),而是直接转换这个高质量的特征点云。这种方法不仅可以在遮挡期间提供准确和完整的语义流估计,而且还确保动态交互期间的计算效率和鲁棒性。

为了有效地利用语义流进行精确操作,通过三个关键组件增强扩散策略:条件特征获取、条件去噪过程和专门的训练程序。

条件特征获取 。其策略通过单独的 MLP 编码器集成三种不同类型的信息。首先,处理形状为 (K, 3 + D/feat) 的转换和更新的语义流以获得语义特征 f/s,捕获丰富的以目标为中心语义理解。其次,对形状为 (K, 3) 的真实点云观测进行编码以产生场景特征 f/r,提供即时的几何反馈。最后,将当前机器人关节状态编码为机器人状态特征 f/p,确保了解机械手的配置。这种多模态特征获取使其策略能够推理任务的语义和几何方面。







请到「今天看啥」查看全文