专栏名称: 计算机视觉深度学习和自动驾驶
讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
91运营网  ·  DeepSeek保姆级教程 ·  14 小时前  
运营研究社  ·  DeepSeek如何赋能职场应用(清华大学) ·  16 小时前  
91运营网  ·  91运营网vip会员早鸟票抢座ing!! ·  昨天  
51好读  ›  专栏  ›  计算机视觉深度学习和自动驾驶

PHYSCENE:具身智能中物理可交互 3D 场景合成

计算机视觉深度学习和自动驾驶  · 公众号  ·  · 2024-10-14 00:58

正文

CVPR'24 来自北京 通研院 的论文 “PHYSCENE: Physically Interactable 3D Scene Synthesis for Embodied AI”。

随着具身人工智能 (EAI) 研究的最新发展,对高质量、大规模交互式场景生成的需求日益增长。虽然之前的场景合成方法优先考虑生成场景的自然性和真实感,但场景的物理合理性和交互性基本上尚未得到探索。 PHYSCENE ,专用于生成交互式 3D 场景,其特点是布局逼真、目标清晰、为具身智体量身定制的丰富物理交互性。基于用于捕获场景布局的条件扩散模型,设计基于物理和交互性的引导机制,将目标碰撞、房间布局和目标可达性(reachability)的约束整合在一起。


场景合成 [7, 11, 14, 16, 30, 45, 54, 58, 62, 67] 的探索一直是计算机视觉领域的研究重点。场景合成最初的设想是促进室内设计应用,旨在创建既真实又自然的多样化 3D 环境。然而,随着具身人工智能 (EAI) [1, 12, 25, 27] 的出现,这项任务的目标已呈现新的维度。 模拟环境 [9, 10, 33, 35, 50, 57] 现在支持大量复杂的具身任务,这已将场景合成任务推向重要的数据源,为智体提供无限的场景,以稳健地学习导航 [2, 34] 和操作 [18, 31, 48] 等技能。这一趋势凸显了场景合成在 EAI 研究背景下日益增长的重要性。

然而,实现从传统场景合成算法到为 EAI 量身定制的算法的无缝过渡,对场景生成提出了重大挑战。由于许多 EAI 任务涉及物理模拟 [19, 36, 37, 39, 40, 65],合成的场景必须遵守物理约束,同时实现目标(例如,铰接体或流体)和场景布局(例如,目标的可达性)之间的高度交互性,以促进智体的技能获取。这些严格的交互性要求为场景合成算法带来了一些障碍。

受现实世界扫描场景质量的限制 [4, 8, 29],以前的方法主要依赖于手动创建的场景 [14, 15]。然而,这些数据集是使用不可交互的目标设计的,忽略了物理约束,并且容易违反此类约束。因此,这对旨在学习可交互目标的物理合理安放算法,提出了重大挑战。除了数据层面的障碍之外,融入场景交互性(例如,保持足够的工作空间,确保目标的可达性和交互性)在设计反映此类抽象概念的可优化目标时,带来了不小的挑战。这些挑战强调了对有效场景合成算法的需求,该算法将传统合成算法的自然性和真实性结合起来,同时确保场景的物理合理性和交互性。

室内场景合成,被表述为布局预测问题,其中每个目标通常由其 3D 边框、语义标签 [14, 54] 或形状特征 [51] 表示,以便从 3D 资源库中检索到特定位置的对应网格。为了正确建模训练数据集中的目标布局,当前的方法通常将目标的安放表示为场景图 [7, 11, 62, 67],并利用场景先验(例如目标之间的空间关系 [45] 和目标类别(共)出现频率 [16, 58])来近似场景布局分布。在生成新场景时,这些工作利用迭代采样或优化方法来拒绝违反设计场景先验的场景,合成具有所需属性的场景 [7, 13, 16, 45]。然而,这类方法往往受到采样或优化算法的有效性的限制。近期的研究尝试使用深度神经网络 [26、41、42、44、54、59、64] 学习场景布局分布,以提高生成效率。

对于生成场景的质量评估,常用指标使用感知质量分数(例如 FID [22]、KID [5] 等)测试模型性能。然而,这些真实性指标并未解决生成场景的物理合理性和交互性,而这对于将场景适应模拟环境至关重要。事实上,一个常用的场景合成数据集 3D-FRONT 数据集 [14] 经常出现这些物理上不合理的布局(如表所示3D-FRONT 数据集中场景交互性的评估,其中这些场景表现出很高的物理约束违规率,包括碰撞、布局和交互性)。

此外,先前的研究也未充分研究场景对目标操作和可达性的交互性。 ProcTHOR [10] 提出了一种具有基于规则约束和统计场景先验可交互场景的程序生成流程。然而,正如 [32] 所指出的,这些生成的场景受到预定义先验的影响,从而生成了对智体学习有害不切实际的场景。

物理可交互场景合成需要逼真的布局、铰接体和物理交互性。但是,将铰体集成到仅使用静态物体训练的场景中会带来数据级挑战。

如图所示:PHYSCENE 利用 扩散模型 来捕捉场景布局分布,并应用三种不同的指导功能(碰撞、房屋布局和智体交互可达性)来提高生成场景的物理合理性和交互性。


利用形状特征 fi 作为目标检索的关键指标,特别是考虑到,在可用的铰接式目标数据集中目标,与场景合成数据集中的目标有很大不同。具体而言,遵循 [51] 并利用变分自动编码器来嵌入目标几何特征,将每个 3D 家具模型转换为潜形状特征。为了生成具有可交互目标的场景,考虑来自以下来源的目标资产:1) 3D-FUTURE [15],其中包含 3D-FRONT [14] 中使用的 CAD 模型,以及 2) GAPartNet [17],其中包括各种铰接式目标。在推理过程中,用潜编码特征根据 3D-Front 中的静态目标找到 GAPartNet 中铰接式目标的最佳匹配,从而能够生成包含可交互目标的场景。







请到「今天看啥」查看全文