专栏名称: 学姐带你玩AI

这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI！

CVPR 2024 | 英伟达＆斯坦福新作：未知关节物体数字孪生体的神经隐式表示

学姐带你玩AI · 公众号 · · 2025-01-06 18:29

正文

来源：投稿作者：橡皮
编辑：学姐

论文链接：https://arxiv.org/abs/2404.01440

项目主页：https://github.com/NVlabs/DigitalTwinArt

摘要：

我们解决了从不同关节状态下物体的两个 RGBD 扫描构建未知关节物体的数字孪生的问题。我们将问题分解为两个阶段，每个阶段解决不同的方面。我们的方法首先重建每个状态下的物体级形状，然后恢复底层关节模型，包括将两个状态相关联的部分分割和关节关节。通过明确建模点级对应关系并利用图像、3D 重建和运动学的线索，我们的方法与以前的工作相比产生了更准确和稳定的结果。它还可以处理多个可移动部件，并且不依赖于任何物体形状或结构先验。

1引言

我们周围到处都是铰接式物体。每当我们打开门、关上抽屉、打开水龙头或使用剪刀时，我们都会利用对各种物体部件及其相互作用的复杂、基于物理的理解。因此，从视觉观察中重建新型铰接式物体是机器人和混合现实的一个重要问题。在这项工作中，我们的目标是使构建 3D 重建的过程民主化，该重建可以准确描述铰接式物体，包括部件几何形状、分割及其关节关节，如图 1 所示。

图 1. 我们的方法需要在两种关节状态下对物体进行两次 RGB-D 扫描（左）。输出是 3D 重建，其中部分已分割、关节类型已识别且关节轴已估计（右上）。请注意，允许多个关节。生成的数字孪生可以导入基于物理的模拟器进行交互（右下）。

关节物体数字孪生的生成问题已被研究了很长时间。最近针对该问题的两种方法是 Ditto和 PARIS。这两种方法都基于对物体在两个关节状态下的观察，重建了部件级几何形状和关节模型。Ditto 是一种前馈方法，以两个多视图融合点云作为输入。它使用来自特定类别的一组物体进行训练。虽然 Ditto 对训练期间未见过的物体表现出了普遍性，但它不具备处理与训练类别截然不同的任意未知物体的能力。PARIS 将多视图姿势图像作为输入，并直接从输入数据中优化隐式表示而无需预训练，从而确保更好的普遍性。然而，PARIS 的优化过程很大程度上依赖于初始化并且缺乏稳定性，我们将在实验结果中展示这一点。此外，PARIS 和 Ditto 都只能处理两部分对象。

在本文中，我们通过提出具有以下独特特征的系统，向解决先前研究的局限性迈出了一步：a）能够处理任意新物体，而不管它们的运动、形状或大小与训练分布的差异如何；b）可扩展到具有多个运动部件的物体；c）对关节重建问题的高维优化空间初始化的鲁棒性。

给定物体在两种不同关节状态下的多视角 RGB-D 观测，我们提出的方法可以重建关节部位网格和关节参数。我们采用两阶段方法，首先使用 SDF 表示重建每个给定状态下的物体，然后估计包括部位分割和关节参数的关节模型。我们从关节模型中明确推导出两种状态之间的点级对应关系，可以通过最小化以下损失来轻松监督：1) 从一个状态到另一个状态的 3D 局部几何之间的一致性，2) 来自图像特征匹配的 2D 像素对应关系，以及 3) 以最小化关节碰撞的形式进行的基于物理的推理。

我们在多个具有挑战性的数据集上证明了我们的方法的有效性，例如 PARIS引入的数据集，其中包括合成场景和真实场景。我们还引入了一个由具有多个关节的物体组成的新型合成数据集。大量实验表明，我们的方法可以推广到各种类型的物体，包括那些由旋转关节和平移关节组成的具有挑战性的物体。我们的方法还表明，在不同的初始化条件下，与基线相比，我们的方法可以产生更稳定的结果。我们将我们的贡献总结如下：

我们提出了一个框架，用于重建未知铰接物体的几何和铰接模型。它针对每个物体进行了优化，适用于任意铰接物体，无需假设任何物体形状或结构先验。
我们的方法将问题分解为物体形状重建和铰接模型推理。通过联合优化从铰接模型派生的点对应场上的一组损失项，我们有效地利用了图像特征匹配、3D 几何重建以及运动规则的线索。
对合成数据和真实世界数据的广泛评估表明，我们的方法始终如一、稳定地优于现有的最先进方法。
我们仅使用两种不同铰接状态下的多视图扫描，就证明了对由多个可移动部分组成的复杂未知铰接物体的通用性。

2 相关工作

铰接式物体先验学习。 许多研究利用深度学习离线训练大规模 3D 铰接式资产，以学习铰接先验，包括部件分割、运动结构、姿势估计和铰接形状重建。特别是，Ditto和 CARTO与我们的目标相同，即构建对象的完整数字孪生，包括形状重建、部件分割和铰接推理。Ditto建立在 PointNet++之上，以处理多视图融合点云。CARTO通过将立体图像作为输入，为多个对象类别学习单个几何和铰接解码器。虽然上述方法已经显示出有希望的结果，但由于注释的复杂性，在现实世界中收集大量训练数据并非易事。与单个刚性模型相比，3D 铰接式物体模型的可用性也明显有限，无法产生多样化的合成训练数据。这导致我们在实验中验证了分布不均的测试集会遇到困难。相比之下，我们的方法不需要对铰接式资产进行训练，并且可以应用于各种未知的铰接式物体，而不受任何类别限制。

逐个对象优化。 逐个对象优化方法执行测试时优化，以更好地适应新的未知对象。通过绕过 3D 关节资产的学习先验，这种方法理论上可以推广到任意未知对象。Watch-it-move展示了 3D 关节的自我发现，用于新视图合成和重新摆姿势。然而，它关注的是旋转关节和物体，如人类、四足动物和机械臂，而不是这里考虑的日常生活物体。一些工作提出了一种能量最小化方法来联合优化零件分割、变换和运动学，同时需要一系列完整的点云作为输入。在这些方法中，PARIS与本文考虑的设置最接近，它通过对未知物体的初始和最终状态进行两次扫描并构建完整的数字孪生。它专注于具有单个可移动部件的物体，使用单独的神经场分别对静态和动态部分进行建模。正如我们所展示的，这种设计决策会导致鲁棒性和效率降低，从而阻止推广到更复杂的多关节对象，例如我们的方法处理的对象。

通过交互进行关节推理。 先前的研究利用物理交互来创建新的感官信息，从而根据对象状态变化推理关节模型。一些工作率先将交互式感知引入关节模型的估计中。后续研究进一步探索了分层递归贝叶斯滤波器、概率模型、多视角立体几何模型和特征跟踪。Where2Act提出了一个可学习的框架，用于从单个 RGB 图像或点云估计关节对象上的动作可供性，同时仅限于单步交互。AtP学习交互策略以隔离部件，以实现有效的部件分割和运动推理。然而，大多数方法侧重于学习有效部件分割或运动分析的交互策略，而不是以 3D 重建为目标，而 3D 重建是本研究的目标之一。最近的研究将 Ditto扩展为一个交互式设置，从而实现完整的数字孪生。然而，它对预训练的依赖与清晰度先验学习方法存在类似的问题。对完美深度感知且不存在视点问题的假设也阻碍了其直接应用于嘈杂的现实世界数据。

3 方法

我们解决了从两个不同关节状态下对物体的观察构建未知多部件关节物体的数字孪生的问题。具体来说，我们重建物体的每个部件形状和关节模型，给定多视图 RGB-D 观察和物体蒙版 {(I t v , Deptht v , Maskt v )}v=0,...,V −1，其中物体初始状态 t = 0 和最终状态 t = 1 时相机参数已知。通常图像数量 V ≈ 100。我们还假设关节数量已知。

图 2 展示了我们框架的概览。我们将重建问题分解为两个具有不同重点的阶段。第一阶段（§3.1）重建每个状态下的对象级形状，这些形状与关节无关。第二阶段（§3.2）通过利用每个状态重建之间的对应关系来恢复包括部分分割和部分运动的关节模型。

图 2. 我们的方法概述。在第 1 阶段，给定物体在初始和最终关节状态下的多视图 RGB-D 扫描，针对每个状态优化两个神经对象场。在学习收敛后，提取与两个状态相对应的网格。在第 2 阶段，使用三个损失优化部分分割场和每个部分的运动：一致性、匹配和碰撞。分割场和部分运动共同产生两个状态之间的点对应关系。

3.1 每个状态的对象重建

给定对象 Ot 在状态 t ∈ {0, 1} 下的多视角 RGB-D 图像，我们的目标是重建对象几何形状，用神经对象场 (Ωt,Φt) 表示（下文中为简单起见省略 t），其中几何网络 Ω : x7→d 将空间点 x∈R3 映射到其截断符号距离 d∈R，外观网络 Φ : (x, d)7→c 将点 x∈R3 和视角方向 d∈S2 映射到 RGB 颜色 c∈R3+。

网络 Ω 和 Φ 采用多分辨率哈希编码实现，并通过显色损失 Lc 和 SDF 损失 LSDF 使用 RGB-D 图像进行监督。我们遵循 BundleSDF的方法，详细信息请参阅附录。

经过优化，我们使用移动立方体从 Ω 中提取零水平集，得到对象网格 Mt，由此我们可以进一步计算欧氏符号距离场 (ESDF) ˜Ω(x)，以及占用场 Occ(x)，定义为

其中 s 设置为较小的数值，以使函数在物体表面附近连续过渡。

3.2 分割和运动重建

给定两个不同关节状态 t ∈ {0, 1} 下的对象级重建 (Mt , ˜Ω t , Occt , Φ t )，我们旨在发现将它们相互关联的底层关节模型，即状态之间的部分分割和每个部分的刚性变换。我们的关键思想是从关节模型中推导出状态之间的点对应场，并使用从第一阶段获得的丰富几何和外观信息对其进行监督。

对于具有 M 个部件的铰接物体，我们通过以下方式对其从状态 t 到状态 t ′ = 1 − t 的铰接进行建模：1）部件分割场 f t : x 7→ i，将空间点 x ∈ Ot 从状态 t 的物体映射到部件标签 i ∈ {0, . . . , M −1}；2）每部件刚性变换 T t i = (Rt i , t t i ) ∈ SE(3)，将部件 i 从状态 t 转换为状态 t ′。

对于可微分优化，我们不是将点 f 硬性地分配给部件，而是将部件分割建模为部件上的概率分布。正式地，我们让 P t (x, i) 表示状态 t 中的点 x 属于部件 i 的概率。

P t 实现为基于密集体素的 3D 特征体，后跟 MLP 分割头。对于刚性变换，我们使用 [42] 中的 6D 表示对旋转进行参数化，并使用 3D 矢量对平移进行参数化。现在，我们可以导出点对应场，该场将状态 t 中的任何对象点 x 映射到状态 t ′ 下的新位置 x t→t ′，此时该对象点会随着其所属部分的运动向前移动。该场可以看作是一种“渲染”关节模型以进行监督的方式。正式来说，

该方案类似于经典的线性混合蒙皮。

共享运动。 我们从两个状态开始优化两个关节模型 (f 0 , T 0 )、(f 1 , T 1 )。由于它们描述相同的关节，我们共享部分运动 T 以减少冗余并共享监督信号。正式来说，

给定点对应场，我们可以利用来自对象级重建和图像观察的丰富几何和外观信息对其进行监督。具体来说，我们提出以下损失。

一致性损失。 对应点在各自状态下应具有一致的局部几何形状和外观，我们可以从第一阶段的重建中查询到这些特征。对于近表面点 x ∈ X t surf = x |˜Ω(x)| < λsurf ，我们期望其对应 x t→t ′ 具有一致的 SDF 和颜色。正式地，我们将 SDF 一致性损失 ls 和 RGB 一致性损失 lc 定义为

其中 d 表示从射线 x 采样的方向，d ′ 表示由 x 的部分运动变换后的 d。

为了将监督扩展到远离表面的点（对于这些点，我们对重建的 SDF 或颜色不太有信心），我们强制执行其占用值的一致性。正式地，我们将占用一致性损失 lo 定义为：

我们对沿相机光线 r(t) = o + td 采样的点 x 实施 SDF 和颜色一致性损失，并根据点与物体表面的接近程度对点进行加权。同时，我们对从单位空间均匀采样的点实施占用一致性损失。正式地，我们将一致性损失 Lcns 定义为：

其中 w(x) 是一个钟形函数，其峰值在物体表面，超参数 α 控制其锐度，超参数 λs、λc、λo 加权不同的损失项。然而，由于一致性损失基于局部描述，并且每个点都有很大的解决方案空间，因此在单独优化一致性损失时，有时很难得出正确的解决方案。

匹配损失。 我们建议利用 LoFTR获得的两种状态下图像之间的 2D 像素匹配，从图像观察中挖掘视觉线索。

对于在状态 t 下从视图 v 拍摄的图像 I t v，我们从状态 t ′ 中选择 K 张图像 I t ′ u u ∈ Nv ，其中 Nv 是在状态 t ′ 下最接近视图 v 的视点。我们将每个图像对 (I t v , It ′ u ) 馈送到 LoFTR 以获得 L 对稀疏且可能有噪声的像素匹配 Mv,u,t = {(pj, qj)}j。

图 3. 碰撞损失的动机。(a)、(b) 分别是物体在初始和最终状态下的观测值。假设物体被错误分割，如 (c) 所示，其中蓝色代表可移动部分。向前移动该部分将导致 (d)。在这种情况下，错误的分割场仍然会导致 SDF 和颜色的低一致性损失。因此，我们引入了额外的碰撞损失。

对于像素对 (p, q)，设 r 为从视图 v 穿过 p 的相机光线，则从视图 u 获得的 t ′ 状态的 p 的二维对应关系可以近似为：

其中πu是视点u的投影，w t (x)如公式(8)所示。

匹配损失是所有图像对中所有匹配像素对的平均值：

图 4. 碰撞损失说明。我们的目标是在应用预测的向前运动（将两根棍子向内移动）后检测并惩罚部件之间的碰撞。对于状态 t ′ 下的点 y，我们通过使用每个部件的反向运动（沿箭头向外移动）变换 y 来回溯可能移动到 y 的一组点 Bwd( ] y) ({a, b, c})。然后，我们通过查找其占用率和部件标签来检查使用部件 i 的运动获得的候选点 xi 是否确实是部件 i 中的一个点。最后，我们获得在关节模型下实际上映射到 y 的点集 ←−− Bwd(y)({b, c})，如果有多个点映射到 y，即 | ←−− Bwd(y)| > 1，则报告碰撞。

碰撞损失。 最小化一致性损失的解决方案可能仍然是错误的。如图 3 所示，错误的分割仍然会导致较低的一致性损失。匹配损失也不能完全解决问题，因为像素匹配可能嘈杂且稀疏，并且它们主要限制近表面点，而不适用于物体内部深处的点。另一方面，如果我们查看每个部分变换后的对象 Ot→t ′ = {x t→t ′ = −−→Fwd(x, ft , T t )}x∈Ot ，如图 3(d) 所示，我们确实观察到由于错误分割而导致的伪影，即三角形和底边之间的碰撞。因此，我们建议查看 Ot→t ′ 的整体并检查伪影。图 4 说明了这个想法。为了检测碰撞，我们从状态 t ′ 下的点 y 开始，并回溯状态 t 下给定 (f t, T t) 可能转发到该点的点集，

为了简化，我们考虑 x ∈ ←−− Bwd(y) 跟随 M 个刚性部件运动之一的情况。我们可以迭代所有可能的部件并获得候选集 Bwd(g y)，

在训练期间，我们使用 Bwd(g y) 作为近似值。

仅当 xi 位于部分 i 上时，候选点 xi = (Rt i ) −1 (y − t t i ) 才与 y 相对应，这可以通过检查占用率 Occ(x) 和部分分割 P(x, i) 来验证。正式地，我们将 xi 与 y 对应的概率写为

其中Occ(x)由公式（1）定义。

我们通过对所有 xi 的贡献求和来计算与 y 相对应的点的数量，并在结果大于 1 时报告碰撞。正式地，我们将碰撞损失 Lcoll 定义为

其中 y 在单位空间中均匀采样。

处理部分观察。 在许多情况下，由于视点有限或自我遮挡，我们只能观察到物体的一部分。这可能会导致物体重建中出现幻觉区域，从而干扰对应推理。此外，可移动部件的可见部分在不同状态下会有所不同，例如，抽屉是打开的，抽屉是完全关闭的。仅在一种状态下可见的点（例如抽屉内部的点）可能无法在另一种状态的重建中找到对应的点。为了解决这个问题，我们通过将点 x 投影到所有摄像机视图并检查它是否在深度（在投影像素处）的前方超过某个阈值 ϵ 来计算点 x 的可见性。正式来说，

其中 W 表示逻辑或，dv 表示在视图 v 处观察到的深度；πv(x) 表示二维投影；distv(x) 表示沿光轴从 x 到相机原点的距离。

令 U t = x ¬ vis(x) 表示状态 t 下未观测点的集合。在第一阶段的网格提取过程中，我们通过将这些点的 TSDF 设置为 1 来强制使这些点的空间为空，这样表面重建仅包含观测区域。如果 x t→t ′ (等式 2) ∈ Ut ′ ，即未观测到另一状态下的预测对应关系，我们还将 x 处的点一致性损失降低 wvis 一个因子。将 wvis 设置为一个较小的非零数以避免学习崩溃，即使所有点都对应于未观测点以减少一致性损失。

第二阶段的总损失定义为：

显式铰接对象提取。 给定重建的形状和铰接模型 (Mt , Pt , T t )，t ∈ 0, 1}，我们可以提取显式铰接对象模型。为了预测关节 i，我们取共享部件运动 T 0 i = (R0 i , t 0 i )，如果 angle(R0 i )| < τr，则将关节 i 分类为棱柱形，否则为旋转。然后，我们将 T 0 i 投影到纯旋转或平移变换的流形，并计算关节轴和相对关节状态。对于部件级几何，我们首先确定具有更好部件可见性的状态 t ∗ ∈ {0, 1 ，例如当抽屉打开而不是关闭时。然后，我们计算硬分割 f t ∗ (x) = arg maxi P t ∗ (x, i)，并将每个部件网格提取为 P t ∗ i = v v ∈ Mt ∗ , ft ∗ (v) = i 。

4 实验

4.1 数据集

PARIS 双部件物体数据集。 PARIS创建了一个日常生活中双部件关节物体的数据集，其中包括来自 PartNet-Mobility的 10 个合成物体实例和使用 MultiScan管道捕获的 2 个真实世界物体。每个物体在两个关节状态下被观察到，其中只有一个部分（“可移动部分”）跨状态移动，而另一部分（“静态部分”）保持静止。每个状态的观察包括从上半球的 100 个随机视图捕获的 RGB 图像和物体蒙版。我们还使用与 PARIS 相同的相机参数为合成物体渲染了深度图像，并从原始 RGB-D 图像中检索了真实物体的深度数据。

合成多部分对象数据集。 我们使用来自 PartNetMobility的多部分实例创建了 2 个合成场景。这些对象由一个静态部分和多个可移动部分组成。我们在两种关节状态下捕捉它们，其中多个可移动部分在两种状态下同时改变各自的姿势。对于每个状态，我们从上半球随机选择了 100 个视图并渲染了 RGB、深度和对象蒙版。

4.2 指标

对象和部件级几何。 我们通过在真实网格和预测网格上均匀采样 10K 个点，使用双向 Chamfer-l1 距离 (CD) 评估对象和部件网格重建。我们报告整个对象的 CD-w (mm)、静态部分的 CD-s (mm) 和可移动部分的 CD-m (mm)。根据 [16]，我们以毫米为单位报告这些值。

关节模型和跨状态部件运动。 我们用 Axis Ang Err (◦)（旋转关节和平移关节的预测关节轴的角度误差）和 Axis Pos Err (0.1m)（旋转关节的预测关节轴和真实关节轴之间的最小距离）来评估估计的关节模型。我们还用部件运动误差（◦或m）（称为关节状态）来评估状态间估计的部件运动，对于旋转关节，预测旋转的测地线距离误差，或对于移动关节，平移的欧几里得距离误差。

4.3 基线

Ditto 是一个前馈模型，它根据两个不同关节状态下的多视图融合点云观测，重建两部分关节物体的部件级网格和运动模型（关节类型、轴和状态）。它与 PARIS具有相同的假设，即只有一个物体部件跨状态移动。我们遵循 [16] 的协议，并报告 Ditto 发布的模型的结果，该模型在 Shape2Motion的 4 个物体类别上进行了预训练。

PARIS 重建了两部分关节物体的部件级形状和外观以及运动模型，给出了两个关节状态下的多视图 RGB 观测值。它采用基于 NeRF 的表示并执行每个对象的优化，以便可以将其应用于任意未知对象。该对象被建模为静态部件场和移动部件场的组合，以及解释跨状态变化的移动部件场的变换。部件场和变换与图像渲染损失联合优化。

PARIS *. 为了与我们基于 RGBD 的方法进行公平比较，我们按照之前工作对 PARIS 进行了深度监督增强，并将此版本表示为 PARIS*。

PARIS *-m. 原始 PARIS仅限于两部分物体。为了使其适用于更一般的 P 部分物体，我们修改了 PARIS 以优化静态场和 P −1 个移动场，以及它们的 P − 1 个跨状态刚性变换。我们还增加了深度监督。

CSG-reg. 它使用 TSDF 融合重建每个状态下的对象，并将构造性立体几何应用于每个状态的 TSDF，以获得类似于 PARIS 中的 Ours-ICP 基线的静态（交集）和可移动（差异）部分。然后，它执行快速全局配准和彩色 ICP来对齐可移动部分并估计关节运动。

3Dseg-reg. 它遵循与 CSG-reg 相同的程序，但使用预训练的 3D 对象部分分割模型 PAConv来分割重建的对象。由于 PAConv 不能很好地推广到未见过的类别，我们仅报告训练有素的类别笔记本电脑和刀片的数字。

4.4 实验和评估设置

我们遵循先前工作的设置，其中假设部件 0 保持静态（R0 = I，t0 = 0）。对于多部件物体，假设所有评估方法都知道部件数量，但关节类型未知。为了找到相应的部件进行评估，我们遍历预测部件和真实部件之间的所有可能对，并报告具有最小总倒角距离的最佳匹配。为了去除不成比例地影响倒角距离的浮动物，我们对所有方法应用网格聚类后处理步骤，其中我们删除小于最大聚类顶点的 τ = 10% 的连通网格组件。我们将提取的具有预测运动的部件转换为状态 t = 0 以进行评估。

我们观察到，基于优化的方法（例如 PARIS）可能会因模型的不同随机初始化而产生不同的最终结果。为了进行全面评估，我们使用不同的随机种子运行所有基于优化的方法 10 次，并报告 10 次试验中每个指标的平均值和标准差。有关更多统计数据，请参阅附录。

4.5 PARIS 双部分对象数据集上的结果

表 1 显示了 PARIS Two-Part Object Dataset 的结果，包括合成和真实实例，总结了超过 10 次试验。Ditto 依赖于从训练类别中学习到的物体形状和结构先验，在评估中涵盖笔记本电脑、烤箱和存储。虽然它在可见类别上表现良好，尤其是在形状重建方面，但在看不见的类别方面可以观察到明显的泛化差距。PARIS 在大多数情况下在试验中表现出很大的性能差异。虽然它在某些试验中表现良好，但偶尔会彻底失败，导致形状和关节重建的整体性能都差得多。PARIS* 中的深度监督改进了物体级形状重建，从合成数据和所有真实实例中显著改善了烤箱、剪刀、洗衣机等具有挑战性的物体的 CD-w。同时，深度进一步使优化复杂化，导致更多的失败案例和更大的方差，导致更差的平均关节预测。CSG-reg 和 3Dseg-reg 都在合成笔记本电脑等简单物体上表现良好，但在其他方面表现不佳。值得注意的是，分割错误（例如，包含叶片可移动部分的交叉点、被误认为可移动部分的噪声）很容易传递到传统的基于配准的关节估计中。

表 1. PARIS 数据集上的结果，包括合成数据和真实数据。（显示使用不同随机种子的 10 次试验的平均值 ± 标准差；详情请参阅补充材料。）PARIS* 增加了深度，以便在相同输入模态下进行公平比较。带有 † 的对象是 Ditto [6] 训练过的可见类别。Ditto 有时会给出错误的运动类型预测，用 F 表示关节状态，用 * 表示关节轴或位置。请注意，Blade、Storage 和 Real Storage 具有棱柱关节，因此没有轴位置。

我们的方法对初始化具有很强的鲁棒性，并且在试验中始终能够实现准确的形状和关节重建。在大多数情况下，我们的表现都优于基线方法。如图 5 所示，我们的方法可以准确地重建真实和合成物体的部件几何形状和关节轴，而基线方法则受到分割噪声或完全失败的影响。