专栏名称: 学姐带你玩AI
这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI!
目录
相关文章推荐
吉林果粉天天报  ·  吉林市两所学校揭牌成立 ·  2 天前  
吉林果粉天天报  ·  吉林市两所学校揭牌成立 ·  2 天前  
山西省邮政管理局  ·  雪花纷飞,寒意未减!未来三天这些地方雨雪持续…… ·  3 天前  
吉林生态环境  ·  来啦 !吉林省生态环境分区管控应用平台正式上线 ·  3 天前  
51好读  ›  专栏  ›  学姐带你玩AI

ICCV Oral丨清华AIR:用于时间一致性关键点发现的三维隐式Transporter

学姐带你玩AI  · 公众号  ·  · 2024-11-11 18:22

正文

来源:投稿  作者:橡皮
编辑:学姐

项目主页:https://github.com/zhongcl-thu/3D-Implicit-Transporter

论文链接:https://arxiv.org/abs/2309.05098

摘要:

在各种视觉和机器人任务中,基于关键点的表示法已被证明具有优势。然而,现有的二维和三维关键点检测方法主要依靠几何一致性来实现空间对齐,而忽略了时间一致性。为解决这一问题,针对二维数据引入了 Transporter 方法,该方法从源帧中重建目标帧,同时包含空间和时间信息。然而,由于三维点云的结构与二维图像不同,将 Transporter 直接应用于三维点云是不可行的。因此,我们提出了第一个三维版本的Transporter,它利用了混合三维表示、交叉注意和隐式重建。我们将这种新的学习系统应用于三维铰接物体和非刚性动物(人类和啮齿动物),结果表明学习到的关键点在时空上是一致的。此外,我们还提出了一种闭环控制策略,利用学习到的关键点进行三维物体操作,并证明了其卓越的性能。

1 引言

在时间输入中建立对应关系的能力是人类视觉系统的标志,这种能力已被发育生物学家证实为物体感知的有利因素。具体来说,婴儿可以通过考虑一起移动的像素,自然地将不同的物体区分开来。同时,从图像序列建立密集对应关系(即光流)也是计算机视觉领域最古老的课题之一,可追溯到这门学科诞生之初。

图 1. 给定成对的点云后,我们的三维隐式 Transporter 会利用物体/部件的运动来发现时间上一致的关键点,并恢复每次输入的基本形状。此外,学习到的关键点还可用于下游机器人任务,如铰接式物体操纵。

另一方面,在视觉识别、姿态估计、重构和机器人操纵等许多应用场景中,关键点作为一种紧凑的中层表示受到青睐。关键点稀疏对应是另一个基本的视觉课题。大多数二维和三维关键点检测方法都依赖于几何变换下的一致性来实现关键点的空间对齐。然而,这些方法在识别时间上一致的关键点方面能力有限,而时间上一致的关键点对于表现人体等形状和拓扑结构可能随时间变化的可移动或可变形物体至关重要。那么,是否存在一种通用原则能反映人类如何提取时空一致的关键点呢?其中一个(可能的)原则是,良好的中层表示法可用于重新合成原始视觉输入。FRAME等传统方法已经对这一原理进行了探索,但受限于当时生成模型的建模能力,这一原理并未取得太大成功。

最近,有人在二维领域提出了一种名为 Transporter的方法,正是利用上述原理,以自我监督的方式成功地将关键点提取和对应关系建立联系起来。得益于现代图像重建网络的强大功能,这种方法可以从图像序列中提取有意义的关键点,而无需任何人工标注。Transporter 既是一种有用的工具,也是一种优雅的表述方式,它(有可能)模仿人类视觉系统提取关键点的方式。然而,据我们所知,这种方法还没有被应用到三维领域。因为二维特征传输过程是在常规数据格式(如二维图像网格)上实现的,不适用于允许非均匀点间距的点云。我们认为的另一个原因是,从关键点进行三维重建是一个更具挑战性的设置。

因此,我们提出了文献中第一个三维 Transporter,它基于三个核心组件:用于三维特征传输的混合三维表示架构、用于更好地发现关键点的交叉注意,以及用于三维重建的隐式几何解码器。我们的方法将包含移动物体或物体部件的两个点云作为输入(图 1 左侧面板)。然后,通过只观察这两个状态,我们的三维隐式Transporter会以自我监督的方式为每个状态提取时间上一致的关键点和表面占位场(图 1 中间部分)。该方法根据检测到的关键点位置,从初始状态传输显式特征网格,从而重建目标状态的形状。通过对 PartNet-Mobility 数据集和 ITOP 数据集的广泛评估,我们证明在关键点的时空一致性方面,感知性能明显优于最先进的对应方法。Rodent3D数据集的定性结果也表明,我们的关键点能够始终如一地捕捉啮齿动物的骨骼结构。

此外,我们还探索了自监督中层表示(三维关键点)在下游机器人应用中的作用(图 1 右图)。我们选择需要对运动结构和部件运动进行复杂三维推理的铰接式物体操纵作为基准。现有的方法通常依赖于与物体无关的基于承受力的表示法。我们的三维关键点表示法也与物体无关,但我们证明,与这些方法相比,我们的方法有两个明显的优势:1)我们的高效学习方法不涉及模拟器中代价高昂的试错互动;2)我们利用时空对齐的三维关键点来提供对物体的结构化理解,从而设计出有效的闭环操纵策略。

总之,我们有以下贡献:

  • 我们首次提出了三维隐式Transporter模型,利用三维特征网格传输、注意力关键点检测和目标形状重构,从时间点云输入中提取三维对应关键点。
  • 根据提取的三维关键点表示,我们建立了一个闭环操控策略并证明它能在物体无关的环境中成功操控许多铰接物体。
  • 我们对三维隐式Transporter 的感知和操作性能进行了广泛的基准测试,并在公共基准测试中报告了最先进的结果。

2 相关工作

2.1 3D 关键点检测

从点云中检测三维关键点已引起视觉和机器人学领域的广泛关注。传统的手工方法是根据输入的局部几何统计数据(如密度和曲率)来预测突出点。现代基于学习的方法利用关键点坐标或显著性分数在刚性变换下的一致性,将关键点检测作为一项自我监督任务。然而,这些方法无法确保非刚性物体的关键点检测在时间上保持一致,因为这些物体的形状在移动后会发生显著变化。为此,最近的研究探索了从给定的图像视频中发现时间上一致的关键点。其中大多数研究将关键点学习问题视为信号重建过程。例如,Minderer 等人和 Jennifer提出利用当前帧和未来关键点的特征重建未来帧。尽管这些方法取得了较好的效果,但它们都集中于二维关键点的发现。据我们所知,很少有研究三维时间一致性关键点检测任务的工作。

2.2 神经隐式表征

最近,多项研究重点关注隐式几何表示。其目的是通过神经网络将信号参数化为连续函数,从而解码离散输入的复杂形状拓扑结构。隐式神经功能在抓取姿势生成、关节模型估计和物体姿势表示方面取得了巨大成就。最近的研究证明,将内隐形状解码器而不是坐标解码器纠缠在一起,能促使模型预测出更多语义一致的关键点。受这些工作的启发,我们利用隐式占位函数来重建传输的三维物体的基本形状。

2.3 感知和操纵铰接物体

以往的研究探索了多种理解和表示铰接物体的技术,如运动学图、6D 姿态估计、部件分割、变形流、关节参数等。不过,这些方法大多需要物体的地面实况知识,或者与物体类别有关。与它们不同的是,我们使用关键点的稀疏对应关系来捕捉衔接物体的关键部分,而不需要人为标签,这也可以推广到未见过的类别。尽管视觉领域取得了丰硕的成果,但人们仍无法直接从感知输出中推断出操作衔接物体的动作。因此,最近的研究提出了以操作为中心的视觉表征,如视觉承受能力或密集衔接流。然而,它们需要在模拟中进行大量的试错互动,或需要地面真实几何知识。相比之下,我们的关键点学习是无监督的、有效的,关键点之间的对应关系也能很好地服务于机器人操纵。

3 方法

我们的感知方法提出了一种新的方案,以自我监督的方式在点云序列中发现移动物体或物体部件在时间和空间上一致的三维关键点。训练完成后,学习到的关键点将用于设计一种策略,用于操纵铰接物体从起始状态到达目标状态,从而避免了通常使用的代价高昂的试错交互。

3.1 时空三维关键点发现

根据文献中的表述,我们考虑的数据集由从一系列轨迹中提取的帧对组成,其中每个帧都以三维点云而非图像的形式表示。一对帧中的两个帧仅通过物体姿势/几何形状的差异来区分。我们的目标是找到相应的关键点,描述物体或物体部分从源帧到目标帧的运动。我们通过从源帧重建目标帧的基本形状来解决这个问题。图 2 概括了我们的方法,随后的小节将进一步详细介绍其组成部分。

图 2. 三维隐式 Transporter 的结构。该网络由以下部分组成:(1) 特征编码器 Φ,用于提取需要传输的特征;(2) 关键点模块 Ψ,用于指示需要传输的位置;(3) 三维特征 Transporter ,用于重建感兴趣的特征体;(4) 几何隐式解码器,允许仅使用输入点云进行自我监督。整个过程包括从两个帧中提取 m 个相应的三维关键点,并根据关键点的位置将目标帧的特征传送到源帧。然后将传输的特征输入隐式解码器,以重建目标形状。

3.1.1 三维特征Transporter

混合三维表示法。 根据 2D Transporter 中的表述,特征传输是在统一数据(如 2D 图像)之间进行的,这对于格式不规则的点云来说是不可行的。一种直接的方法是在将点云输入神经网络之前将其转换为统一的三维体素网格。然而,将原始点云转换为体素不可避免地会引入量化误差,从而破坏三维数据的内在几何模式(如等距)。虽然高分辨率的体积表示法可以弥补这种信息损失,但计算成本和内存需求都会随着体素分辨率的增加而呈立方体上升。相反,基于点的模型由于采用了稀疏表示,可以显著减少内存使用量。因此,我们利用基于点的骨干模型从稀疏点中提取局部特征,然后利用基于体素的模型传输局部特征。

给定帧 ,其中 N1 是输入点的数量,我们利用PointNet P 获得点特征 ,其中 C1 是特征维度。然后对这些特征进行局部汇集并投影到结构体 中,其中 Ch、Cw 和 Cd 是三个正交轴上的体素数量。然后,用三维 UNet U 处理特征卷,得到输出 。上述基于点和体素的模型在图 2 中表示为特征编码器 Φ。

注意力关键点检测。 当我们被要求在成对的帧之间寻找移动的物体或物体部件时,我们会采用一个迭代过程,对两个帧中的多个暂定区域进行检查和筛选。然而,像 2D Transporter所做的那样,使用单帧提取移动部件的关键点本身就可能存在模糊性,尤其是当每帧中都存在多个潜在移动部件时。因此,前文的启发,我们建议使用交叉关注模块来汇总两帧中的几何特征,从而定位关键点。

具体来说,我们利用基于点的模型(不与 Φ 共享)来提取输入点云的多级特征,并在粗略级别上关联成对输入,以降低计算成本,如所做的那样。给定帧对 os、ot,我们利用共享的 PointNet++ ˆP 获得两个向下采样的点特征 ,其中 。然后,使用交叉注意模块混合成对输入的点特征,具体方法是:

该模块的输出是输入特征和出席特征的合并。然后,我们使用 PointNet++ 解码器对 f ′ s 和 f ′ t 进行高采样,得到高密度特征 。根据上述原理,我们通过投影和三维 UNet Uk 将这些稠密点特征转换为关键点显著性卷。假设整个检测模块记为 Ψ,输出记为 。然后,我们可以沿三个正交轴对显著性卷进行边际化,以提取 m 个三维关键点 ,如图 2 中蓝色面板所示。在这里,ks 和 kt 中的第 i 个关键点彼此对应(i ∈ [1, m])。

特征传输。 与 2D Transporter 类似,下一步涉及从 os 重建 ot 的特征传输。我们将 kt 周围 Φ(ot) 中的特征传送到 Φ(os) 中,并抑制 kt 和 ks 周围 Φ(os) 中的特征。如图 2 中绿色面板所示,我们首先擦除 Φ(os) 中两组关键点的特征,得到 Φ -(os),然后从 ot 中提取关键点 kt 周围的特征,最后将两者合并生成 Φ +(os),其公式为

其中,HΨ 表示由固定方差 σ 各向同性高斯构成的三维热图,以 Ψ 所指示的 m 个关键点坐标为中心,而 在图 2 中表示为

3.1.2 几何隐式解码器

由于源帧和目标帧之间除移动部件外的几何形状保持不变,因此利用检测到的移动部件的相应关键点来构建传输特征,可以重新合成目标视觉输入。由于二维Transporter在传输后不会改变数据结构,因此很容易通过基于 CNN 的解码器重建输入图像。但这对于不规则的三维数据来说并不可行,因此我们的三维Transporter利用隐式神经表征来重建目标的底层形状,而不是原始点云。

图 3. 基于对应关键点的操纵策略说明。R 表示旋转,P 表示棱柱。红色箭头的长度与作用距离成正比。

最近的研究证明了深度隐函数在三维重建中的有效性,这也是我们采用这种方法的原因。通过将不规则点云映射为体积特征,我们发现使用隐式形状解码比稀疏重建更有效(见表 3)。

给定查询集 Q 中的一个点 q ∈ R 3,我们的方法使用多层感知器将其编码为 Ce 维向量 qe。然后,通过三线性插值从传输的特征体积 Φ +(os) 中查询局部特征 Φ + q (os)。我们的隐式解码器 Ω 将特征 qe 和 Φ + q (os) 的串联映射到目标表面占用概率 ,如下所示:

3.1.3 损失函数

所有模块都可以通过表面重建损失进行优化。由于我们声称除了给定的视频之外我们无法访问任何其他信息,因此我们仅使用输入点云来训练隐式解码器。具体来说,我们将占用点定义为位于输入表面上的点,而所有其他点都被视为未占用点,包括表面内部和外部的点。

使用预测目标表面占有率 与目标帧的真实标签 之间的二元交叉熵损失。如果 q 来自输入目标点云,则 将为 1,否则为 0。我们从大小为 Ch × Cw × Cd 的体积和目标点云中随机抽取查询 Q,然后对所有查询取平均结果:

其中 |Q| 是查询 Q 的数量。

我们还加入了一个额外的损失项 Locc s,通过利用其自身的特征网格 Φ(os) 来辅助源帧重建过程。补充材料中提出的这个损失项可以改善感知结果。

3.2 使用一致关键点进行操作

使用关键点作为物体的中级表示是一种适合在 3D 空间中发生的接触丰富的机器人操作任务的方法,例如工具操作、物体抓取、布料折叠和通用视觉运动策略学习。然而,以前的研究要么只关注 2D 关键点表示,要么在面对形状变化和物体拓扑变化时难以检测时间一致的 3D 关键点。由于三维Transporter 关键点的长期一致性,我们的方法非常适合处理 3D 操作任务。为了证明这一点,我们选择铰接式物体操作作为基准。在进行操作之前,我们利用关于关节的几何先验知识在关键点学习期间设计了两个额外的损失,以提高三维Transporter 关键点估计的性能:

关键点对应损失。 由于预测的关键点预计会分散在移动部件上,我们可以使用它们来生成源和目标之间的刚性部件运动的姿势假设,该假设由以下公式给出:

这可以使用 SVD以闭式计算。我们强制所有对应的关键点满足此严格变换,以使关键点几何对齐:

关节一致性损失。 在关节运动过程中,我们注意到某个关节在不同状态下的轴方向应保持相同或平行。给定方程 (6) 预测的姿势,我们可以通过罗德里格斯旋转公式计算其轴方向 µ 和角度 θ。我们对不同时间步骤中某个关节的轴方向差异进行惩罚:

其中 µab 是时间步长 a 和 b 的观测值之间的预测轴方向。

总体训练损失为:

其中 λ1 和 λ2 是损失权重(具体值在补充材料中有详细说明)。

训练后,我们基于三维隐式Transporter关键点开发了一种与对象无关的操作策略,从而避免了先前工作中使用的众所周知的低效探索。我们首先将每个将对象从当前状态移动到目标状态的动作 定义为 6 自由度姿势,该姿势表示吸力位置 和移动方向 。然后,我们的策略由两部分组成:

位置和方向推断。 第一步是获得预测的关键点 kc、kg、轴 µc,g 和角度 。然后,我们从对应的关键点计算稀疏关节流 。为了有效地驱动运动部件,我们根据杠杆原理选择具有最高流量的关键点位置 作为吸力点,表示为







请到「今天看啥」查看全文


推荐文章
吉林果粉天天报  ·  吉林市两所学校揭牌成立
2 天前
吉林果粉天天报  ·  吉林市两所学校揭牌成立
2 天前
混沌巡洋舰  ·  共享经济(Sharing Economy)想要什么?
7 年前
可可英语  ·  可可英语APP新增双语视频版块啦!
7 年前