本文是VCC陈昊轩同学对论文 Point 4D Transformer Networks for Spatio-Temporal Modeling in Point Cloud Videos 的解读,该工作来自新加坡国立大学和悉尼科技大学并已被发表于CVPR 2021上。
CVPR 2021 Open Access Repository (阅读原文跳转)
该工作提出了一种新型的Point 4D Transformer (P4Transformer) 网络,用于
对点云视频中的时空信息进行建模
。
在该网络结构中,4维点卷积层负责嵌入时空局部结构,而Transformer层则利用自注意力机制捕获全局的外观和运动信息。
该网络
在3D动作识别和4D语义分割等任务上表现出色
,证明了其在点云视频建模方面的有效性。
点云视频(实时点云流)的分析是一个挑战性的任务,该任务要求算法能够处理和理解空间和时间维度上的数据。点云视频由一系列包含空间位置信息的点云帧组成,这些帧不仅记录了场景的空间结构,还记录了随时间变化的动态信息。这种数据形式在自动驾驶、机器人交互、虚拟现实等多个领域都有重要应用。然而,如何有效地从这些复杂的数据中提取有用的时空特征,对于提高动作识别、语义分割等任务的性能至关重要。传统的处理方法,如基于网格或体素的方法,虽然在某些情况下有效,但这些方法在处理大规模点云数据时通常效率低下,并且难以捕捉长距离的时空关系。近年来,深度学习的方法,尤其是基于自注意力机制的变换器 (Transformer) 架构,因其在处理序列数据中的长距离依赖方面的优势,适用于时空点云数据处理。
本次导读介绍Point 4D Transformer (P4Transformer),P4Transformer通过自注意力机制有效地捕捉点云数据中的时空依赖。具体来说,P4Transformer包括一个4维点卷积层,用于嵌入点云视频中呈现的时空局部结构,以及一个Transformer层,通过对嵌入的局部特征执行自注意力来捕获整个视频的外观和运动信息。以注意力权重的方式,将相关或相似的局部区域融合合并,而不是通过显式跟踪合并。
Point 4D Transformer网络由4维点卷积和Transformer两个主要结构组成,4维点卷积对点云视频中的局部时空结构进行编码,而Transformer用于捕获整个点云视频的整体运动信息。
4维点卷积层旨在处理点云序列中的不规则和无序的3维坐标集,并将点云序列转换为更紧凑的表示形式。传统基于网格的卷积[1-5]方法关键在于,学习从中心网格到相邻网格的所有位移的卷积核。不同于传统的卷积层,点云视频的点坐标是无组织且不规则的,并且潜在位移的数量是无限的,因此4维点卷积层通过函数间接生成卷积核。
具体来说,首先以特定步长选取特定帧上的最远点采样点,并将采样点转换到相邻帧上。之后,以转换点为圆心,特定长度为半径,选取一个局部区域,依据以下公式就可以计算出4维卷积核。以上操作,可以认为是由相对位置坐标生成卷积核,因此将其称为4维卷积:
这一部分基本使用了传统的Transformer层(
如图1所示)。
类似于Transformer中的位置编码,由于相似的局部区域具有相似的表示,点的位置也反映了局部区域之间的关系,因此在Transformer层中,锚点坐标和局部特征将作为自注意力输入。
与传统Transformer层相同,通过自注意力[6]输入I得到queries
keys
和
V: