专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
云南省商务厅  ·  外贸促进信息 | 第二十期《重点贸易促进活动》 ·  4 小时前  
云南省商务厅  ·  外贸促进信息 | 第二十期《重点贸易促进活动》 ·  4 小时前  
内江市市场监督管理局  ·  注意了!企业用工有风险,快来上经营主体入市第一课! ·  昨天  
二少爷小地盘  ·  房子正在假装涨价,真实情况是….. ·  昨天  
二少爷小地盘  ·  房子正在假装涨价,真实情况是….. ·  昨天  
光华CDC  ·  招聘及宣讲 | ... ·  2 天前  
绝对现场  ·  名医到院区 | ... ·  2 天前  
51好读  ›  专栏  ›  3DCV

CVPR'24 | KTPFormer: 3D人体姿态估计SOTA! 在Transformer下即插即用涨点!

3DCV  · 公众号  ·  · 2024-05-26 22:54

正文

本次分享我们邀请到了香港理工大学AiDLab在读博士彭季华,为大家详细介绍他们的工作:

KTPFormer: Kinematics and Trajectory Prior Knowledge-Enhanced Transformer for 3D Human Pose Estimation

直播信息

时间

2024年5月27日(周一)晚上20:00

主题

CVPR'24 | KTPFormer: 3D人体姿态估计SOTA!  在Transformer下即插即用涨点!

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播,或前往B站搜索3D视觉工坊观看直播

嘉宾介绍

彭季华

香港理工大学AiDLab在读博士。研究方向为3D视觉与人体姿态估计。

直播大纲

  1. 3D人体姿态估计现有方法简介
  2. CVPR2024论文KTPFormer详解

参与方式

摘要

我们提出了一种运动学和轨迹先验知识强化后的Transformer (KTPFormer)。它克服了现有基于Transformer的3D人体姿态估计方法的一个弱点,即它们的自注意力机制中的Q、K、V向量都是基于简单的线性映射得到的。我们提出了两个先验注意力机制,即运动学先验注意力(KPA)和轨迹先验注意力(TPA)。KPA和TPA利用了人体解剖结构和运动轨迹信息,来促进多头自注意力机制有效地学习关节之间和帧与帧之间的全局依赖关系和特征。KPA通过构建运动学拓扑来建模人体关节之间的运动学关系,而TPA则构建了轨迹拓扑来学习关节在帧与帧之间的运动轨迹信息。通过生成带有先验知识的Q、K、V向量,这两种先验机制使KTPFormer能够同时建模人体关节在空间和时间上的运动关系。在三个基准数据集(Human3.6M、MPI-INF-3DHP和HumanEva)上的实验表明,KTPFormer达到了目前SOTA的结果。更重要的是,我们的KPA和TPA机制具有轻量级的即插即用设计,可以应用到各种基于Transformer的模型(比如diffusion)中,在有效提高模型性能的同时只需要很小的计算开销(大约0.02M)。

方法

现有基于Transformer的3D人体姿态估计方法主要利用Transformer中的self-attention建模每一帧内关节间的空间相关性以及帧与帧之间的姿态或关节的时间相关性。然而,无论是空间还是时间自注意力的计算,现有的方法都使用线性映射将2D姿态序列转化为高维的tokens,并在空间和时间自注意力机制中统一地处理它们。这会导致在self-attention中出现“ attention collapse ”的问题,即自注意力过于集中在输入tokens的有限子集上,而忽视了对该token序列其他部分的建模,因为它不知道哪些token之间需要重点关注。

为了解决以上的问题,我们在Transformer中引入了两个先验注意力机制,即运动学先验注意力(KPA)和轨迹先验注意力(TPA),如下图1所示。KPA首先基于人体解剖结构构建了一个空间局部拓扑。这些关节之间的物理连接关系是固定的,用实线表示。为了引入不相邻关节之间的运动学关系,我们使用全连接的空间拓扑来计算每个关节之间的注意力权重,称为模拟的空间全局拓扑。在这个拓扑中,每对关节之间的连接关系是可学习的,因此我们用虚线表示。我们将空间局部拓扑和模拟的空间全局拓扑相结合,就得到了一个运动学拓扑,每个关节都与其他关节有可学习的运动学关系。这个运动学拓扑信息旨在为空间多头自注意力提供先验知识,使其能够根据不同动作中的运动学关系来为空间注意力图分配权重。

类似地,如图1下方所示,TPA连接了同一个关节在时序上的连续帧,建立时间局部拓扑。接下来,我们利用可学习的向量(虚线)连接所有相邻和非相邻帧中的关节,构建时间全局拓扑,这等同于自注意力机制中所有帧之间注意力权重的计算,我们称为模拟的时间全局拓扑。然后,我们将这两个拓扑结合,得到一个新的关节运动轨迹拓扑。这让网络能同时学习关节运动的时序性和周期性(非相邻帧中的关节在高帧率的视频中具有相似的运动)。嵌入了轨迹信息的时序tokens将在时序自注意力机制中有效地被激活,这增强了自注意力机制的时序建模能力。如图2所示,我们将KPA和TPA这两个先验机制与普通的多头自注意力(MHSA)和MLP相结合,得了一个用运动学和轨迹先验知识增强的Transformer (KTPFormer)。

实验

KTPFormer在 Human3.6M MPI-INF-3DHP HumanEva 这三个公开数据集上进行了实验。评估准则主要是计算关节之间的平均预测误差 MPJPE ,以及预测姿态和ground-truth姿态对齐后的 P-MPJPE 。如下面表格1和2所示,我们与最近几年的SOTA方法在 Human3.6M 上进行了比较。我们的KTPFormer以CPN检测的2D poses作为输入,在使用了D3DP[1]提出的diffusion过程后,在 MPJPE P-MPJPE 指标上分别达到了33.0mm和26.2mm的SOTA结果。另外,在表格2中,我们以ground-truth 2D poses作为输入,也在 MPJPE 上达到了SOTA的结果18.1mm。

如下面表格3和表格4所示,KTPFormer在 MPI-INF-3DHP (带有更复杂的室外场景)和 HumanEva (更小的数据集)上也分别取得了目前SOTA的结果。







请到「今天看啥」查看全文