0. 这篇文章干了啥?
在众多领域的应用中,人类都扮演着核心角色,包括机器人技术、数字化(如虚拟化身)和娱乐等。在这些场景中,人体姿态是一个决定性的特征。虽然大量工作旨在估计或预测人体姿态,例如为了进一步促进人机交互,但另一类工作则致力于生成人体姿态,以增强视频游戏或虚拟世界中的体验。这些任务凸显了理解人类的重要性。
早期工作主要集中在检测和视觉上理解人类。尽管通过视觉数据已经可以对人体进行相当深入的研究,但真正的人类理解超越了单纯的感知,还依赖于意义,即语义。我们人类倾向于偏好那些与我们的语义相匹配的世界。这正是自然语言发挥作用的地方。语言能够传达复杂和抽象的概念,使得相似的元素可以在同一个词汇下聚集在一起。例如,一个人可能将手举到肩部水平,而另一个人可能将手举过头顶;然而,这两个人都可以被描述为“挥手”。
最终,视觉和文本数据对于实现人类理解都是至关重要的:它们是同一棱镜的两个方面。然而,两者都不完美:视觉数据可能存在遮挡或深度不确定性,而文本则相对模糊。尽管存在这些缺陷,但它们提供了仅通过3D姿态无法传达的关键信息,如世界可负担性、现实锚定和语义。最终,这三种模态(视觉数据、文本和3D姿态)都可以被视为对同一抽象“人体姿态”概念的互补——部分但有价值——的观察。
更具体地说,最近的研究进展已经证明了将图像和文本配对以推导出强大的语义图像嵌入的实用性。在这项工作中,我们将这一原则扩展到人体姿态的概念上。我们的目标是推导出一种丰富的人体姿态嵌入,该嵌入同时具有语义性、视觉性和3D感知性,通过将图像、文本和3D姿态融合在一起。事实上,目前的工作仅产生人体姿态的粗略表示,无法区分两个相似的复杂姿态。
以前的工作主要集中在将图像中描绘的个体与其2D或3D姿态联系起来,或将3D姿态与细粒度的文本描述联系起来,从而产生强大的视觉姿态嵌入或语义姿态嵌入。最近的研究重新利用了一个大型视觉和语言转换器模型,根据图像、文本或两者的组合输入来输出人体姿态。然而,就像其他利用大型语言模型(LLM)的多模态工作一样,它需要将新的模态转换为等效的文本表示,以便在LLM空间中进行处理。这个过程可能会导致部分模态特定信息的丢失,特别是那些无法通过文本转录的信息。
另一类工作提出在单一多模态模型下统一以人为中心的感知任务。然而,这些模型通常是根据特定任务的目标进行训练的。总体而言,最近的多模态方法倾向于对齐模态以实现任意到任意的转换,但并不一定结合多模态信息来构建单一的通用表示。
在本文中,我们设计了一个多模态框架,将不同的模态融合在一起,以构建更丰富的语义性、视觉性和3D感知性的人体姿态嵌入空间。我们使用转换器来聚合来自可用模态的信息,并将其整合到一个全局标记中。该模型通过将该全局表示重新投影到每个模态空间上的单模态对比目标进行训练。因此,我们可以利用多模态感知来增强输入到我们模型中的任何单一模态嵌入。我们通过解决任意到任意的多模态检索、姿态估计以及姿态指令生成等任务来展示我们提出的姿态表示的优势,后者在自动健身教练中具有直接应用。该任务包括生成一个文本,说明如何将一个姿态修改为另一个姿态。与最初提出的基线PoseFix不同,利用我们的多模态表示可以直接处理相机输入,而无需额外的再训练。
下面一起来阅读一下这项工作~
1. 论文信息
标题:PoseEmbroider: Towards a 3D, Visual, Semantic-aware Human Pose Representation
作者:Ginger Delmas, Philippe Weinzaepfel, Francesc Moreno-Noguer, Grégory Rogez
机构:CSIC-UPC、NAVER LABS Europe
原文链接:https://arxiv.org/abs/2409.06535
官方主页:https://europe.naverlabs.com/research/PoseEmbroider/
2. 摘要
在潜在空间中排列多种形式,如图像和文本,已显示出产生强大的语义视觉表示,为图像字幕、文本到图像生成或图像基础等任务提供动力。在以人为中心的视觉环境中,尽管类似剪辑的表示相对较好地编码了大多数标准的人类姿势(如站立或坐着),但它们缺乏足够的敏锐度来辨别详细或不常见的姿势。实际上,虽然3D人体姿态经常与图像相关联(例如,执行姿态估计或姿态条件图像生成),或者最近与文本相关联(例如,用于文本到姿态生成),但是它们很少与两者配对。在这项工作中,我们结合三维姿态,人的照片和文本姿态描述,以产生一个增强的三维,视觉和语义感知的人类姿态表示。我们引入了一个新的基于transformer的模型,以一种检索的方式进行训练,它可以将上述模态的任意组合作为输入。在合成模态时,它优于标准的多模态对齐检索模型,使其有可能整理出部分信息(例如下体被遮挡的图像)。我们展示了这种刺绣姿态表示的潜力,用于(1)从具有可选文本提示的图像进行SMPL回归;以及(2)细粒度指令生成的任务,包括生成描述如何从一个3D姿势移动到另一个3D姿势的文本(作为健身教练)。与以前的作品不同,我们的模型可以接受任何类型的输入(图像和/或姿态),而无需重新训练。
3. 效果展示
4. 主要贡献
我们的贡献如下:
✽ 我们引入了一个新的框架,将多个与人体姿态相关的模态融合在一起,并推导出丰富的语义性、视觉性和3D感知性的人体姿态嵌入空间。我们在改编后的BEDLAM-Script数据集(BEDLAM的描述增强版本)上对其进行训练。作为直接的副产品,我们展示了任意到任意的多模态检索结果。
推荐课程:
单目深度估计方法:算法梳理与代码实现
✽ 我们展示了所提出的增强姿态表示在姿态指令生成任务中的应用。尽管我们的方法几乎完全在合成数据(提出的BEDLAM-Fix数据集)上进行训练,但我们在真实世界图像上获得了有前景的结果。
✽ 我们将SMPL回归作为另一个应用进行了说明。
5. 基本原理是啥?
我们现在描述我们提出的多模态增强姿态表示学习框架,如图2所示。请注意,整体设计不依赖于特定的模态类型或数量,因此可以扩展到其他领域和模态集合。在本文中,我们重点关注三种模态:人物图像、3D人体姿态(由主要SMPL身体关节的旋转参数化)和文本,以自然语言形式的细粒度姿态描述。它们各自提供了不同种类的信息,无论是视觉、空间运动学还是语义信息。我们的目标是利用它们对人类姿态这一抽象概念的部分表示,来构建更丰富的姿态嵌入。为了简化说明,我们假设接下来我们有一个三模态数据集,即每个示例都有来自所有模态的样本。
6. 实验结果
7. 总结 & 未来工作
结论。我们介绍了PoseEmbroider框架,该框架推导出了视觉、3D和语义感知的姿态表示。它不是通过对齐来匹配跨模态的共享信息,而是被训练来组合并从而丰富单模态姿态表示。除了在任何到任何多模态检索中的直接应用外,所提出的通用表示还可以用于需要细粒度人体姿态理解的复杂下游任务,如姿态指令生成或SMPL回归。
局限性和未来工作。未来的改进可能来自采用更具攻击性的损失函数(例如,尝试预测目标特征而不仅仅是学习匹配它们)、在更多数据上进行训练(5万个训练样本与CLIP训练的4亿对样本相比微不足道),或者纳入更广泛的模态集合(深度图、2D关键点等)。所描述的训练过程依赖于单个三模态数据集。然而,我们可以设想从一组单模态和双模态数据集中学习,每个数据集都带有不同的模态组合。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
3D视觉知识星球
「
3D视觉从入门到精通