专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

ECCV 2024｜一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

极市平台 · 公众号 · · 2024-08-09 22:00

正文

↑ 点击蓝字关注极市平台

作者丨金晟、李树槐

来源丨商汤学术

编辑丨极市平台

极市导读

以人为中心的感知（Human-Centric Perception, HCP），例如检测、分割、2D/3D姿态估计和属性分类是计算机视觉领域的一个长期存在的问题。本文提出了一种单阶段、多人、多任务的HCP统一框架HQNet，该方法以学习统一的人体查询表示（称为 Human Query）为中心，可抽取单人的实例特征并应用到复杂的多人场景，在多任务HCP模型中具有最佳性能，并且与特定的单任务HCP模型相比也具有竞争力。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

论文链接：

https://arxiv.org/abs/2312.05525

数据&代码地址：

https://github.com/lishuhuai527/COCO-UniHuman

动机

HCP包括以人为目标的检测、分割、姿态估计、属性分类、3D网格估计等多种任务（图1），对于体育分析、虚拟现实、增强现实等多种工业应用至关重要。

此前的大多数方法采用了多阶段的范式——使用人体检测器来获得每个人的框，然后将框内区域裁剪出来，再使用特定的模型来完成每个单独的感知任务（如姿态估计、实例分割）。

这些方法存在三个显著缺点：

1，流程的总体表现高度依赖于检测，若检测结果不佳则下游任务将受到严重影响。

2，流程耗时与图像中人的数量正相关，在实时应用中计算昂贵。

3，任务间相互独立，忽视了潜在的任务协同作用。

与之相比，单阶段方法在一次推理中估计所有人的所有属性，效率远高于多阶段；单阶段方法可以让多任务共享对人体结构的共同理解，利用任务间的相关性来提升表现。因此，单阶段多任务的HCP框架有很高的研究价值和应用价值。

然而，现有数据集之间的各种问题阻碍了将所有HCP任务统一到一个通用的框架的研究进展。例如，检测数据集通常是多人场景，而属性数据集通常是裁剪后的单人，二者很难结合使用；再例如，一些单任务数据集是在特定环境下收集的，例如实验室环境、监控视角获取，这与通用场景存在偏差。

为了解决这个问题，我们为MSCOCO数据集增加了丰富的HCP标注，包括人的检测框、分割图、2D肢体关键点、年龄属性、性别属性、3D Mesh等标注，覆盖了大部分HCP任务，拥有丰富的场景多样性，可用来训练单阶段多任务感知模型，也适合对多任务模型进行全面评估。进一步地，我们提出了一个统一、高效、可拓展、效果好的单阶段多任务HCP模型HQNet（Human Query Net）。

方法

本文旨在开发一个单阶段框架来支持各种HCP任务，关键是学习一个可以在各种HCP任务中普遍应用的人体表示。为实现这一目标，我们以query based检测为基础，设计了HQNet的架构（如图2所示），研究将每个人的实例表示为单个HumanQuery的可行性。

我们希望最大限度地共享各种HCP任务之间的知识，所以多任务共享了大部分的网络结构，仅各自的任务头（task-specific heads）是非共享的，经HumanQuery抽取后的共享特征送往不同的任务头来实现各任务的预测。

Task-specific heads的具体设计如下：用一个二分类头来预测人体分类的置信度；对检测任务，使用Deformable DETR[3]的bbox回归头，同为坐标预测任务的2D关键点与检测共享坐标参考点，并对每个关键点额外预测一组偏移量。对于像素级的分割任务，参考MaskDINO[4]，引入backbone的浅层特征来恢复特征的空间尺寸并生成降采样segmentation mask；对属性分类任务，使用对应类别数量的分类器来实现不同数量的多分类任务；对于3D Mesh估计，使用pose head和shape head分别回归10-d的shape和72-d的pose参数，再经过SMPL模型获得3D Mesh。

在训练阶段，为了将GT和Query进行匹配以计算loss，我们设计了HumanQuery-Instance Matching机制，让一个HumanQuery表示一个人的实例，用每个HumanQuery的多任务输出和每个GT实例的多任务标签计算代价矩阵，为每个GT人实例匹配到其对应的Query。最终在推理阶段可以实现一次推理获得所有人的所有HCP任务结果。

实验结果

我们在COCO-UniHuman上训练和测试了模型。与其他多任务或单任务模型进行指标对比，如图3所示，HQNet在多任务模型中支持的任务种类最多且指标最好！并且和单任务模型相比也具有竞争力：请勿忽视单阶段模型在推理阶段的巨大经济性优势。

我们用预训练的HQNet在人脸检测任务上进行finetune，结果见图4，我们取得了巨大的优势！这表明HumanQuery学习到了丰富的人体结构特征，具备迁移到其他HCP任务的能力。

此外，我们还验证了HQNet在OCHuman、PoseTrack、HumanART等不同数据集、不同任务上的表现，更多实验可以阅读论文，下面展示一些COCO-UniHuman上的结果可视化：

总结

本篇论文提出了首个大规模HCP数据集COCO-UniHuman和单阶段多任务HCP模型HQNet，以较少的参数量增加支持了当前主流的各种HCP任务，探索了用一个Query表示人体实例的可行性，通过HumanQuery来抽取所有感知任务的通用特征，在各项任务上均取得较好效果，超越现有的单阶段多任务算法。

相关工作：

[1]. Lin, T.Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollár, P., Zitnick, C.L.: Microsoft coco: Common objects in context. In: Eur. Conf. Comput. Vis. (2014)

[2]. Joo, H., Neverova, N., Vedaldi, A.: Exemplar fine-tuning for 3d human model fitting towards in-the-wild 3d human pose estimation. In: Int. Conf. 3D Vis. pp. 42–52. IEEE (2021)

[3].Zhu, X., Su, W., Lu, L., Li, B., Wang, X., Dai, J.: Deformable detr: Deformable transformers for end-to-end object detection. Int. Conf. Learn. Represent. (2021)

[4]. Li, F., Zhang, H., Xu, H., Liu, S., Zhang, L., Ni, L.M., Shum, H.Y.: Mask dino: Towards a unified transformer-based framework for object detection and segmentation. In: IEEE Conf. Comput. Vis. Pattern Recog. pp. 3041–3050 (2023)

公众号后台回复“ 数据集

ECCV 2024｜一个Query解决所有感知任务! 单阶段多任务感知模型HQNet

正文

动机

方法

实验结果

总结

请到「今天看啥」查看全文