专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

CVPR 2024 中科院自动化所36篇入选！新主干/多模态/3D视觉/自动驾驶等全都有！

极市平台 · 公众号 · · 2024-04-22 22:00

正文

↑ 点击蓝字关注极市平台

作者丨 CV er

来源丨CVer

编辑丨极市平台

极市导读

这里整理分享了 36 篇中科院自动化所的CVPR 2024工作。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

1. 驶向未来：面向自动驾驶的多视图预测与规划的世界模型

Driving into the Future: Multiview Visual Forecasting and Planning with World Model for Autonomous Driving

论文作者：王宇琪，何嘉伟，范略，李鸿鑫，陈韫韬，张兆翔

最近，世界模型的概念引发了广泛关注。我们首次提出了一种名为Drive-WM的全新多视图世界模型，旨在增强端到端自动驾驶规划的安全性。Drive-WM模型通过多视图世界模型，能够想象不同规划路线的未来情景，并根据视觉预测获取相应的奖惩反馈，从而优化当前的路线选择，为自动驾驶系统的安全提供了保障。Drive-WM是与现有端到端规划模型兼容的第一个驾驶世界模型。通过视图因子分解促进的联合时空建模，我们的模型在驾驶场景中生成了高保真度的多视角视频。在其强大的生成能力基础上，我们首次展示了将世界模型应用于安全驾驶规划的潜力。对真实世界驾驶数据集的评估验证了我们的方法可以生成高质量、一致性和可控性的多视角视频，为真实世界的模拟和安全规划开辟了新的可能性。

论文链接： https://arxiv.org/abs/2311.17918

代码链接： https://github.com/BraveGroup/Drive-WM

Project Page: https://drive-wm.github.io

2. PanoOcc:面向视觉三维全景分割任务的统一栅格占用表示

PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic Segmentation

作者：王宇琪，陈韫韬，廖星宇，范略，张兆翔

全面的三维场景感知对于自动驾驶和机器人领域至关重要。基于相机的三维感知取得了迅速发展，但过去的任务如三维目标检测、地图语义分割等，各自关注场景表示的某一方面，且表示方式不统一。我们希望能够探索一种统一的场景表示，使其能统一表达这些任务，并将背景和前景物体统一建模。目前基于鸟瞰图特征的方法在三维目标检测上表现出色，但由于缺失了高度和形状信息，直接应用于三维场景感知任务时性能较差。这启示需要探索适合三维场景的特征表示，这也使得三维的栅格占用表示重新受到关注。然而，与二维空间相比，三维空间更加稀疏，直接将二维鸟瞰图特征扩展到三维体素表示将带来巨大的显存和计算开销。本研究提出PanoOcc模型，将检测和分割任务联合学习，统一了检测和分割任务的输出表示。为实现高效的特征学习，我们设计了从粗到细的解码层结构，并探索了稀疏表示的应用。本研究进行了大量消融研究以验证有效性和效率，在基于相机的机的三维语义分割、全景分割和密集占用栅格预测等任务中都取得了最先进性能。

论文链接： https://arxiv.org/abs/2306.10013

代码链接： https://github.com/Robertwyq/PanoOcc

3. 基于可靠持续学习的失败检测

RCL: Reliable Continual Learning for Unified Failure Detection

作者：朱飞，程真，张煦尧，刘成林，张兆翔

深度神经网络往往对未知输入过于自信，给实际应用带来了较大风险。已有研究主要关注检测来自未知类别的分布外样本，而忽略了来自已知类别的错分样本。最近的研究发现，分布外检测方法往往对错分检测有害，表明这两项任务之间似乎存在折中。本文研究了统一失败检测问题，即同时检测错分样本和分布外样本。我们发现对二者的学习目标进行联合训练不足以获得统一检测的能力，而序列学习的模式有较大潜力。受此启发，本文提出了一种可靠的持续学习范式，使模型先具备错分检测的能力，然后在不降低已有可靠性的前提下通过持续学习提升模型的分布外检测能力。实验表明，该方法具有优异的失败检测性能。

4. 基于偏振光融合优化的深度测量增强方法

Robust Depth Enhancement via Polarization Prompt Fusion Tuning

作者：池村敬，黄一鸣，菲利克斯·海德，张兆翔，陈启峰，雷晨阳

本文提出了一个利用偏振成像改进各种深度传感器不准确深度测量的通用框架。现有的深度传感器在存在透明或反射物体的复杂场景中会提供不准确的深度值，而此前基于偏振的深度增强方法主要利用纯物理公式来处理单一传感器的数据。相比之下，本文所提出的方法采用深度学习，通过训练神经网络从偏振数据和来自不同传感器的传感器深度图来获得更稠密准确的深度图。本文提出了一种称为Polarization Prompt Fusion Tuning (PPFT)的策略，其利用在大规模RGB数据集上预训练的模型，在规模有限的偏振数据集上进行融合增强，从而有效地训练出更强大的深度增强模型。本文在一个公共数据集上进行了大量实验证明，与现有的深度增强基准方法相比，所提出的方法表现最佳。

图1. 图中数据来自偏振相机以及d-ToF深度传感器，本方法在具有挑战性的深度增强问题上产生准确的结果，包括深度补全、透明表面的深度修复、形状校正等。如图所示，透明水瓶处的深度被有效修复。

图2. 本文所提出的偏振提示融合块（PPFB）将偏振光信息作为额外视觉提示输入，采用递进的方法依次融合到从预训练层提取的特征中。

相关链接： https://lastbasket.github.io/PPFT/

5. MemoNav: 基于类人工作记忆的视觉导航智能体

MemoNav: Working Memory Model for Visual Navigation

论文作者：李鸿鑫，王泽禹，杨旭，杨雨然，梅树起，张兆翔

人类导航至多目标时，会回忆起与目标相关的地点特征，忽视其他无关区域的记忆，并利用激活的这部分局部信息来快速规划路线，无需重复探索。MemoNav借鉴人类这种工作记忆机制，结合短期记忆和长期记忆一起提升导航决策性能（图1）。其引入了遗忘机制、长期记忆、和工作记忆三个协同组件：

选择性遗忘机制 由于并非所有地图结点都和导航目标有关，MemoNav提出利用目标注意力机制，计算地图结点和当前目标的注意力分数，然后暂时“遗忘”分数较低即对导航帮助不大的偏远结点，被保留的则用于下游决策。

长期记忆 为了习得场景的全局表征，智能体维护一个和所有短期记忆结点相连的全局结点作为长期记忆，不断地通过图注意力机制聚合短期记忆特征。

工作记忆 利用一个图注意力机制编码保留的短期记忆和长期记忆，得到和当前导航任务最相关的工作记忆，输入给下游策略模块以得到最终导航行为。在Gibson和Matterport3D场景中，该方法的多目标导航性能大幅超越SoTA模型。定性实验显示其可以规划更快捷的路径，且死锁概率更小（图2）。

图1. MemoNav借鉴人脑工作记忆的导航模型。MemoNav通过注意力机制选择与当前导航目标相关的短期记忆（即地图结点）和长期记忆（即全局结点）一起生成工作记忆，用于下游决策。

代码链接： https://github.com/ZJULiHongxin/MemoNav

论文链接： https://arxiv.org/abs/2402.19161

6. 预训练视觉模型的连续遗忘

Continual Forgetting for Pre-trained Vision Models

论文作者：赵宏博、尼博琳、樊峻菘、王玉玺、陈韫韬、孟高峰、张兆翔

出于隐私和安全考虑，如今变得越来越明显的是，需要从预训练的视觉模型中擦除不需要的信息。在现实世界场景中，用户和模型拥有者可以随时提出擦除请求。这些请求通常形成一个序列。因此，在这样的设置下，期望从预训练模型中连续移除选定信息，同时保留其余信息。我们将这个问题定义为持续遗忘，并确定了两个关键挑战。(i) 对于不需要的知识，有效且高效的删除至关重要。(ii) 对于剩余的知识，遗忘过程带来的影响应尽可能小。为了解决这些问题，我们提出了群稀疏LoRA（GS-LoRA）。具体来说，针对(i)，我们使用LoRA模块独立地对Transformer块中的FFN层进行微调，以应对每个遗忘任务，并针对(ii)，采用了简单的组稀疏正则化，实现了特定LoRA群组的自动选择并将其他群归零。GS-LoRA有效、参数高效、数据高效且易于实现。我们在人脸识别、目标检测和图像分类上进行了广泛实验，并展示了GS-LoRA能够在对其他类别影响最小的情况下忘记特定类别。

论文链接： arxiv.org/pdf/2403.11530.pdf

代码链接： https://github.com/bjzhb666/GS-LoRA

7. 通过语言引导监督加强视觉连续学习

Enhancing Visual Continual Learning with Language-Guided Supervision

论文作者：尼博琳、赵宏博、张承灏、胡珂、孟高峰、张兆翔、向世明

连续学习旨在使模型能够在不忘记先前获得的知识的情况下学习新的任务。当前的工作往往集中在网络结构、回放数据和正则化等技术。然而，数据类别标签中的语义信息在很大程度上被忽略了。当前的方法往往使用独热标签，每个任务独立学习分类头。我们认为，独热标签无法捕捉连续学习场景下不同类别跨任务的语义关系，阻碍了知识在任务间的有效转移。在本工作中，我们重新审视了分类头在连续学习场景中的作用，并用来自预训练语言模型的语义知识取代了随机初始化的分类头。具体来说，我们使用预训练语言模型为每个类别生成语义目标，这些目标在训练期间被冻结作为监督信号。这些目标充分考虑了跨任务的所有类之间的语义相关性。实证研究表明，我们的方法通过减轻表征漂移和促进跨任务的知识转移来减轻遗忘。所提出的方法易于实现，并且可以无缝地插入到现有方法中。

8. HardMo：一个大规模难例动作捕捉数据集

HardMo: A Large-Scale Hardcase Dataset for Motion Capture

论文作者：廖佳琪，罗传琛，杜伊诺，王玉玺，殷绪成，张曼，张兆翔，彭君然

本文介绍了一个大规模的难例动作捕捉数据集——HardMo，旨在弥补现有人体mesh恢复方法（HMR）在处理舞蹈和武术等场景中不常见姿势的不足。由于这些领域的动作具有高速度和高张力特征，而现有数据集大多聚焦于日常动作，缺乏这类复杂动作的样本，导致模型难以有效处理舞蹈和武术场景。为此，我们提出了一套数据收集流程，包括自动爬取、精确标注和难例挖掘，基于此流程快速建立了包含700万张图片的大型数据集HardMo。这些图片覆盖了15类舞蹈和14类武术，每张图片都配有精确的标注。实验发现，舞蹈和武术中的预测失败主要表现在手腕和脚踝的不对齐上。此外针对这两个难点，我们利用提出的自动化流程筛选出相关数据，构建了名为HardMo-Hand和HardMo-Foot的子集。广泛的实验表明，我们的标注流程和数据驱动解决方案的有效性。特别是，经HardMo训练后的HMR方法甚至在我们的基准测试上超过了当前的最先进技术4DHumans。

9. 属性引导的行人检索：跨越行人重识别中的内在属性变化

Attribute-Guided Pedestrian Retrieval: Bridging Person Re-ID with Internal Attribute Variability

论文作者：黄延、张彰、吴强、钟怡、王亮

在智能监控领域中，行人检索（重识别）技术，扮演着至关重要的角色。目前的Re-ID方法常常忽略对行人细微属性变化所导致的外观变化显式建模。针对这一问题，我们的研究提出了视觉属性引导的行人检索（AGPR）任务，旨在通过对特定人体属性查询条件与查询图像的整合来提高行人检索准确性。我们提出的基于ViT属性引导的行人检索（ATPR）框架通过对行人属性组间相关性和属性组内去相关性建立正则化项，有效地融合了全局行人ID识别与局部属性学习。我们基于RAP行人属性数据集构建了新的AGPR任务基准，并进行了广泛实验，结果验证了我们提出的ATPR方法在AGPR任务中的有效性。

10. 调查视觉-语言模型在视觉定位任务上的组合关系挑战

Investigating Compositional Challenges in Vision-Language Models for Visual Grounding

论文作者：曾宇楠，黄岩，张津津，揭泽群，柴振华，王亮

预训练的视觉-语言模型（VLMs）在各种下游任务中取得了高性能，这些模型已被广泛应用于视觉定位任务。然而，尽管大规模的视觉和语言预训练贡献了性能提升，我们发现最先进的VLMs在定位任务的组合推理上存在困难。为了证明这一点，我们提出了属性、关系和主次定位（ARPGrounding）基准测试，以测试VLMs在视觉定位任务中的组合推理能力。ARPGrounding包含11,425个样本，并从三个维度评估VLMs的组合理解能力：1）属性，测试对目标属性的理解；2）关系，测试对目标之间关系的理解；3）主次，反映了与名词相关的词性的意识。使用ARPGrounding基准测试，我们评估了几种主流的VLMs。实验结果表明，这些模型在传统的视觉定位数据集上表现相当好，达到或超过了最先进方法的性能，然而在组合推理上显示出明显的不足。更进一步，我们提出了组合关系感知的微调流程，展示了利用低成本的图像-文本标注来增强VLMs在定位任务中的组合理解能力的潜力。

图1. 在视觉定位任务中测试CLIP的组合关系理解的例子。CLIP在辨别真实目标和欺骗性目标时遇到挑战。（左）CLIP被一只不同颜色的狗误导。（右）CLIP被短语中的另一个目标误导。这两个例子都表明CLIP对组合结构的把握存在不足。

11. 多模态提示感知器：为多功能图像复原赋能自适应性、泛化性和保真度

Multimodal Prompt Perceiver: Empower Adaptiveness, Generalizability and Fidelity for All-in-One Image Restoration

论文作者：艾雨昂，黄怀波，周晓强，王杰翔，赫然

本文介绍了一种名为MPerceiver的多模态提示学习方法，旨在解决多功能图像复原中面临的复杂真实场景退化问题。MPerceiver通过利用Stable Diffusion中的先验知识来增强自适应性、泛化性和保真度。具体来说，本文提出了一个双分支模块提供多模态提示：文本提示用于整体表征，而视觉提示用于多尺度细节表征。这两种提示通过CLIP图像编码器的退化预测动态调整，能够适应各种未知的退化情况。此外，MPerceiver采用了一个插件式细节精炼模块，通过编码器到解码器的信息跳连，改善了图像复原的保真度。MPerceiver在9个图像复原任务中进行了训练，并且在许多任务中甚至超越了最先进的特定任务方法。在多任务预训练之后，MPerceiver学习到了底层视觉的通用表征，展现了强大的Zero-Shot和Few-Shot能力。在16个复原任务上的实验证明了MPerceiver在自适应性、泛化性和保真度方面的优越性。

论文链接： https://arxiv.org/abs/2312.02918

12. 基于小波增强Transformer和不确定性感知的无源自适应图像超分辨率

Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer

论文作者：艾雨昂，周晓强，黄怀波，张磊，赫然

无监督领域适应能够通过同时访问源数据和目标数据，有效地解决真实场景图像超分辨率中的域差异问题。考虑到实际场景中源数据的隐私政策或传输限制，本文提出了一种无源领域自适应框架SODA-SR用于图像超分辨率。SODA-SR利用源训练模型生成精细化的伪标签，用于师生学习。为了更好地利用伪标签，本文提出了一种新颖的基于小波的增强方法，名为小波增强Transformer，它可以灵活地结合现有网络，隐式地产生有用的增强数据。此外，本文提出了一种不确定性感知的自训练机制，以提高伪标签的准确性，不准确的预测将通过不确定性估计得到纠正。实验表明，即使不访问源数据，SODA-SR也在多种设置中超越最先进的UDA方法，并且不受特定网络架构的限制。

论文链接： https://arxiv.org/abs/2303.17783

13. RMT：Retentive Network遇上Vision Transformer

RMT: Retentive Networks Meet Vision Transformers

论文作者：樊齐航，黄怀波，陈铭锐，刘红敏，赫然

最近，Retentive Network（RetNet）作为一种有可能取代Transformer的架构出现，引起了自然语言处理社区的广泛关注。作者将RetNet的思想迁移到视觉领域并将RetNet和Transformer结合起来，提出了RMT。受RetNet启发，RMT在视觉Backbone中引入了显式衰减，将与空间距离相关的先验知识引入到视觉模型中。这种与距离相关的空间先验允许显式控制每个Token可以关注的Token范围。此外，为了降低全局建模的计算成本，作者沿图像的两个坐标轴分解了这个建模过程。大量的实验表明，RMT在各种计算机视觉任务如分类、目标检测、实例分割和语义分割等中表现出色。

论文链接： https://arxiv.org/abs/2309.11523

代码链接： https://github.com/qhfan/RMT

14. 面向测试过程检测及修复的神经后门防御

Backdoor Defense via Test-Time Detecting and Repairing

论文作者：关霁洋，梁坚，赫然

针对神经后门防御问题，之前的工作主要在模型部署之前使用干净样本来去除模型神经后门，而本文研究了利用部分污染的模型测试数据从模型中去除神经后门，并提出了一种两阶段的神经后门防御方法。在第一阶段，本文提出了一种后门样本检测方法DDP，它从一批混合的部分投毒数据中识别出后门样本，其后，本文使用夏普利值估计定位并去除模型中的神经后门。我们的的方法TTBD在多种网络结构下针对多种不同的神经后门攻击，均取得了良好的神经后门防御效果。

15. MoPE-CLIP：使用模块化剪枝误差度量的高效视觉-语言模型结构化剪枝方法

MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric

论文作者：林浩坤，柏昊立，刘智立，侯璐，孙沐毅，宋林琦，魏颖，孙哲南

本文探索了多种多模态视觉语言预训练模型（如CLIP）的小型化方案，研究发现直接使用较小的预训练模型或应用基于权重大小的剪枝，往往导致灵活性不足和性能不佳。针对上述挑战，我们提出了一种新颖的模块化剪枝误差（MoPE）度量方法，旨在精确评估CLIP模块在跨模态任务中的重要性。利用MoPE度量，我们进一步提出适用于预训练和特定任务微调两个压缩阶段的剪枝框架，同时设计了更高效的知识蒸馏损失函数。在预训练阶段，MoPE-CLIP利用教师模型的知识，显著减少了预训练成本，并保持CLIP模型强大的零样本能力。在微调阶段，通过先宽度剪枝再深度剪枝的方式，我们能够在特定任务上产生性能强大的专用模型。我们通过两个阶段的广泛实验验证了MoPE度量的有效性， MoPE-CLIP超越了之前最先进的多模型模型剪枝方案，与先前采用单一模态剪枝度量或涉及昂贵的可学习掩模搜索过程的方法相比，我们的方法不仅提高了性能，而且提供了一种更灵活、成本效益更高的解决方案。

论文链接： https://arxiv.org/abs/2403.07839

16. SfmCAD：基于“草图+特征”建模的无监督CAD重建

SfmCAD: Unsupervised CAD Reconstruction by Learning Sketch-based Feature Modeling Operations

论文作者：李朴，郭建伟，李慧斌，Bedrich Benes，严冬明

SfmCAD通过学习现代CAD工作流中基于草图的特征建模操作来重构三维形状。给定一个体素形式表示的三维形状，SfmCAD能够无监督地学习一种草图+路径参数化表示方法，包括形状部件的二维草图及其三维扫掠路径。SfmCAD利用二维草图来表达局部几何细节，并通过三维路径捕捉整体结构，实现了形状细节与结构之间的解耦。这种转化为参数化形式的方法不仅增强了模型的可解释性，还提高了输出结果的可编辑性，使用户能够方便地编辑形状的几何和结构特征。我们通过将SfmCAD应用于各种不同类型的对象，如CAD部件、ShapeNet形状和树干结构，展示了我们方法的有效性。

17. SVDTree：基于语义体素扩散模型的单张图像树木三维重建

SVDTree: Semantic Voxel Diffusion for Single Image Tree Reconstruction

论文作者：李源、刘志浩、Bedrich Benes、张晓鹏、郭建伟

高效地表示和重建树木的三维几何仍然是计算机视觉和图形领域中的一个极具挑战性的问题。本研究提出了一种新颖的方法，用于从单个视角的照片生成逼真的树木三维模型。本研究将三维信息推理问题转化为语义体素扩散过程，该过程将树木的输入图像转换为三维空间中的新颖语义体素结构（SVS）。SVS编码了几何外观和语义结构信息（例如树干、树枝和树叶），从而保留了复杂的树木内部特征。针对SVS，本研究提出了一种新的混合树木建模方法，SVDTree，包括面向结构的树干重建和基于自组织的树冠重建两部分。本研究使用合成和真实树木的图像对SVDTree进行了算法验证和对比，结果表明，本研究方法能够更好地保留树木细节，并实现了更为逼真和准确的重建结果。

图. SVDTree用于单张图像树木三维重建。给定一张带掩码的图像，SVDTree使用扩散模型自动推断出树木的语义体素结构，并通过一个混合几何重建算法，生成具有高视觉保真度的三维树木模型。

18. UnionFormer: 用于图像篡改检测和定位的多视角表征联合学习Transformer模型

UnionFormer: Unified-Learning Transformer with Multi-View Representation for Image Manipulation Detection and Localization

论文作者：李帅伯、马伟、郭建伟、徐世彪、李本冲、张晓鹏

本研究提出了UnionFormer，一种针对图像篡改检测与定位的新颖Transformer框架，它采用联合学习机制，整合了三个不同视角的篡改信息，以准确判别真伪图像。在该研究中，我们设计了能够从RGB视角和噪声视角交互提取篡改表征的BSFI-Net，其不仅对边界处的异常痕迹有着敏感的响应，而且能够建模多尺度的空间连续性。此外，本研究引入图像内不同目标间的不一致性作为全新的判别视角，并将其构建过程与检测、定位任务融合于一个统一的三任务联合学习架构中，从而实现不同任务间的相互促进。由此，本研究提出的模型在多重监督下，成功学习并整合三个视角的篡改判别特征，实现了高性能的同步检测与定位。实验结果表明，与先前的方法相比，本研究方法对多种类型的图像篡改具有更高的检测与定位准确率。

图. UnionFormer 整体框架。本方法通过BSFI-Net获取RGB视角和噪声视角下的篡改痕迹特征，并基于两者在联合学习中构建对象视角的表征。三个视角的信息被交互融合为统一的篡改判别表征 UMDR，用于同步检测与定位。每种视角由不同颜色表示。

19. 面向开放集测试阶段自适应的统一熵优化方法

Unified Entropy Optimization for Open-Set Test-Time Adaptation

论文作者：高正清、张煦尧、刘成林

测试阶段自适应（Test-time adaptation，TTA）旨在将一个在标记源域上预训练的模型适应到未标记的目标域。现有方法通常专注于在协变量偏移下改善TTA性能，而忽略了语义偏移。在这篇论文中，我们探索了一种更加符合实际的开放集TTA场景，其中目标域可能包含来自未知类别的样本。许多现有的封闭集TTA方法在应用于开放集场景时表现不佳，这可以归因于对数据分布和模型置信度的不准确估计。为了解决这些问题，我们提出了一个简单有效的框架，称为统一熵优化（Unified Entropy Optimization，UniEnt），它能够同时适应协变量偏移的分布内（csID）数据和检测协变量偏移的分布外（csOOD）数据。具体来说，UniEnt首先从测试数据中挖掘出伪csID和伪csOOD样本，随后对伪csID数据进行熵最小化处理，以及对伪csOOD数据进行熵最大化处理。此外，我们引入了UniEnt+以利用样本级置信度减轻硬数据划分造成的噪声。在CIFAR基准和Tiny-ImageNet-C上的广泛实验显示了我们框架的优越性。

20. 主动广义类别发现

Active Generalized Category Discovery

论文作者：马时杰、朱飞、钟准、张煦尧、刘成林

广义类别发现是一项现实且具有挑战性的开放环境任务，其目标是利用部分有标记的旧类别样本，对同时含有新类别和旧类别的无标签数据进行分类（聚类）。由于从旧类别中学到的知识不能完全迁移到新类中，并且新类完全未标记，这个任务存在固有的问题，包括：新旧类别之间分类性能不均衡、模型对新旧类别置信度分布不一致，特别是在标签很少的条件下。因此，对于新类的标注是很有必要的。然而，标记新类的成本极其高昂。为了解决这个问题，我们借鉴主动学习的思想，提出了一个新任务：主动广义类别发现。其目标是通过主动从无标注样本中选择有限数量的有价值样本进行标记，来提高新旧类的分类性能。为了解决这个问题，我们设计了一种自适应采样策略，考虑样本的新颖性、信息量和多样性，以自适应地选择具有适当不确定性的潜在新类样本。然而，由于新类发现本质是聚类问题，这会导致模型预测和ground truth标签索引的排序不同，查询的标签不能直接应用于后续训练。为了克服这个问题，我们进一步提出了一种稳定的标签映射算法，将真实标签转换到模型的标签空间，从而确保不同主动学习阶段的一致训练。我们的方法在通用和细粒度数据集上都实现了最先进的性能。

论文链接： https://arxiv.org/abs/2403.04272

代码链接： https://github.com/mashijie1028/ActiveGCD

21. 模态协同测试时自适应动作识别

Modality-Collaborative Test-Time Adaptation for Action Recognition

论文作者：熊宝琛、杨小汕、宋亚光、王耀威、徐常胜

基于视频的无监督域自适应方法提高了视频模型的泛化程度，使其能够应用于不同环境下的动作识别任务。然而，这些方法需要在适配过程中持续访问源数据，这在源视频不可用的真实场景中是不切实际的，因为存在传输效率或隐私问题的问题。为了解决这个问题，本文重点介绍了多模态视频测试时自适应（MVTTA）任务。现有的基于图像的TTA方法无法直接应用于这项任务，因为视频在多模态和时序上存在域偏移，这带来了新的困难。为了应对上述挑战，我们提出了一个模态协同测试时间适应（MC-TTA）网络。MC-TTA包含分别用于生成伪原型和目标原型的教师和学生记忆库。在教师模型中，我们提出了自组装源友好特征重建模块(SSFR)，以鼓励教师记忆库存储更有可能与源分布一致的特征。通过多模态原型对齐和跨模态相对一致性，我们的方法可以有效缓解视频中的域差异。

图1 仅有预训练后的源模型和未标记的目标视频才能用于目标模型学习。我们提出自组装源友好型特征重构 (SSFR) 模块，以构建来自目标域的伪源域特征。此外，通过模态协同可以保持易受域偏移影响模态的判别性。

22. 如何让交互编码器成为高效图文检索的良师？

How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?

论文作者：陈禹昕、马宗扬、张子琦、祁仲昂、原春锋、李兵、蒲俊福、单瀛、齐晓娟、胡卫明

针对双流预训练结构简单，难以建模丰富图文关联知识的问题，本文提出了一种基于对比式局部排序蒸馏的图像文本预训练方法。预训练蒸馏方法通常使用具有高匹配精度的单流模型作为教师模型，在预训练的过程中指导计算高效的双流模型对丰富图文知识的学习。现有方法通常采用基于相似度分布蒸馏的方式，然而由于单流模型与双流模型之间的相似度分布差异极大，这种方法难以有效实现知识传递。本文采用了一种排序蒸馏的方法，将单流模型对于不同图像文本对的相似度排序作为知识监督，要求双流模型对这些图文对的相似度排序与单流模型保持一致。同时，本文通过分析及实验发现，只有难负样本对之间的相对顺序包含有效的知识，并且蒸馏损失需要与图文对比学习损失保持协调以免产生干扰。因此，本文专注于蒸馏难负样本之间的相对顺序，忽略简单负样本的排序，并通过对比学习的方式实现知识蒸馏目标，实现了知识的有效传递。实验结果表明，本文方法在两个公开图像文本检索数据集MSCOCO和Flickr30K，以及图像文本匹配数据集CrissCrossed Captions数据集上有效提高了双流模型的图文检索和匹配精度，超越了同期的蒸馏方法。

图1.（a）双流编码器与交互编码器的相似度分数分布。（b）不同蒸馏方法的蒸馏目标及学生模型输出结果。对于局部排序蒸馏，简单样本之间的相对顺序被忽略。

图2. 对比式局部排序蒸馏方法示意图。左侧展示了整体训练流程。右侧展示了图文对齐和对比式局部排序蒸馏的详细计算流程。

23. 类别感知提示学习

TCP:Textual-based Class-aware Prompt tuning for Visual-Language Model

论文作者：姚涵涛、张蕊、徐常胜

为了有效的迁移视觉语言模型中包含的百科知识到下游任务，提示学习(Prompt Tuning)被广泛用于新知识的学习。在CLIP中，固定的模板(“a photo of {}”)被用来建模类别的文本空间描述并用于预测。不同于CLIP，基于提示学习的文本优化近来被用于建模新数据的有效类别特征空间。但是，目前的提示学习算法可以概括为域共享的提示学习和图像感知的提示学习，但是这些提示学习算法的文本优化器会过拟合于训练域而在未知测试域上具有较差的性能。为了进一步提升文本编码器生成的分类器的辨别能力和泛化能力，我们提出了类感知提示学习(图1)。由于预训练生成的类别特征具有一定的辨别能力，通过在预训练模型中显式的插入包含类别先验的基于类别特征生成的类别感知提示模板提升的提示学习的泛化性和辨别性。在一系列的数据集上验证了类别感知提示学习在零样本学习、域泛化学习和小样本学习等任务上都取得了很好的性能。另外我们提出的类别感知提示模块具有很好的即插即用性，可以简单高效地融合于提示学习算法。

论文链接： https://arxiv.org/abs/2311.18231

代码链接： https://github.com/htyao89/Textual-based_Class-aware_prompt_tuning

24. 用于 3D 半监督物体检测的非对称网络

A-Teacher: Asymmetric Network for 3D Semi-Supervised Object Detection

论文作者：王汉石、张志鹏、胡卫明、高晋

本文提出了首个基于LiDAR的3D对象检测的在线非对称半监督框架，即A-Teacher。本文的动机来源于观察到现有的对称教师-学生方法虽简单，但由于要求模型结构和输入数据格式相同，限制了教师与学生之间的知识传递效率。与之相反，复杂的离线非对称方法能生成更精确的伪标签，但共同优化教师和学生模型却具有挑战。因此，我们提出了一种不同的方法，可以利用离线教师的能力同时保留共同更新整个框架的优势，并设计了基于注意力机制的Refine模型，高效处理复杂情况。在Waymo数据集上的实验结果显示，我们的方法在减少训练资源的同时，性能超过了之前的最佳方法。

25. 人脸分割几何信息指导下的三维人脸重建

3D Face Reconstruction with the Geometric Guidance of Facial Part Segmentation

论文作者：王子都、朱翔昱、张田硕、王柏钦、雷震

本文面向单目三维人脸重建任务,实现了对人脸极端表情的精确三维重建。我们利用二维人脸分割的几何信息来引导人脸重建，设计了一个强大的几何约束函数。该约束函数首先将人脸部件的分割信息转化为点集，把三维部件形状的拟合问题转化为点集分布的匹配问题。该函数使用一组已知点作为锚点，分别计算锚点与预测点集以及目标点集之间的各种统计距离，并通过减少这些距离的差异来确保预测点集和目标点集具有相同的几何覆盖区域。大量的定量和定性实验证明了我们方法的有效性，它可以非常准确地捕捉不对称和奇怪的面部表情。此外，我们还合成了一个包含皱眉、歪嘴、闭眼等极端表情的人脸数据集，以促进相关研究。

论文链接： https://arxiv.org/abs/2312.00311

代码链接： https://github.com/wang-zidu/3DDFA_V3

26. 基于免类别提示学习的域泛化人脸活体检测

CFPL-FAS: Class Free Prompt Learning for Generalizable Face Anti-spoofing

论文作者：刘阿建、薛帅、甘剑文、万军、梁延研、邓健康、Sergio Escalera、雷震

在基于领域泛化（DG）的面部反欺诈（FAS）领域中，传统方法常依赖于领域标签来对齐不变的特征空间，或是从整体样本中分离出可泛化的特征，这两种方式都可能导致语义特征结构的扭曲，从而限制了模型的泛化能力。本工作针对现有基于域泛化的人脸防伪模型存在的泛化性能不足问题，设计了一种新型的免类别提示学习（CFPL）方法。该方法不直接操作视觉特征，而是利用大规模视觉语言模型（如CLIP）和文本特征，动态调整分类器的权重，以探索可泛化的视觉特征。CFPL通过两个轻量级变换器内容Q-Former（CQF）和风格Q-Former（SQF），利用一组可学习的查询向量，分别根据内容和风格特征学习不同的语义提示。通过引入提示文本匹配（PTM）监督和多样化风格提示（DSP）技术，进一步提升了模型的泛化能力。学到的文本特征通过设计的提示调制（PM）机制来调节视觉特征，以实现泛化。最终在多个数据集上达到了优于现有先进算法的性能。

27. 基于密度引导和双空间困难采样的3D半监督语义分割

Density-guided Semi-supervised 3D Semantic Segmentation with Dual-space Hardness Sampling

论文作者：李嘉楠，董秋雷

现有的3D半监督语义分割通常使用点对点的对比学习，但这种技术容易受到外点影响，为解决该问题，我们提出了DDSemi。其中，DDSemi使用密度引导的点对锚的对比学习。考虑到聚类中心通常位于密度较大的区域，我们使用特征存储体中密度较大的特征来为每个类别估计一个锚向量。为了从无标签数据中挖掘出有效信息，我们使用不同的数据增强技术处理不同分支中的无标签点云，并分别计算分支内的点对锚对比损失和分支间的点对锚对比损失。除此之外，为了给位于密度较低区域的点更多的关注，我们提出了双空间困难采样技术，该技术能够基于每个点在几何空间和特征空间中的密度为其赋予不同的损失权重。在室内和室外的公开数据集中的分割结果表明DDSemi的性能超过了现有的3D半监督语义分割方法。

28. CrossMAE: 基于MAE的跨模态区域感知视听预训练模型

CrossMAE: Cross-Modality Masked Autoencoders for Region-Aware Audio-Visual Pre-Training

论文作者：郭雨欣、孙思洋、马帅磊、郑可成、包笑一、马时杰、邹伟、郑赟

模态对齐的表征是视听学习中不可或缺的部分，然而现有视听预训练方法仅关注了全局特征以及分类或检索任务，忽略了细粒度特征的交互和对齐，导致下游密集预测任务出现次优性能。针对上述问题，我们研究了可局部区域感知的视听预训练，提出具有出色的跨模态交互和局部区域对齐能力的通用视听预训练模型：CrossMAE。具体来说，我们提出了像素级和特征级两个难度递进的MAE子任务。以视觉模态为例（反之亦然），首先，被随机掩码的视觉模态在听觉模态的attentive tokens的指导下重建图像像素,从而有效关注细粒度特征并促进区域感知能力；进一步地，视觉模态在可学习learnable queries的指导下重建听觉模态的完整特征，从而有效加强模态间交互。实验表明，CrossMAE能够在分类，检索，定位，分割，事件定位等多个任务上均取得SOTA性能，证明了所提出预训练模型的有效性。同时，我们探究了模态交互及局部区域对齐对于单模态和跨模态表征能力的提升，并深入分析了所提出的attentive tokens和learnable queries具体的作用机理，证明了本模型的有效性。

29. 开放场景自监督学习

Self-Supervised Representation Learning from Arbitrary Scenarios

论文作者：李朝闻、朱优松、陈志扬、高宗鑫、赵瑞、赵朝阳、唐明、王金桥

当前，自监督方法主要分为对比学习和掩码图像模型两大类。目前性能最强大的自监督模型正是组合这两种方法所构建的。然而，本文指出，组合方法本质上加强了全局一致性，却没有考虑对比学习和掩码图像模型之间的潜在冲突，这严重影响了它们在开放场景下的学习能力。本文从理论上证实了掩码图像模型实质上是一种基于区域级别的对比学习方法，图像中的每个区域被视为一个不同的类别。这与全局级别的对比学习形成了显著的冲突，后者将图像中的所有区域视为相同的类别。为了解决这一冲突，本文放弃了全局性约束，并提出了一种显式的区域性学习解决方案。具体来说，本文提出的技术在训练阶段采用了一种区域特征增强策略来构建解码双分支学习方案。这种学习方案使模型能够从开放场景中提取非同质化的特征表示，解决了组合方法中的学习冲突。通过在多个公开和混合数据集上的实验，本文证明了其在开放场景下的学习能力。

30. SC-Tune：解锁视觉语言模型的自洽指代理解能力

SC-Tune: Unleashing Self-Consistent Referential Comprehension in Large Vision Language Models

论文作者：岳同天、程杰、郭龙腾、戴星原、赵子嘉、何兴建、熊刚、吕宜生、刘静

当前大型视觉语言模型的研究日益聚焦于超越通用图像理解，朝向更细致的、目标级别的指代性理解。在本文中，我们提出并深入探讨了大型视觉语言模型的自恰性。这反映在模型具备既能为特定目标生成准确详细的描述，又能利用这些描述准确地重新定位原始目标的“闭环”式能力。该能力在很大程度上反映了模型细粒度视觉-语言理解的精确性和可靠性。然而先期实验表明，现有模型的自恰性水平未能达到预期，极大限制了它们的实际应用性和潜力。为了解决这一差距，我们引入了一种新颖的微调范式SC-Tune。它实现了模型描述-定位能力的循环式互促学习。这一范式不仅数据高效，而且在多个模型上展现了广泛的泛化能力。实验表明，SC-Tune显著提升了基线模型在一系列目标级视觉-语言基准测试中的性能，并在图像级视觉-语言基准测试中同样具备性能改善。

CVPR 2024 中科院自动化所36篇入选！新主干/多模态/3D视觉/自动驾驶等全都有！

正文

请到「今天看啥」查看全文