专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

ACM MM'24 Oral ｜MMCA：多模态动态权重更新，视觉定位新SOTA

极市平台 · 公众号 · AI 科技自媒体 · 2024-10-25 22:00

主要观点总结

本文介绍了一种名为多模态条件适应（MMCA）的新方法，通过动态更新视觉编码器的权重来改善视觉定位任务中的特征提取。该方法在四个代表性数据集上取得了显著性能提升，并作为即插即用组件应用于其他视觉引导模型。

关键观点总结

关键观点1: 多模态条件适应（MMCA）方法的提出

MMCA从权重更新视角改善了视觉引导模型中视觉编码器的特征提取过程，该方法整合了来自不同模态的信息以获得多模态嵌入，并利用这些嵌入来动态更新视觉编码器的权重。

关键观点2: MMCA在视觉定位任务中的应用

MMCA应用于主流的视觉引导框架，通过提出灵活的多模态条件变换器和卷积模块，这些模块可以作为即插即用组件轻松应用于其他视觉引导模型。在四个数据集上的实验结果显示出显著的性能提升。

关键观点3: MMCA的技术细节

MMCA遵循端到端编码器-解码器范式，整合视觉和文本特征，并通过多模态条件适应模块来更新视觉编码器的权重。技术细节包括多模态嵌入的生成、权重更新的动态调整以及视觉和文本特征的融合等。

正文

↑ 点击蓝字关注极市平台

作者丨晓飞的算法工程笔记

来源丨晓飞的算法工程笔记

编辑丨极市平台

极市导读

本文介绍了一种名为多模态条件适应（MMCA）的新方法，它通过动态更新视觉编码器的权重来改善视觉定位任务中的特征提取，该方法在四个代表性数据集上取得了显著的性能提升。论文还提出了灵活的多模态条件变换器和卷积模块，可以作为即插即用组件应用于其他视觉引导模型。 >> 加入极市CV技术交流群，走在计算机视觉的最前沿

论文地址： https://arxiv.org/abs/2409.04999

论文代码： https://github.com/Mr-Bigworth/MMCA

创新点

提出了多模态条件适应（ MMCA ）方法，该方法从一种新颖的权重更新视角改善了视觉引导模型中视觉编码器的特征提取过程。
将提出的 MMCA 应用于主流的视觉引导框架，并提出了灵活的多模态条件变换器和卷积模块，这些模块可以作为即插即用组件轻松应用于其他视觉引导模型。
进行广泛的实验以验证该方法的有效性，在四个具有代表性的数据集上的结果显示出显著的改善，且成本较小。

内容概述

视觉定位旨在将传统的物体检测推广到定位与自由形式文本描述相对应的图像区域，已成为多模态推理中的核心问题。现有的方法通过扩展通用物体检测框架来应对这一任务，使用独立的视觉和文本编码器分别提取视觉和文本特征，然后在多模态解码器中融合这些特征以进行最终预测。

视觉定位通常涉及在同一图像中定位具有不同文本描述的物体，导致现有的方法在这一任务上表现不佳。因为独立的视觉编码器对于相同的图像生成相同的视觉特征，从而限制了检测性能。最近的方法提出了各种语言引导的视觉编码器来解决这个问题，但它们大多仅依赖文本信息，并且需要复杂的设计。

受 LoRA 在适应不同下游任务的高效性的启发，论文引入了多模态条件适配（ MMCA ），使视觉编码器能够自适应更新权重，专注于与文本相关的区域。具体而言，首先整合来自不同模态的信息以获得多模态嵌入，然后利用一组从多模态嵌入生成的权重系数，来重组权重更新矩阵并将其应用于视觉定位模型的视觉编码器。

MMCA

MMCA 遵循典型的端到端编码器-解码器范式：

给定一幅图像和一个语言表达作为输入将其输入到编码器部分，以生成相应的特征嵌入。

a. 在语言分支中, 语言主干将经过分词的语言表达作为输入, 并提取文本特征，其中是语言标记的数量。

b. 在视觉分支中， CNN 主干首先提取一个二维特征图，然后经过一系列变换器编码器层，生成一个展平的视觉特征序列。

c. 多模态条件适应（ MMCA ）模块以层级方式应用于卷积层和变换器层的参数矩阵。该模块同时接受视觉和文本特征作为输入，并动态更新视觉编码器的权重，以实现基于语言的视觉特征提取。

将视觉和文本特征嵌入连接在一起，并在多模态解码器（视觉-语言变换器）的输入中添加一个可学习的标记 [ REG ]，该解码器将来自不同模态的输入标记嵌入对齐的语义空间，并通过自注意力层执行模态内和模态间的推理。
回归头使用 [ REG ] 标记的输出状态来直接预测被指对象的四维坐标。与真实框的训练损失可以表述为: