专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
新消费日报  ·  图集,马云蛇年首次现身阿里园区! ·  21 小时前  
笔记侠  ·  2024,8大行业破局的故事,在这里 ·  昨天  
正观新闻  ·  喜茶:拒绝门店规模内卷,将暂停加盟 ·  昨天  
掌上平度  ·  暴涨108%!突破2000万人! ·  2 天前  
掌上平度  ·  暴涨108%!突破2000万人! ·  2 天前  
51好读  ›  专栏  ›  极市平台

NeurIPS 2024|天津大学提出:面向模态缺失情形的提示学习方法

极市平台  · 公众号  · 科技自媒体  · 2024-11-19 22:00

正文

↑ 点击 蓝字 关注极市平台
作者丨CVer粉丝投稿
来源丨CVer
编辑丨极市平台

极市导读

本文提出了一种面向模态缺失情形的提示学习方法,旨在解决多模态大模型在输入模态可能缺失时的问题,通过深度关联提示学习提高模型的鲁棒性和可扩展性,并在多个数据集上验证了其有效性。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿

作者:胡连宇,石同凯,冯伟,尚凡华,万亮(天津大学智算学部ViL实验室)

单位:天津大学

论文:https://arxiv.org/abs/2410.06558

https://github.com/hulianyuyy/Deep_Correlated_Prompting

论文概述

当前多模态大模型通常建设输入是模态齐全的。然而,由于隐私问题、传感器设置、信号传输等因素,现实中输入常常可能是模态缺失的。为解决这一问题,本文提出了面向视觉理解的深度关联提示学习。在MMIMDb、HatefulMemes以及Food101三个数据集上的广泛实验验证了模型的有效性。充足的消融实验验证了模型的鲁棒性及可扩展性。

前言

问题定义:给定一个拥有M个模态(如M=2, 对于图像和文本)的数据集 ,参考之前方法[1], 我们将 定义为完整数据, 以及 为模态缺失的数据, 其中只有一个模态是缺失的(比如文本或图像)。该情况可以推广到任意多模态。

回顾之前方法:MMP[1]首先提出使用提示学习策略解决模态缺失问题。对于M模态输入,它将 个提示向量赋给每种模态缺失情形(如3种提示向量,对于图像-文本任务,1种向量给模态齐全情形,1种向量给图像缺失情形,1种向量给文本缺失情形)。它直接将提示向量和输入进行拼接送入网络。在训练过程中, 只有提示向量和网络末端的分类器被训练, 其余部分均被冻结。

方法框架

虽然MMP[1]通过引入提示向量,相比于直接丢弃缺失模态的baseline能有效提示鲁棒性(如图1所示),但是它仅在输入层面简单将提示向量和输入拼接,忽略了以下方面:(1)忽略不同层之间提示向量的关联;(2)缺乏根据输入动态调整提示向量的能力;(3)忽略了不同模态间提示向量的互补性。

图1:MMP[1]与baseline对比

因此,我们提出多种不同提示向量,分别应对以上缺点,如图2所示。

图2:所提出的三种提示学习方法图示

Correlated prompting:前一层的提示向量可以为后一层提供指导。如图2(c)所示, 因此我们在第 J层之前使用函数 F(实例化为一个MLP)基于上一层的提示向量,生成下一层的提示向量。第一层的提示向量被随机初始化。为结合多模态互补信息,我们将多个模态中前一层的提示向量,送入 生成各模态下一层的提示向量。

Dynamic prompting: 不同输入往往需要不同类型的提示。我们提出根据输入在第一层网络之前动态生成提示向量。如图2(d)所示,我们使用函数 (实例化为一个attention layer)基于输入向量,为本模态动态生成提示向量。

Modal-common prompting: 不同模态间存在互补信息与共有信息。我们提出modal-common prompts, 存储模态间共有信息, 当某模态缺失时, 为其提供缺失信息。图2(f)所示, 我们随机初始化了一个modal-common prompt, 使用函数 将其转化为每个模态的提示向量。

我们将以上三种提示向量拼接,并进一步与输入拼接后,送入模型。在训练过程中,只有提示向量及其生成模块,以及模型末端的分类器被更新,其余部分被冻结,因此只需要训练整个模型约2.4%的参数。整个模型框架如图3所示。

图3:整个模型框架

实验部分

实验细节:我们使用CLIP ViT-B/16作为基础模型,输入大小为224×224,最大文本输入长度为77。提示向量总长度为36,在一个3090 GPU上完成训练。







请到「今天看啥」查看全文