最近,
多模态Embedding
模型的爆火在各个行业引起了广泛关注,改变了机器理解文本和图像的方式,相关应用和学术成果也逐渐增加,目前已有多篇研究被各大顶会录用。
比如CVPR 2024的BadCLIP攻击方法,在对抗现有最先进的后门防御技术时成功率提高了45.3%;再比如NIPS的自适应回报条件策略ARP,能够有效减轻目标误泛化问题。
这得益于多模态Embedding的诸多优势,它
不仅可以增强数据理解和分析的能力,还可以提升模型的性能,
特别是在处理复杂、多维度的数据时表现出色。另外,多模态Embedding的高适应性和灵活性,也让它在满足多样化的需求方面一骑绝尘。
如果有论文er对此感兴趣,需要这方面的参考以便找idea,我这边也提供
11篇
多模态Embedding最新论文
,开源的代码都附上了,希望可以给各位的论文添砖加瓦。
扫码
添加小享,
回复“
多模态嵌入
”
免费获取
全部论文+代码合集
Badclip: Dual-embedding guided backdoor attack on multimodal contrastive learning
方法:
论文讨论了多模态嵌入的安全性问题,特别是针对MCL模型(如CLIP)的后门攻击。论文提出了一种名为BadCLIP的攻击方法,该方法能够在即使存在后门检测和模型微调防御的情况下,也保持有效的攻击能力。
创新点:
-
通过优化文本嵌入一致性和视觉嵌入抗性,确保视觉触发模式与目标文本语义在嵌入空间中接近,从而减少模型参数的显著变化,降低被检测的风险。
-
BadCLIP在对抗现有最先进的后门防御技术时,攻击成功率提高了45.3%,展示了其在多模态对比学习模型(如CLIP)上的有效性。
Guide Your Agent with Adaptive Multimodal Rewards
方法:
作者讨论了多模态嵌入在模仿学习中的应用,提出了一种名为Adaptive Return-conditioned Policy (ARP)的框架,该框架使用自然语言任务描述和预训练的多模态编码器来增强代理(agent)在未见环境中的泛化能力。
创新点:
-
提出了一种新的模仿学习(IL)框架,称为自适应回报条件策略(ARP),通过使用来自预训练编码器的自适应多模态奖励来训练回报条件策略。
-
引入了一种微调方案,通过使用域内专家演示数据来调整预训练的CLIP模型,以提高多模态奖励的质量。
-
证明了使用该框架可以有效地减轻目标误泛化问题,从而在与基于文本的基线相比时实现更好的泛化。
扫码
添加小享,
回复“
多模态嵌入
”
免费获取
全部论文+代码合集
Bliva: A simple multimodal llm for better handling of text-rich visual questions
方法:
论文提出了BLIVA模型,一个增强版的InstructBLIP,利用查询嵌入来理解视觉编码器,同时通过额外的视觉助手分支使用编码的图像块嵌入,以提供更丰富的图像信息,从而改善文本和图像的视觉感知与理解。
创新点:
-
提出了一种结合学习的查询嵌入和编码的图像补丁嵌入的方法,作为视觉助手来增强图像中文本的解释能力。
-
采用两阶段训练方案,首先在预训练阶段使LLM与视觉信息对齐,接着利用指导微调数据进一步增强性能。
-
从零开始训练补丁嵌入投影层,并在指导微调阶段对Q-former和补丁嵌入投影层进行微调。