专栏名称: 学姐带你玩AI

这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI！

多模态Embedding不愧是CVPR和NIPS的共同选择！这发文思路真的需要好好学习一下！

学姐带你玩AI · 公众号 · · 2024-11-19 18:29

正文

最近， 多模态Embedding 模型的爆火在各个行业引起了广泛关注，改变了机器理解文本和图像的方式，相关应用和学术成果也逐渐增加，目前已有多篇研究被各大顶会录用。

比如CVPR 2024的BadCLIP攻击方法，在对抗现有最先进的后门防御技术时成功率提高了45.3%；再比如NIPS的自适应回报条件策略ARP，能够有效减轻目标误泛化问题。

这得益于多模态Embedding的诸多优势，它 不仅可以增强数据理解和分析的能力，还可以提升模型的性能， 特别是在处理复杂、多维度的数据时表现出色。另外，多模态Embedding的高适应性和灵活性，也让它在满足多样化的需求方面一骑绝尘。

如果有论文er对此感兴趣，需要这方面的参考以便找idea，我这边也提供 11篇 多模态Embedding最新论文 ，开源的代码都附上了，希望可以给各位的论文添砖加瓦。

扫码添加小享，回复“ 多模态嵌入 ”

免费获取 全部论文+代码合集

方法： 论文讨论了多模态嵌入的安全性问题，特别是针对MCL模型（如CLIP）的后门攻击。论文提出了一种名为BadCLIP的攻击方法，该方法能够在即使存在后门检测和模型微调防御的情况下，也保持有效的攻击能力。

创新点：

方法： 作者讨论了多模态嵌入在模仿学习中的应用，提出了一种名为Adaptive Return-conditioned Policy (ARP)的框架，该框架使用自然语言任务描述和预训练的多模态编码器来增强代理（agent）在未见环境中的泛化能力。

创新点：

扫码添加小享，回复“ 多模态嵌入 ”

免费获取 全部论文+代码合集

方法： 论文提出了BLIVA模型，一个增强版的InstructBLIP，利用查询嵌入来理解视觉编码器，同时通过额外的视觉助手分支使用编码的图像块嵌入，以提供更丰富的图像信息，从而改善文本和图像的视觉感知与理解。

创新点：