ZS-DeconvNet方法前脚刚登上Nature,后脚英伟达就提出了新的多模态跨域小样本学习模型MM-CDFSL(ECCV2024),最近的小样本学习+多模态可谓是热度暴涨~
事实上,小样本学习和多模态的结合一直是个前沿且充满活力的研究方向,在其他诸多顶会(比如NeurIPS24、CVPR24等)上都非常受关注。
这是因为这种结合不仅融合了小样本学习在有限数据下高效学习的能力,还充分利用了多模态数据提供的丰富信息,这样即使面对少量的标注数据,模型也能通过整合有限的多模态互补信息,实现性能的有效提升。
不过目前这方向还有很多问题需要解决,但对论文er来说也意味着更多的创新空间,推荐还没有idea的同学尝试。我这边也整理好了12篇小样本学习+多模态最新论文,基本都是顶会开源的,不想多花时间找论文的同学可以直接拿~
扫码添加小享,回复“多模态小样本”
免费获取全部论文+代码合集
Multimodal Cross-Domain Few-Shot Learning for Egocentric Action Recognition
方法:论文提出了一个名为MM-CDFSL的模型,它专注于跨域小样本学习任务,特别是在第一人称视角动作识别领域。这个任务涉及到多模态输入(例如RGB视频、光流、手部姿态)和未标记的目标域数据。
创新点:
- 提出了一种多模态蒸馏方法,通过在学生RGB模型中引入多模态蒸馏,提升了模型适应目标域的能力。
- 提出了一种掩码集成推理技术,通过对输入帧进行掩码化以减少输入令牌的数量。
- 在预训练阶段,作者利用未标记的目标数据来适应模型到目标域。
Multimodal Prototype-Enhanced Network for Few-Shot Action Recognition
方法:文章提出了一个名为MORN的模型,它用于小样本动作识别任务。MORN模型结合了多模态信息,特别是利用标签文本的语义信息来增强原型(prototypes),以改善小样本学习的性能。
创新点:
- 利用标签文本的语义信息作为多模态信息来增强原型,从而计算出更具代表性的原型。
- 提出了“原型相似度差异(PRIDE)”这一新指标,用于评估原型的质量。
- 使用CLIP视觉编码器和冻结的CLIP文本编码器实现良好的多模态初始化,结合多头注意力机制,在多模态原型增强模块(MPE)中取得了卓越的性能提升。
扫码添加小享,回复“多模态小样本”
免费获取全部论文+代码合集
Active Exploration of Multimodal Complementarity for Few-Shot Action Recognition
方法:论文提出了一个名为AMFAR的框架,它专注于小样本动作识别任务,并结合了多模态信息。AMFAR框架能够主动地为每个样本找到可靠的模态,基于任务依赖的上下文信息来改进小样本推理过程。
创新点;
- 提出了一种主动多模态互蒸馏策略,能够在任务特定的上下文信息下,从可靠模态中提取区分性知识,并通过双向知识蒸馏机制改善不可靠模态的表示学习。
- 提出了自适应多模态推理方法,能够根据模态特定的后验分布,自适应地融合模态特定结果,重点关注可靠模态。
- 设计了一个主动样本选择,通过基于模态特定后验分布的可靠性差异,将查询样本组织成不同组别。
Argumentative Stance Prediction: An Exploratory Study on Multimodality and Few-Shot Learning
方法:作者探讨了在多模态和少量样本环境下的论证立场预测问题,评估了在推特上关于枪支控制和堕胎等关键社会话题的立场预测中,图像信息的必要性,并比较了在少量样本设置下,基于文本的LLM与微调的单模态和多模态模型的性能。
创新点:
- 多模态对比单模态:研究了在立场预测中加入图像信息是否比仅使用文本更有效。
- 大型语言模型的少量样本学习:探索了如何让大型语言模型在只有少量样本的情况下进行有效的立场预测。
- 模型集成提升性能:发现将多个微调的语言模型集成起来,可以提高立场预测的准确性。
扫码添加小享,回复“多模态小样本”
免费获取全部论文+代码合集