本文约1000字,建议阅读5分钟
多模态学习中的不完整模态问题既实用又具有挑战性。
近年来,研究人员主要集中在通过应用可学习的提示,增强预训练的多模态变换器(MMTs)在缺失模态条件下的鲁棒性。然而,这些基于提示的方法面临若干限制:(1)不完整的模态仅提供有限的模态线索,难以进行特定任务的推理;(2)对缺失内容进行虚拟填充会导致信息丢失并引入噪声;(3)静态提示是与实例无关的,无法为具有不同缺失条件的实例提供足够的知识。为了解决这些问题,我们提出了一种新颖的检索增强动态提示调优框架——RAGPT。RAGPT由三个模块组成:(I)多通道检索器,通过模态内检索策略识别相似实例;(II)缺失模态生成器,利用检索到的上下文恢复缺失信息;(III)上下文感知提示生成器,从相关实例中捕获上下文知识,并生成动态提示,从而显著增强MMT的鲁棒性。在三个真实世界数据集上的大量实验表明,RAGPT在处理不完整模态问题时始终优于所有竞争基准方法。我们的工作代码以及基于提示的基准方法已在https://github.com/Jian-Lang/RAGPT发布。
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU