近年来,研究者们对于带有缺失模态的深度多模态学习的技术越来越感兴趣,本综述对2012-2024.10为止的带有缺失模态的深度多模态学习的相关文章进行了总结和展望。在多模态模型训练和测试期间,由于传感器的限制、成本的限制、隐私问题或数据丢失,使得某些数据模态可能会缺失,从而会对性能产生负面影响。设计用于处理缺失模态的多模态学习技术可以通过确保模型的鲁棒性来缓解这种情况,即使在某些模态不可用的情况下也是如此。 本综述 回顾了带有缺失模态的多模态学习(Multimodal Learning with Missing Modality: MLMM)的最新进展,专注于深度学习方法 。本文提供了第一个全面的综述涵盖了与标准多模态学习设定的动机和区别,然后详细地分析了当前的方法、应用和数据集,并总结了该领域面临的挑战和未来的方向。该综述目前已提交至ACM Computing Surveys,欢迎来自大家的讨论。
论文标题:
Deep Multimodal Learning with Missing Modality: A Survey
论文地址:
https://arxiv.org/abs/2409.07825
一、背景、动机以及趋势
多模态学习是人工智能领域的重要方向,通过联合分析视觉、文本、听觉和感官信息等多种数据模态,模拟人类结合多种感官的能力以更好地理解和与环境交互。深度学习的泛化能力使多模态模型能够揭示单模态系统难以发现的复杂模式和关系,在多个领域取得了显著进展。然而,现实中的多模态系统常面临部分模态缺失或不完整的问题,这可能由传感器故障、硬件限制、隐私保护、环境干扰或数据传输问题等因素引起。从图1(a)中可以看到,近年来,针对这一问题的研究论文数量显著增加。许多领域已开始提出应对“缺失模态问题”的方法,例如情感计算、医疗AI和太空探索等。
经典的多模态模型训练方案往往直接剔除带有缺失模态的数据样本 (例如图1(b)中的缺失模态样本),但这会浪费很多宝贵信息,并无法在测试阶段应对模态缺失的情况。因此,研究者提出了多模态学习中专门解决模态缺失问题的方法,称为“带有缺失模态的多模态学习”(MLMM)。与利用全模态数据的经典方法(Multimodal Learning with Full Modality: MLFM)相比,MLMM要求模型在训练和测试阶段动态处理和融合不同模态的数据,同时尽量保持性能。
这一领域目前的研究趋势包括构建更鲁棒的模型、开发模态缺失的恢复策略以及探索实际应用场景中的多模态系统。在未来,如何进一步提升模型的泛化能力和效率,将成为推动多模态学习发展的关键。
我们从两个关键方面回顾了当前的深度 MLMM 方法:数据处理和策略设计。
根据缺失模态的处理发生在模态数据层面还是数据表征层面,侧重于从数据处理方面的方法可分为模态归纳法和以表征为重点的方法。
(1) 模态归纳法 在模态数据层面进行操作,通过合成(模态合成方法)或从可用模态中生成 缺失模态(模态生成方法)来填补缺失信息。这些方法的根源在于,如果可以准确归纳缺失模态,则下游任务可以继续进行,就像有“完整”模态可用一样。
(2) 以表征为重点的方法 旨在解决表征层面的缺失模态问题。在某些情况下,表征约束方法对不同模态的表征施加了一些特定的约束,以帮助在语义空间中对齐不同模态的表征信息,以便即使面对缺失的模态,模型也可以得到有效的训练。其他以表征为中心的方法要么使用可用数据生成缺失的模态表征,要么结合现有模态的表示来填补空白。
2.2 策略设计角度 探索策略设计方面的方法基于模型,这些模型可以通过灵活调整模型架构(内部模型架构调整)和多个模型的组合(外部模型组合)在训练和测试期间动态适应不同的缺失模态情况。我们将它们命名为以架构为中心的模型和模型组合。
(1) 以架构为中心的方法 通过设计灵活的模型架构来解决缺失模态问题,这些架构可以在训练或推理期间适应不同数量的可用模态。其中的一种关键方法是基于注意力机制,它可以动态调整模态融合和处理,使模型能够处理任意数量的输入模态。另一种方法基于知识蒸馏,其中通过将知识从全模态模型转移到使用不完整数据的模型或在模型内部的不同分支之间进行蒸馏,对模型进行训练以适应缺失的模态。
此外,基于图学习的方法利用模态之间的自然关系,使用图动态融合和处理可用模态,同时有的方法也补偿缺失的模态。最后,多模态大语言模型(MLLM)也在这一类别中发挥着至关重要的作用,因为它们能够处理长上下文并充当特征处理器,这使它们能够接受和处理来自任意数量模态的表示。这些架构策略共同允许模型在处理不完整的多模态输入时保持不错的性能。
(2) 模型组合方法 通过采用利用多种模型或专门训练技术的策略来解决缺失模态问题。一种方法是使用针对不同模态情况量身定制的专用训练策略,确保每种情况都经过训练以获得最佳性能。另一种方法涉及集成方法,其中组合了在部分/全模态集上训练的模型,允许系统根据可用的模态选择最合适的模型(模块)进行联合预测。此外,离散调度器方法可以合并各种下游模块,灵活地处理任意数量的模态并处理特定任务。这些调度器智能地选择和组合多个模型或模块的输出来管理缺失模态场景,为多模态任务提供通用解决方案。
我们的分类法(图 2)可以反映多模态学习的不同方面和层次——从模态数据到数据表示、架构设计和模型组合——每种分类法都提供了一种独特的方法来解决基于任务要求和可用资源的缺失模态问题。
三、数据处理角度下的方法
3.1 模态插补 模态插补是指 MLMM 方法使用的一种技术,通过对现有模态执行各种转换或操作来填充缺失的模态样本或生成缺失的模态以完成具有缺失模态的数据集。在数据模态级别解决缺失模态问题的模态插补方法可分为两类。
(1) 模态组合方法 使用零/随机值或从相似实例复制的数据作为缺失模态数据的输入。然后,将通过这些方法生成的表示缺失数据的数据与来自可用模态的数据合成以形成“完整”模态样本。
(2) 模态生成方法 使用生成模型(例如自动编码器、生成对抗网络 (GAN) 或扩散模型)生成缺失的模态数据。然后将生成的数据与可用模态的数据合成,形成“完整”模态样本。我们将在下一小节中提供有关这两种方法的更多详细信息。
3.1.1 模态组合方法 模态组合方法因其简单性和保持原始数据集大小的有效性而被广泛采用。
零/随机值组合方法代表一种模态组合方法,它用零或随机值替换缺失的模态,如图 3 所示。 基于检索的表示组合方法(图 4)代表另一种模态组合方法,该方法通过复制或平均来自具有相同分类的检索样本的数据来替换缺失的模态数据。其他一些方法从其他样本中随机选择具有相同分类和所需缺失模态的样本。然后将所选模态数据与缺失模态样本组合以形成用于训练的全模态样本。
3.1.2 模态生成方法 借助深度学习,通过利用能够捕捉复杂跨模态关系的强大表征学习和生成模型,合成缺失模态变得更加有效。当前生成缺失模态数据的方法分为单个模态生成方法和统一模态生成方法。
单个模态生成方法为每种模态训练一个个体生成模型,以防任何模态缺失,如图 5a 所示。
统一模态生成方法训练一个可以同时生成所有模态的统一模型(图 5b)。
3.2 以表征为中心的模型 以表征为中心的模型在表征层面上解决了缺失模态问题。我们首先介绍两种 基于表征约束的方法 ,通过施加特定约束来增强对更具判别性和鲁棒性的表征的学习,从而介绍此类模型(图 6)。我们讨论的下一种以表征为中心的方法是 表征插补方法 ,可分为表征组合和表征生成方法。表征组合方法可以借用第 3.1.1 节中描述的解决方案,并在模态的表征层面上进行操作,或者采用算术运算(例如池化)来融合动态数量的模态。最后,我们介绍 表征生成方法 ,这些方法通常使用小型生成模型来生成缺失模态的表征。 3.2.1 基于表征约束的方法 基于表征约束的方法侧重于在不同模态的表示之间引入某些约束,以使学习到的表示在语义上一致。它们通常分为两类,一类基于正则化,另一类由相关性驱动。 3.2.2 表征组合方法 表征组合方法有两种,下面将进行解释。
基于检索的表征组合方法尝试通过从现有样本中检索模态数据来恢复缺失的模态表示,类似于前文种的模态组合方法。
基于算术运算的表征组合方法可以通过算术运算(例如池化层)灵活地融合任意数量的模态表示,而无需可学习的参数(图 7)。
表征生成方法可以无缝集成到现有的多模态模型框架中。当前的方法分为两类:(1)间接到下游任务的表征生成方法(图 8a)将模态重建作为训练期间的辅助任务,帮助模型本质上为下游任务生成缺失的模态表示。由于辅助任务有助于训练期间的表示生成,但在下游任务的推理过程中被丢弃,因此被称为“间接到下游任务”。(2)直接到下游任务的表征生成方法(图 8b)训练一个小型生成模型,将可用的模态表征直接映射到缺失的模态表征空间中。 四、策略设计角度下的方法
4.1 以架构为中心的模型 与上述在模态数据或模态表征层面处理缺失模态问题的方法不同,许多研究人员调整模型训练或测试架构以适应缺失模态的情况。我们根据它们在处理缺失模态方面的核心贡献将它们分为四类: 基于注意力的方法 、基于蒸馏的方法 、基于图学习的方法 和多模态大型语言模型 。 4.1.1 基于注意力的方法 在自注意力机制中,每个输入都经过线性变换以生成查询、键和值向量。注意力权重是通过将每个元素的查询与其他元素的键相乘来计算的,然后进行缩放和 softmax 以确保权重总和为 1。最后,值的加权和生成输出。我们将基于注意力的 MLMM 方法分为两类。
(1)注意力融合方法将注意力放在模态融合上,整合多模态信息,它不依赖于任何特定的模型类型,并且可以适用于各种模型类型,因为它的输入和输出维度相同。
(2)其他是基于Transformer的方法,它们堆叠注意力层以通过全局信息捕获和并行化来处理大规模数据。我们在下面提供了这两种方法的更多细节。 注意力融合方法具有捕获关键特征的强大能力,可以看作是即插即用的模块。我们将它们分为两类: 模态内和模态间注意力方法 。模态内注意力方法在融合之前独立计算每个模态的注意力,如图 9a 所示。这种方法侧重于单一模态内的关系,模态之间的融合是通过共享部分信息实现的。模态间注意力方法通常基于Masked注意力机制,将缺失的模态特征视为Masked向量(使用零或负无穷大值),以更好地捕获可用模态之间的依赖关系,如图 9b 所示。与传统的跨模态注意力机制不同,基于Masked注意力机制的模型在所有嵌入中共享相同的参数,从而可以灵活处理缺失的模态。
根据全参数训练和少量参数微调,基于 Transformer 的方法可分为两种类型:联合表示学习 (Joint Representation Learning: JRL) 和参数高效学习 (Parameter Efficient Learning: PEL)。由于 Transformer 具有较长的上下文长度来处理许多特征标记,因此多模态 Transformer 可以从任意数量的模态标记中学习联合表示(图 10)。
随着预训练 Transformer 模型的兴起,已经开发出 PEL 方法,通过训练少量参数来微调这些模型。预训练模型的两种常见 PEL 方法是prompt和adapter tuning。Prompt tuning最初用于自然语言处理,可在保持模型参数固定的同时优化输入提示。
4.1.2 基于蒸馏的方法 知识蒸馏将知识从教师模型转移到学生模型。教师模型可以访问更多信息,帮助学生重建缺失的模态信息。下面,我们将介绍这个问题的两种蒸馏方法。 基于表示的蒸馏方法从教师模型转移丰富的表征,以帮助学生捕获和重建缺失的模态特征。我们根据它们是否使用 logit 或中间特征对它们进行分类。图 11 说明了这些方法。响应蒸馏方法专注于将教师模型的 logit 转移到学生,帮助它模拟概率分布。中间蒸馏方法将教师和学生模型之间的中间特征对齐。 基于过程的蒸馏方法侧重于整体蒸馏策略,例如Mean教师蒸馏 (Mean Teacher Distillation: MTD) 和自我蒸馏(Self Distillation)。这些方法强调过程中的学习而不是直接的表征转移。MTD通过使用学生模型参数的指数移动平均值作为教师来增强稳定性(图 12a)。自我蒸馏通过从自己的软表征中学习来帮助模型改进(图 12b)。 4.1.3 基于图学习的方法 基于图学习的方法利用图结构数据中节点和边之间的关系进行表示学习和预测。我们将解决缺失模态问题的方法分为两大类:基于图融合的方法和图神经网络 (GNN) 方法。 图融合方法使用图结构集成多模态数据(图 13),使其能够适应各种网络。
图神经网络方法将多模态信息直接编码到图结构中,并使用 GNN 来学习和融合这些信息。单独的 GNN 方法(图 14a)使用神经网络或 GNN 提取特征并融合它们进行预测。统一的 GNN 方法(图 14b)首先完成图,然后使用 GNN 进行预测。
LLM(如 ChatGPT)的惊人转换能力可以通过其在许多任务中令人印象深刻的泛化能力来解释。然而,我们对世界的理解不仅取决于语言,还取决于其他数据模态,如视觉和音频。这促使研究人员探索 MLLM,旨在利用 Transformer 的灵活性处理跨模态的各种用户输入,包括缺少模态的情况。它们的架构类似于图 10 所示的架构。
由于 MLLM 的特性,我们将它们与基于 Transformer 的JRL方法区分开来,并在下文中进行介绍。在一些当前的 MLLM 架构中,LLM 充当特征处理器,集成来自不同模态特定编码器的特征标记,并将输出传递给任务/模态特定的解码器。这使得LLM 不仅能够捕获丰富的模态间依赖关系,而且自然具备处理任意数量模态的能力,即解决缺失模态问题的能力。
4.2 模型组合 模型组合旨在将选定的模型用于下游任务。这些方法可分为集成、专用训练和离散调度器方法。 集成方法 通过不同类型的聚合方法(例如投票、加权平均和类似方法)将来自多个选定模型的预测组合起来,以提高准确性和稳定性。 专用训练方法 将不同的子任务(例如,不同的缺失模态情况)分配给专门的单个模型,重点关注特定的子任务或子数据集。在 离散调度器方法 中,用户可以使用自然语言指令使 LLM 能够根据模态类型和下游任务自主选择合适的模型。我们在下面提供有关这些方法的更多详细信息。 4.2.1 集成方法 集成学习方法可以灵活地支持不同数量的专家模型来组合它们的预测,如图 15 所示。多模态模型集成方法如图 15a 所示,它集成了各种全模态模型来辅助决策。单模态模型集成方法的总体架构如图 15b 所示,其中每个模态都由一个单模态模型处理,只有可用的模态才有助于决策。 4.2.2 特定的训练方法 特地的训练方法将不同的任务分配给专门的模型。我们在图 16 中展示了这些方法的总体思路。 4.2.3 离散调度器方法 在离散调度方法(图 17)中,LLM 充当调度器,确定从主要任务/指令分解出的不同离散步骤的执行顺序。虽然 LLM 不直接处理多模态数据,但它会解释语言指令并协调单模态和多模态模块之间的任务执行。这种结构化但灵活的方法对于需要顺序任务的输出特别有效,使系统能够处理任意数量的模态并自然地解决缺失模态问题。 五、应用场景和数据集
多模态数据集的收集通常需要大量劳动力且成本高昂。在某些特定的应用方向上,诸如用户隐私问题、数据收集设备上的传感器故障等问题可能会导致数据集缺少模态。在严重的情况下,多达 90% 的样本可能缺少模态,这使得经典的 MLFM 难以获得良好的性能。这催生了 MLMM 的任务。由于导致数据集不完整的因素通常来自不同的应用方向,我们根据 MLMM 任务中常见的应用引入了以下数据集:情绪分析、医学诊断、检索/字幕、遥感、机器人视觉等。我们根据表 3 中的应用和数据类型对这些数据集进行了分类。更多应用介绍详见原文。 六、开放性问题及未来研究方向
七、结论
在本综述中,我们首次全面介绍了缺失模态的深度多模态学习。我们首先简要介绍缺失模态问题的动机以及强调其重要性的现实原因。随后,我们根据我们提出的细粒度分类法总结了当前的进展,并回顾了相关应用场景和数据集。最后,我们讨论了该领域现有的挑战、困境和潜在的未来方向。虽然越来越多的研究人员参与研究缺失模态问题,但我们也担心一些迫切需要解决的问题,例如统一的测试基准(例如,多模态大型语言模型)和更广泛应用的需求(例如,自然科学)。通过我们全面而详细的调查,我们希望这次综述能够激励更多的研究人员探索缺失模态问题。
P.S. 更多详细的内容详见原论文。
llustration From IconScout By IconScout Store
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区( www.techbeat.net )。 社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
[email protected]
或添加工作人员微信(yellowsubbj ) 投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿 ”二字,获得投稿说明。
将门 是一家以专注于 数智核心科技领域 的 新型创投机构 ,也是 北京市标杆型孵化器 。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。 将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。 如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务, 欢迎发送或者推荐项目给我“门”: