专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

多模态的幻觉诅咒！达摩院新作评估多模态大模型在语言、视觉和音频上的幻觉问题

PaperWeekly · 公众号 · 科研 · 2024-11-01 19:43

正文

请到「今天看啥」查看全文

阿里巴巴达摩院和新加坡南洋理工大学的研究团队提出了全新的评价基准--多模态的诅咒（CMM），这是首个系统性地研究面向语言，视觉，和音频的多模态大模型（LMMs）幻觉问题的工作，对幻觉问题提供深入的分析和评估方法。

近年来，多模态大模型（LMMs）在人工智能的前沿领域取得了突破性进展，但仍然面临“幻觉”问题，即模型会生成与输入不符的信息。面对这一挑战，学术界提出了多种评价基准以及改进方法，但这些方法大多只关注单一模态（例如图像或视频），缺乏对更多模态参与时幻觉问题的综合分析和评价。

在本文中，我们我们系统性地分析了 LMMs 在最常见的三种模态（语言、视觉、音频）任务中的幻觉表现，揭示了多模态幻觉的两个根本来源：单模态先验依赖过强（Overreliance on Unimodal Priors）以及跨模态间的虚假关联（Spurious Inter-modalities Correlations）。

基于以上发现，我们提出了全新的评价基准——多模态的诅咒（CMM），并且从细粒度的对象和事件层面对幻觉进行诊断。实验显示，CMM 不仅能够揭示现有模型在幻觉防范方面的不足，还可以作为未来多模态学习研究和模型改进的重要指导工具。

论文题目：

The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio

论文作者：

冷思聪*，邢云*，成泽森*，周阳，张航，李昕，赵德丽，吕时俭，苗春燕，邴立东

作者单位：

阿里巴巴达摩院, 新加坡南洋理工大学, 新加坡A*STAR IHPC

论文链接：

https://arxiv.org/abs/2410.12787

项目主页：

https://cmm-damovl.site

引言

1.1 背景介绍&研究动机

随着人工智能技术的进步，大规模多模态模型（LMMs）在语言、视觉和音频等多模态信息的融合和理解上表现出色，并在图像，视频，音频理解等领域展现出广泛应用前景。

然而，这些模型在应对复杂、多样的输入时，往往会生成与实际内容不符的“幻觉”输出。幻觉现象不仅影响模型输出的准确性和可靠性，也在某种程度上限制了 LMMs 的实际应用。因此，深入分析和系统性评估 LMMs 在不同模态下的幻觉现象，对于推动多模态模型的安全性和泛化能力具有重要意义。

1.2 主要贡献

本研究的主要贡献包括以下三个方面：

我们首次系统性地研究了大规模多模态模型（LMMs）在语言、视觉和音频模态下的幻觉现象，深入分析了其主要成因，包括单模态先验依赖过强（Overreliance on Unimodal Priors）以及跨模态间的虚假关联（Spurious Inter-modalities Correlations）。
本文提出了一个创新且全面的基准——多模态诅咒（CMM），通过在二分类框架下的物体级和事件级探测评估幻觉现象。CMM 进一步细分幻觉类型和分析维度，为多模态模型脆弱性的全面诊断提供了细致的评价体系。
我们对多种先进的 LMMs 在视觉、音频及多模态融合场景下进行了评估，揭示了模型在多模态学习中的关键局限性和基础性挑战。基于详尽的分析和讨论，我们提出未来改进的方向，为缓解幻觉问题并提升 LMM 可靠性提供了切实可行的路径。

分析语言、视觉和音频模态中的幻觉现象

在多模态模型中，幻觉现象是指模型生成了与输入内容不符的输出，通常对模型的准确性和可靠性产生负面影响。

我们系统性地分析了语言、视觉和音频模态下的幻觉现象，重点从两个关键方面进行研究：单模态先验依赖过强（Overreliance on Unimodal Priors）以及跨模态间的虚假关联（Spurious Inter-modalities Correlations）。

2.1 单模态先验的过度依赖

单模态先验的过度依赖是 LMM 中导致幻觉的一个重要因素。当模型过于依赖从单一模态中学习的知识，而未能有效整合其他模态信息时，幻觉现象就会出现。我们将这一现象进一步细分为三种类型：语言主导、视觉主导和音频主导。

语言主导：在这种情况下，模型过于依赖于预训练的语言模型中学到的语言先验，导致其即使在输入的视觉或音频信息与语言先验不一致时，依然生成符合语言先验的输出。
视觉主导：模型在生成输出时主要依赖视觉信息，忽视了语言和音频中的关键信息。这通常导致模型基于视觉内容生成幻觉，即使音频内容不支持这一推断。
音频主导：模型主要依赖音频输入，而忽视了视觉和语言信息，从而生成与视觉信息不符的幻觉。

我们的验证实验表明，现有的多模态模型在不同模态下均存在单模态先验依赖过强的问题，随着逐步增强或者减弱主导模态的影响，模型的幻觉现象也会相应增强或减弱，这进一步证明了单模态先验依赖过强是导致幻觉的重要原因。

2.2 跨模态间的虚假关联

跨模态虚假关联是多模态训练中常见的现象，尤其是在大规模多模态数据预训练中（如图像-文本、视频-文本和音频-文本数据集）。这种关联有两个最直接和主要的来源：

全局出现频率：特定对象或事件在数据集中高频出现，导致模型倾向于生成这些元素，即使它们在输入中并不存在。
共现频率：训练过程中对象或事件的高频共现使得模型在仅有其中一个对象时错误地预测另一个对象的存在

我们进一步将跨模态虚假关联细分为三种类型：

视觉-语言关联：例如，模型在视觉地识别到“人”时可能会幻觉性地生成“手机”，因为“人-手机”组合在视频-文本训练数据中经常出现。
音频-语言关联：模型可能会根据音频-文本数据中常见的“狗叫”频率幻觉该音频事件，即使当前音频输入中只有狗的低声呜咽。
视觉-音频-语言关联：例如，当听到鸟叫时，模型可能会幻觉性地认为看到了“树”的视觉元素，因为“听见鸟叫-看见树”在音视频联合训练数据中频繁共现。

为验证跨模态虚假关联的影响，我们设计了相应的实验，通过观察共现分数（CoScore）与幻觉发生频率的关系，量化了不同模态组合对幻觉现象的影响。实验结果表明，共现频率与幻觉现象之间存在显著的相关性，即高共现频率会更容易诱导模型生成幻觉。

多模态诅咒（CMM）评估基准

受前述分析启发，我们提出了多模态诅咒（ CMM ）评估基准，以系统性地评估大型多模态模型（ LMMs ）中的幻觉现象。 CMM 针对两大主要原因展开研究：单模态先验的过度依赖和跨模态虚假关联。如下表所示，每种原因进一步细分为具体子类别，以便进行细粒度的性能评估。

3.1 数据组成与评估设置

每个子类别包含 200 个视频、音频或视频-音频对样本，总共包括 1,200 个样本和 2,400 个探测性问题。每个样本附带两类探测问题：

存在性问题：探测模型是否在音频或者视频模态感知到实际存在的某对象或事件（答案为“是”）
非存在性问题：探测模型是否在音频或者视频模态感知到不存在的某对象或事件（答案为“否”）

我们采用两个核心指标进行评估：感知准确率（Perception Accuracy）和幻觉抵抗率（Hallucination Resistance），定义如下：

PA 衡量模型感知实际存在对象或事件的能力，而 HR 则评估模型识别非存在对象或事件的能力。较高的 PA 和 HR 表明模型在感知和应对幻觉方面的鲁棒性较强。

实验与讨论

本节详细介绍了我们在多模态诅咒（CMM）评估基准上对多种多模态大模型（LMMs）的实验评估，系统分析了模型在不同模态组合下的幻觉现象及其原因。

4.1 基线模型

根据处理模态的不同，我们将 LMMs 分为三类：

视觉-音频模型：包括 Reka-core、Gemini-1.5 系列和开源模型 FAVOR-13B、GroundingGPT-7B、VideoLLaMA2-7B。
视觉模型：如 GPT4o、VideoChat2-7B、PLLaVA-7B、LLaVA-OneVision-7B 等。
音频模型：包括 Audio-Flamingo-1.3B、SALMONN-13B 和 Qwen2-Audio-7B。

所有模型采用固定温度为 0.2 的抽样解码策略，确保结果的一致性。

4.2 实验结果

视觉-音频模型在感知任务中的 PA 分数普遍超过 80，表明其能够有效集成多模态信息。然而，音频的引入显著增加了幻觉风险。即使是性能最佳的 Gemini-1.5-pro，在音频-语言关联中的 HR 也仅为 14.5，揭示出音频-语言虚假关联的处理难度。

实验发现视觉主导问题尤为突出。例如，Gemini-1.5-flash 在音频主导场景中的 HR 高达 86.5，但在视觉主导场景中仅为 36.5。这表明模型倾向于依赖视觉信息，忽略音频上下文。

此外，语言主导问题揭示了如今多模态模型架构中大语言模型解码器的影响。如 FAVOR 在 PA 为 92 的情况下，HR 骤降至 18.5，表明模型强烈依赖语言先验。

单模态模型在各自领域的感知能力优于多模态模型，但在减少跨模态虚假关联引发的幻觉方面仍存在不足。例如，CogVLM2-Video 在视觉-语言关联中的 HR 仅为 44。音频-语言关联问题则更加严重，大部分音频模型的 HR 分数在 30 到 60 之间。

大多数模型在事件级问题上的 PA 低于对象级问题。这表明事件级问题因其时间复杂性带来更多挑战。与此同时，语言主导场景中的事件级问题 HR 较低，这反映了大语言模型在处理长序列时对语言先验的更多依赖。

在视觉-音频-语言（VAL）子类别中，我们设计了两类探测问题：

· 对象级探测：基于音频事件，询问不存在的视觉对象。
· 事件级探测：基于视觉对象，询问不存在的音频事件。

实验表明（上图左），事件级音频探测的幻觉抵抗率（HR）显著低于对象级视觉探测，表明模型更易在音频探测中产生幻觉。这与训练数据的视觉偏向性相关，模型更依赖视觉信息，导致忽略音频信号。

这一趋势与我们在单模态依赖性分析中的发现一致，即视觉主导模型往往忽视音频上下文。这强调了未来研究中平衡视觉和音频融合的重要性。

实验（上图右）说明增加 LLM 规模对视觉-语言关联的 HR 影响较小。然而，在语言主导场景中，较大规模的 LLM 表现出更好的 HR，例如 LLaVA-OneVision 的 HR 从 55（0.5B）上升至 75.5（34B）。

4.3 未来方向

以上实验及讨论表明，LMMs 在模态集成中的失衡、训练数据中的虚假关联以及对语言先验的过度依赖是幻觉现象的主要原因。为应对这些挑战，我们提出以下未来方向：

平衡的多模态数据集：创建具有多样化模态和时间标注的数据集，以减少视觉偏差并提升事件理解。
动态跨模态融合：根据上下文动态调整模态权重，改善多模态理解并减少幻觉。
语言先验的缓解：通过上下文多样化的微调和视觉/音频校验机制，减少对语言先验的依赖。
安全性对齐策略优化：建立平衡的响应策略，避免模型过于自信或过度谨慎。

结论

本研究首次系统性地探讨并验证了大型多模态模型（LMMs）中导致幻觉的两个主要因素：对单模态先验的过度依赖和跨模态间虚假相关性。我们提出了多模态诅咒（CMM）评估基准，通过细化的子类别与粒度划分，以及诊断性指标，实现对模型局限性的精准诊断并指导针对性改进。

在对多种 LMMs 进行全面测试后，我们发现当前模型在多模态融合中的失衡和预训练数据中的偏差是其主要漏洞。我们的分析为多模态学习提供了关键性见解，表明提升跨模态对齐的重要性，并为开发更健全可靠的 LMMs 奠定了基础。

最后，我们提出了未来研究方向，希望能激发更多后续研究，为解决当前多模态模型的挑战提供思路。

更多阅读

# 投稿通道 #

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？ 答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是 最新论文解读 ，也可以是 学术热点剖析 、 科研心得 或 竞赛经验讲解 等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人 原创作品 ，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供 业内具有竞争力稿酬 ，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱： [email protected]

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（ pwbot02 ）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在 「知乎」 也能找到我们了

进入知乎首页搜索 「PaperWeekly」

点击 「关注」 订阅我们的专栏吧