本文约2600字,建议阅读10分钟
本文从多样性、图像质量、有效性三个方面评估了通过 AutoHallusion 生成的基准数据集。
本文的共同第一作者是马里兰大学电子计算机工程系的博士生吴曦旸(https://wuxiyang1996.github.io/)和计算机科学系的关天瑞(https://tianruiguan.phd/)。吴曦旸的研究方向主要涵盖强化学习、自动驾驶,以及大语言模型在机器人导航和计算机视觉中的应用。关天瑞的研究则聚焦于计算机视觉和视觉语言模型在机器人、自动驾驶等领域的应用。本文的指导老师为李典奇,周天翼教授(https://tianyizhou.github.io/)和 Dinesh Manocha 教授 (https://www.cs.umd.edu/people/dmanocha)。
想象一下,有一天你在沙漠中看到一个雪人,或者在雪地里发现一棵棕榈树。面对这些与周围环境格格不入的景象,你是否会感到心理上的不适?
在认知科学领域,研究者普遍认为人脑倾向于利用以往的经验来解读观察到的信息并构建记忆。然而,当人脑接收到与以往认知不符的信息时,可能会因为 “认知失调”(Cognitive Dissonance)而对外部环境产生误判,进而在行为上表现出矛盾。例如,我们通常认为电脑是由人类操控的,但如果我们看到一只章鱼在操控电脑,这种不符合常理的场景会让人脑产生认知失调的不适感。
随着对大模型的深入研究,研究人员发现,在认知和推理任务上,大模型的思维过程与人脑有一定相似之处。因此,针对人脑认知失调特点设计的实验也能使大模型出现类似的 “幻觉” 现象。
基于这一观察,马里兰大学的研究团队提出了一个名为 AutoHallusion 的视觉大模型幻觉自动生成框架。这一工作基于团队之前在 CVPR 2024 上发表的工作 HalluionBench(https://arxiv.org/pdf/2310.14566)。它通过在场景图像中插入或删除特定物体,并针对这些修改后的图像提问,从而检测大模型在回答时可能出现的幻觉现象。
这一方法能够自动生成大量的大模型幻觉案例,有效缓解当前大模型幻觉研究中数据集缺乏的问题。在 GPT-4V、Gemini 和 Claude 等大模型上的实验表明,这些模型在本文提出的提出的基准数据集上问答准确率最高仅为 66.0%。该研究成果已发表于 EMNLP 2024。
论文标题:AUTOHALLUSION: Automatic Generation of Hallucination Benchmarks for Vision-Language Models
论文链接:https://arxiv.org/pdf/2406.10900
项目主页及代码:https://wuxiyang1996.github.io/autohallusion_page/
文章概述
大型视觉语言模型(LVLMs)在内容生成、自动驾驶和机器人等领域中扮演着重要角色。然而,它们也会出现 “幻觉” 现象,即生成的响应中包含视觉内容中不存在的信息。这些幻觉通常是由于语言模块过度依赖语言先验信息而忽略视觉输入所致。
为了解决这一问题,之前的工作通常收集幻觉案例建立基准数据集,并以此对大模型进行微调,以减少可能存在的幻觉。然而,手动创建幻觉案例和基准既耗时又昂贵。此外,之前的工作对大模型产生幻觉的机制研究有限,在缺乏足够代表性案例的情况下对大模型进行微调,可能会导致模型出现过拟合现象。
为此,本文提出了 AUTOHALLUSION 框架,可以自动生成各种幻觉案例并进行批量生产。该框架基于认知科学原理,针对大模型产生幻觉的原因,提出了三种主要策略:插入异常物体、插入成对物体和移除相关物体,通过操控场景中的物体构成来创建与语言先验相冲突的图像。
为了生成能够触发大模型幻觉的(图像 - 问题)组合,本文针对修改后的图像,设计相应的问题探测大模型的语言模块,定位特定物体或其在相关情境中的语言先验信息。如果大模型的推理受到语言先验的偏见影响,例如在根据图片回答某一特定物体的问题时,大模型根据场景图片的先验知识而非物体本身传递的信息来作答,那么就可能生成与事实不符或前后不一致的响应,从而导致幻觉现象。
AUTOHALLUSION 在包括 GPT-4V、Gemini、Claude 和 LLaVA 等最新的大模型上进行了实验,并整理发布了一个基准数据集,来评估模型性能。在该基准数据集上的实验结果表明,GPT-4V 等大模型的问答准确率最高仅为 66.0%。
数据集地址:https://github.com/wuxiyang1996/AutoHallusion
研究方法
AUTOHALLUSION 的整体流程分为四个部分:
1. 场景生成:AUTOHALLUSION 使用合成或真实世界图像作为场景图。例如,在办公室场景中,假设场景中有电脑、办公桌、办公椅等与办公室主题一致的物体,而不会有炒锅等与主题无关的物体。图像可以通过 DALL-E 等图像生成模型根据提示生成,也可以从 MSCOCO 等公开数据集中提取场景。
2. 图像处理:AUTOHALLUSION 采用三种策略操控场景中的物体构成,以创建与语言先验相冲突的图像:
插入异常物体:将与场景主题不相关的异常物体添加到场景中,例如,在办公室场景中添加通常不会出现的炒锅。
插入成对物体:对通常一起出现的两个物体进行分离,保留一个并移除另一个。例如,牙刷和牙膏通常一起出现,而在修改后的图像中,只保留牙刷并移除牙膏。
移除相关物体:从原场景中移除一个相关物体,例如,在办公室场景中抹除显示器。
3. 构造问题:AUTOHALLUSION 针对图像处理过程中插入或删除的物体进行提问,并相应地构造事实信息。问题主要分为两类:
4. 幻觉检测:AUTOHALLUSION 通过对比大模型的回答与事实信息或其他回答,来判断其回答中是否存在幻觉。目前,AUTOHALLUSION 能够检测以下两种类型的大模型幻觉:
实验结果
下表展示了通过 AutoHallusion 生成的大模型幻觉案例的成功率,结果显示出以下几个主要发现:
下图展示了针对物体 - 场景对齐关系的消融实验结果。在该实验中,本文采用不同的大模型来生成用于图像编辑的物体,并在视觉问答(VQA)任务中进行评估。
基准数据集指标
本文从以下三个方面评估了通过 AutoHallusion 生成的基准数据集:
多样性:衡量数据集中不同场景和对象的数量,包括 200 个(合成)/160 个(真实世界)样本。
图像质量:通过原始图像和编辑图像的 IS(Inception Score)分数,以及原始图像与编辑图像之间的 Frechet Inception Distance (FID) 距离来评估。
有效性:通过每个样本中引发幻觉的平均问题数量来衡量。
下表展示了 GPT-4V、Gemini、Claude 和 LLaVA 等大模型在通过 AutoHallusion 生成的基准数据集上的表现。
数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU