专栏名称: PaperWeekly

PaperWeekly是一个分享知识和交流学问的学术组织，关注的领域是自然语言处理的各个方向。我们热爱知识，分享知识，希望通过我们大家的努力为自然语言处理的发展做出一点点贡献。我们每周会分享一期特定话题的论文笔记和本周值得读的相关论文。

上海AI Lab、天津大学发布MIS数据集，揭示多模态大模型安全微调瓶颈

PaperWeekly · 公众号 · 科研 · 2025-02-11 20:44

正文

引言

在视觉语言模型（VLMs）展现出强大的指令跟随和视觉能力的同时，如何提升模型的安全能力是迈向 AGI 的重要问题。一些工作


      
       [1, 2]

发现通过引入安全相关的外部监督信号对大模型进行微调可以让其在安全相关的 Benchmark 上获得很低的 Attack Success Rate（ASR）。

然而，这些 Fine-Tuning-Based 方法在有用性-无害性的权衡中难以获得平衡，并且在需要更复杂的安全场景下出现了防御失效的现象。我们发现这是因为现有的方法无法提升模型的安全视觉推理能力，导致微调后的模型陷入瓶颈。

为了解决这个难点，我们构建了 Multi-Image Safety（MIS）数据集，包括训练集以提升模型安全相关的视觉感知、推理能力，测试集以评估 VLMs 在多图场景下的安全性。

论文标题：

Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models

论文链接：

https://arxiv.org/pdf/2501.18533

项目主页：

https://dripnowhy.github.io/MIS/

代码链接：

https://github.com/DripNowhy/MIS

数据集链接：

https://huggingface.co/collections/Tuwhy/mis-679ae8748aa3744dfb0d453e

模型链接：

https://huggingface.co/collections/Tuwhy/mirage-679875ff7bb3855234c94b42

安全微调瓶颈

我们发现现有的安全微调方法包括纯文本微调和单图多模态微调，在有用性和安全性的权衡上难以取得平衡，此外在具有挑战性的安全任务（通过无害输入激发模型有害响应）上表现失效。

具体来说，如下表所示，在 MMStar

[3]

，MMMU

[4]

，MMT

[5]

三个通用能力 Benchmark上，纯文本微调（Textual SFT

[6]

）和单图多模态微调（VLGuard

[1]

）在不同模型上都出现了能力下降的问题。

并且，在通过给相同意图的良性文本指令匹配不同安全图片从而构成 Safe 和 Unsafe 场景的 MSSBench 上，现有微调方法表现都十分糟糕。

2.1 分析

单图多模态微调在视觉领域出现了过度保守的现象 ：我们发现 VLGuard 微调后的模型在通用能力上的损失十分严重，并且随着输入图像增多而加剧（单图->单图+多图->多图）。如下表所示，我们给良性文本指令匹配了三种输入格式：（1）安全文本指令+相关图片，（2）安全文本指令+纯白色图片，（3）仅有安全文本指令。

可以发现，只要有图像输入，微调后的模型就倾向于给出拒绝回答，甚至在输入无信息的空白图片时，模型也会给出 “I'm sorry” 开头的拒绝回答，导致了模型过度保守。

提升模型的安全视觉推理能力是突破瓶颈的关键： 我们的实验发现，同样使用 VLGuard 的输入图文对，通过提示 InternVL2.5-78B 进行安全思维链（Safety CoT）思考进行回答并构建微调标签，可以在一定程度上缓解微调方法遇到的瓶颈。

但由于 VLGuard 输入数据过于简单，大多直接含有明显的不安全元素，无法构建复杂高质量的安全视觉推理数据，因此带来的提升较为有限。

2.2 定量展示

如下图（a）（b）所示，MSSBench 通过给相同意图（提升滑板技能）的文本指令，匹配不同的安全图片从而构成 Safe（室外滑板）和 Unsafe（商场环境滑板）场景。而现有的微调方法如 Textual SFT 和 VLGuard，都无法在 MSSBench 上做出令人满意的回复。

Multi-Image Safety

3.1 MIS dataset

为了克服之前提到的瓶颈，我们提出了首个 Multi-Image Safety（MIS）数据集，包含训练集以提升模型安全视觉感知、推理能力，和测试集以评估视觉语言模型在多图场景下的安全能力，总共包含 4k 训练数据和 2185 测试数据。

3.1.1 数据构建

我们的图文对输入数据构建主要分为四个步骤：

1. 有害元素提取： 分别从有害图片和文本中提取有害元素。

2. 文本指令生成、物体提取、毒性去除： 利用 LLM 根据第一步中提取的有害元素生成含有两个物体的有害问题，提取问题中的物体，最终修改问题格式似的文本指令看上去无害。

3. 图片生成： 根据第二步中提取到的物体进行图片生成，在用 VLM 根据生成图片、第二步中的有害问题和两个物体进行物体描述的修正，从而生成与文本指令语境一致的两张图片。

4. 数据过滤、分类： 通过人工过滤去除掉无意义、不合理的、低质量的图文对，再利用 GPT-4o 根据图文的安全性对数据集进行划分。其中文本被分类为不安全的图文对作为训练集，文本安全且图片不安全的座位简单测试集，文本图片都分别安全的作为难测试集，最终得到 4k 训练输入数据，和 2185 测试输入数据。

在 2185 测试数据中，采样了 100 条进行了真实图片搜索，这 100 个样本的图片为现有数据集中的真实图片而非合成图片。

3.1.2 MIS测试集

MIS 测试集总共包含 6 个类别，12 个子类别。下图提供了不同类别的样本。其中 MIS-hard 中文本指令与输入图片都分别安全，而组合在一起时会出现有害意图和风险。如相机和卧室，再被无害的文本关联后就出现了隐私窃取和非法拍摄的风险。

3.2 MIRage

之前验证了通过 Safety CoT 构建微调标签可以一定程度上克服安全微调瓶颈。我们提出了 M ulti- I mage R e a sonin g Saf e ty Fine-Tuning（MIRage），通过提示 InternVL2.5-78B 先进行图片识别（视觉感知），再根据两张图片和文本指示分析其中潜在的安全风险（视觉推理），最终给出安全的回答，从而构建了高质量具有 Safety CoT 的微调标签。

实验

我们的实验主要集中在两个方面：（1）视觉语言模型在 MIS test 上的表现，（2）MIRage 微调后模型的表现。

4.1 实验设置

我们在常见的支持多图输入的 VLM，如 Qwen2-VL，InternVL2.5，Deepseek-VL2，GPT-4o，Gemini-1.5-pro 等模型上进行了实验，并且在 InternVL2.5-8B 和 Qwen2-VL-7B-Instruct 上分别验证了 MIRage 优于现有的安全微调方法。

4.2 MIS test结果

在 MIS test 上的实验结果如下表所示。我们的评价指标为 ASR：成功攻击概率（模型回答不安全），HR：幻觉概率（模型回答不完整 / 含有幻觉），RSR：推理成功概率（模型通过推理给出了安全的回答），RR：拒绝率（模型拒绝回答有害问题）。

开源模型在多图场景下表现出安全性能崩溃。
闭源模型如 GPT-4o 等，也无法很好的给出安全回答。
MIRage 微调后的模型显著提升了多图安全能力。

4.3 MIRage结果

MIRage 通过提升模型的安全视觉感知、推理能力从而提升模型的安全表现，其安全能力在不同的安全相关 Benchmark 上都取得了不错的表现，尤其是在具有挑战的 SIUO 和 MSSBench 上。
即使在不添加通用数据的情况下，MIRage 提升的视觉相关能力使得其对模型的通用能力没有任何负面影响。而添加了 500 条（11%）通用数据后，在 5 个通用能力 benchmark 上平均得到了 0.83% 的提升。

结论

我们提出的 MIS 和 MIRage 提升了视觉语言模型至关重要的安全视觉推理能力，并且指出了现有模型在多图场景下安全能力薄弱的问题。当然，我们只是通过最简单的 Safety CoT 做出了安全视觉推理的初步探索，如何用更加复杂高效的方法提升模型的安全视觉推理能力，从而完全克服安全微调瓶颈是非常有趣的问题。

参考文献

[1] Zong, Yongshuo, et al. 'Safety fine-tuning at (almost) no cost: A baseline for vision large language models.' arXiv preprint arXiv:2402.02207 (2024).

[2] Zhang, Yongting, et al. 'SPA-VL: A Comprehensive Safety Preference Alignment Dataset for Vision Language Model.' arXiv preprint arXiv:2406.12030 (2024).

[3] Chen, Lin, et al. 'Are We on the Right Way for Evaluating Large Vision-Language Models?.' arXiv preprint arXiv:2403.20330 (2024).

[4] Yue, Xiang, et al. 'Mmmu: A massive multi-discipline multimodal understanding and reasoning benchmark for expert agi.' Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

[5] Ying, Kaining, et al. 'Mmt-bench: A comprehensive multimodal benchmark for evaluating large vision-language models towards multitask agi.' arXiv preprint arXiv:2404.16006 (2024).

[6] Hu, Xuhao, et al. 'Vlsbench: Unveiling visual leakage in multimodal safety.' arXiv preprint arXiv:2411.19939 (2024).