本文约3000字 ,建议阅读10+分钟
本文作者发现对抗攻击会导致文本引导注意力的偏移。
Text-Guided Attention is All You Need for Zero-Shot Robustness in Vision-Language Models
余璐(天津理工大学),章海洋(天津理工大学),徐常胜(中科院自动化所)
https://arxiv.org/abs/2410.21802
https://github.com/zhyblue424/TGA-ZSR
一、前言概要
大规模预训练的视觉-语言模型(Pre-trained Vision-Language Models, VLMs)已经在人工智能领域展现了卓越的成功,这些模型通过融合视觉和文本数据,能够理解复杂的多模态信息。以 CLIP 模型为例,它证明了利用大型数据集进行预训练可以在多种跨模态任务中取得优越的性能。
然而,研究表明 CLIP 对于对抗攻击生成的对抗示例较为脆弱,可能导致错误分类或改变模型输出,这对下游任务的应用造成严重影响。随着视觉-语言模型在现实中的广泛应用,理解和缓解这种威胁对于保持人工智能系统的可靠性是至关重要的。
传统的提升模型对抗鲁棒性的方法通常依赖于对抗示例的生成,并通过这些样本对模型进行再训练以提高其对抗鲁棒性。这种方法面临两个主要挑战:一是需要访问原始数据以生成对抗示例;二是对抗示例的生成过程往往需要大量的计算资源。
因此,探索零样本对抗鲁棒性是一个潜在的研究方向,旨在提升模型鲁棒性的同时,无需直接访问原始数据或消耗大量资源生成对抗示例。而先前的研究未能利用视觉-语言模型中丰富的文本信息,从而限制了模型性能的进一步提升,并且在解释对抗攻击对模型鲁棒性的影响方面存在不足。
针对上述问题,作者首先通过比较对抗示例与干净示例的文本引导注意力图(text-guided attention maps),揭示了一个关键现象:尽管人眼难以区分两种示例,但它们的文本引导注意力图却显示出显著差异。
基于这一现象,作者提出了基于文本引导注意力的方法——Text-Guided Attention for Zero-Shot Robustness(TGA-ZSR),利用文本信息增强模型的对抗鲁棒性。
论文贡献总结如下:
首次引入文本引导注意力机制:
创新性地引入文本引导注意力机制,以增强视觉-语言模型的零样本对抗鲁棒性,同时保持在干净示例上的高性能表现。
提升可解释性:
通过文本引导的注意力机制,显著提高了对抗攻击在视觉-语言模型上零样本鲁棒性的可解释性,揭示了对抗示例与干净示例之间细微但关键的区别。
实验验证与新基准:
实验结果显示,TGA-ZSR 超越了先前的方法,在模型的零样本对抗鲁棒性上建立了新的性能基准。
二、研究内容
作者首先通过获取对抗示例与干净示例的文本引导注意力图(text-guided attention maps),揭示了一个关键现象:尽管从视觉上看,两种示例难以区分,但它们的文本引导注意力图却显示出显著的差异。
具体观察发现,对抗示例的文本引导注意力发生了明显变化,表现为注意力向其他物体或背景偏移,甚至在某些情况下出现了注意力消失的现象。
▲ 图 1: 对抗示例与干净示例及其对应的注意力图
基于这一现象,作者提出了基于文本引导注意力的方法 —— Text-Guided Attention for Zero-Shot Robustness(TGA-ZSR),旨在充分利用文本引导的注意力图来提升模型的对抗鲁棒性,同时保持在干净示例上的高性能。TGA-ZSR 的总体框架图如下所示:
▲ 图 2: TGA-ZSR 总体框架
具体而言,主要的组件包含:
1. 注意力精炼模块 (Attention Refinement Module),
该模块专门设计用于校正对抗示例的文本引导注意力,这种注意力的偏差常常导致预测结果的改变。通过将对抗示例的注意力图与干净示例的注意力图对齐,该模块确保对抗示例能够获得与干净示例同样准确的注意力分布。这一简单而有效的策略有效地减轻了对抗扰动对于模型性能的影响。
具体步骤如下:首先,将对抗示例
输入目标模型
,并将干净示例
输入原始模型
,从而分别获得对抗示例的注意力图
和干净示例的注意力图
。最后,注意力精炼损失
定义为:
2. 基于注意力的模型约束模块(Attention-based Model Constraint Module),
虽然注意力精炼模块提升了模型的对抗鲁棒性,但可能会因为参数的变化而导致干净示例的准确性发生下降。为了保持视觉-语言模型的泛化能力,作者引入了基于注意力的模型约束模块。该模块的目标是避免干净图像性能下降,以确保模型的整体有效性和可靠性。
具体来说,将干净示例
同时输入目标模型
和原始模型
,分别获得两种文本引导的注意力图
和
。为了避免与干净示例相关的重要参数发生变化,作者在两个注意力图之间施加了约束,该损失
定义为:
因此,最终的损失函数综合了交叉熵损失
、注意力精炼损失
和基于注意力的模型约束损失
: