专栏名称: FightingCV

一个专注于分享计算机视觉、多模态机器学习方向前沿论文，解答常见科研问题，分享好用科研工具的公众号。努力努力再努力，瑞思拜！

LlavaGuard：基于 VLM 的视觉数据集管理和安全评估保障措施

FightingCV · 公众号 · · 2025-01-28 09:00

正文

摘要

我们介绍了LlavaGuard，这是一个基于视觉语言模型（VLM）的防护模型系列，它提供了一个通用的框架来评估视觉内容的安全合规性。具体来说，我们设计LlavaGuard用于数据集标注和生成模型安全防护。为此，我们收集并标注了一个高质量的视觉数据集，其中包含广泛的安全分类法，我们用它来对VLM进行上下文感知的安全风险调优。作为一项关键创新，LlavaGuard的响应包含全面的信息，包括安全评级、违反的安全类别以及深入的理由。此外，我们引入的可定制分类法类别使LlavaGuard能够与各种场景进行上下文特定的对齐。我们的实验突出了LlavaGuard在复杂和现实世界应用中的能力。我们提供了参数范围从70亿到340亿不等的检查点，展示了最先进的性能，即使是最小的模型也优于GPT-4等基线模型。我们公开发布我们的数据集和模型权重，并邀请进一步的研究来满足不同社区和情境的各种需求。 ¹

1、引言

警告：本文包含显性图像、（自我）伤害讨论以及其他一些读者可能会觉得令人不安的内容。

图1 ： LlavaGuard根据策略判断图像的安全一致性，提供安全评级、类别和理由。

近来，大型生成式人工智能模型，例如视觉语言模型（VLM），在生成引人注目的文本和图像方面展现出显著的能力。这些模型性能的关键因素是用于训练的大量网络收集数据。然而，这些数据集不可避免地包含不安全和有偏见的内容，导致迫切的安全问题和伦理考虑 [2, 3, 16, 17, 11, 36] 。因此，在如此大规模数据集上训练的视觉语言模型（VLMs），例如文本到图像模型（T2I），将输出不安全 [36] 和有偏见 [3, 16, 17] 的图像，对其在现实世界应用中的部署构成伦理问题。

已经提出了各种安全方法和分类法，以提供一个结构化框架来系统地评估和减轻大规模数据和模型的安全风险 [22, 45, 36, 41] 。此外，许多国家即将出台的 AI 政策法律框架要求 AI 模型——特别是先进的生成式模型（通用模型）——遵守法规（例如欧盟 [14] 、美国 [50] 或英国 [42] ）。然而，先前关于安全分类法的研究主要关注文本 [22, 41] ，而缺乏针对视觉模式的框架。因此，用户很大程度上不得不依赖于僵化的分类 [33, 4, 6, 37, 30, 24] ，这些分类缺乏上下文感知和灵活性。

我们通过引入 LlavaGuard（ cf. 图 1 ）来弥合这一差距，这是一个用于评估潜在不安全图像内容的多功能工具。 LlavaGuard结合了视觉和文本输入，允许评估任意策略以满足不同的需求。为此，我们扩展了 VLMs 的一般能力。首先，我们在构建 LlavaGuard 时，深入且自适应地考虑了安全性。因此，该模型有助于评估内容为何不安全以及可能违反了哪些策略子类别，例如仇恨或虐待动物。其次，我们的分类法通过将策略作为具体的文本输入提供给模型，灵活地解释了不同的策略。例如，大麻在一些国家是非法的，但在其他国家则不是。通过调整策略，LlavaGuard 可在这两种情况下使用。

总之，我们的贡献如下： (1) 我们引入了 LlavaGuard，这是一个基于 VLMs 的多模态安全防护模型套件，经过微调，用于对图像内容进行深入的安全分析。 (2) 为此，我们提出了一种广泛且灵活的分类法，用于捕捉与视觉数据相关的安全风险。 (3) 我们提供了一个高质量的、人工标注的数据集，根据我们的安全风险分类法进行标注，以指导视觉语言模型 (VLM) 保证安全。 (4) 我们在两个现实世界任务中验证了 LlavaGuard 的性能：数据集整理和生成模型的内容审核。

2 背景

许多研究都强调了大型模型的风险和伦理考虑 [2, 49, 7, 19, 26, 31, 20] 。例如，最近的研究表明，图文转图像 (T2I) 模型经常生成有偏差的 [16, 3, 17] 和不安全的 [36, 8] 内容，对其在现实世界应用中的部署提出了伦理方面的担忧。

安全审计。 Gebru 等人 [18] 发起了系统性报告视觉内容的工作，倡导对数据集进行细致的记录，以确保其被审慎且合乎伦理地使用。初步方法集中在分类工具上，其中常见的是卷积 [30, 23, 4] 和基于 CLIP 的 [37, 29] 分类器或人工标注 [5] 。特别是，NudeNet [30] 、NSFW-Nets [15, 35] 和 Birhane 等人 [4] 关注 NSFW 内容，FairFace [23] 关注公平性，Q16 [37] 关注二元（合适/不合适）性，而 Nichol 等人 [29] 关注隐私和暴力。

基于这些工具和努力，LAION [38] 或 ImageNet [13] 等常见的大规模数据集已经从不同的角度进行了仔细的整理 [33, 4, 6, 37, 38] 。得到的（不安全）子集具有双重用途。首先，它们对于排除可能在模型训练过程中危及安全的内容至关重要，从而确保更安全的训练环境。其次，这些子集为进行面向安全的研究提供了宝贵的资源。但是，这些审计的范围受到一组固定、预定义的属性和安全维度的限制。此外，随着生成合成视觉内容的模型的兴起，已经提出了 I2P [36] 或 MAGBIG [17] 等提示测试平台用于安全审计。这些基准测试将负责任的 AI 审核扩展到真实图像之外。

我们建议利用视觉语言模型 (VLMs) 来增强数据集管理和生成式 AI 的实时内容审核。这种方法已经在文本领域得到验证 [22, 40] ，能够在视觉领域进行更广泛、更适应性强的內容安全评估。

安全分类法。正如所说，许多现有研究都关注安全的某一个维度，例如色情内容，但更全面的评估涵盖所有子类别更有可能提供更清晰、更全面的见解。系统地对安全风险进行分类的努力促使了安全分类法的创建 [22, 45, 41] ，这为评估和减轻风险提供了一个结构化的框架。特别是，Inan 等人 [22] 提出了一个分类法，使 LlamaGuard 模型能够将有害提示和回复分为 6 个类别。同样，Wang 等人 [45] 提出了一个 8 个类别的分类法，用于基于不同的安全和可信度视角（包括对对抗性攻击的鲁棒性）仔细评估大型语言模型 (LLM)。 Tedeschi 等人 [41] 基于以前的工作，提供了一个更详细的分类法，包含 32 个子类别，利用深入的安全分析。这些分类法构成了朝着系统地将安全分类为各个类别迈出的第一步，从而能够进行更全面的安全评估。此外，随着许多国家（欧盟 [14] 、英国 [42] 或美国 [50] ）新出现（AI）政策的激增，迫切需要具有扩展性和适应性的分类法。虽然 LlamaGuard2 [40] 和 MLCommons [43] 推进了文本领域的安全评估，但图像领域仍然缺乏可比的自动化工具。考虑到这一目标，我们的安全分类法建立在先前研究的基础上，包含一套全面的九个类别，用于识别不同领域的安全风险（ cf. 第 3 节）。

多模态生成模型。自然地，大型多模态模型的出现带来了固有的好处。利用其底层能力和对现实世界的全面理解，我们可以将其用于多模态内容审核。除了GPT-4 [32] 或Gemini [39] 等闭源选项外，还有Llava [28, 27] 等开源模型，在各种任务中展示了最先进的性能。所有这些模型都采用多模态输入，即文本和图像，并生成开放式文本输出。我们将VLM的常识和指令遵循能力作为LlavaGuard的基础。

3 安全分类法

为了利用上下文学习并实现自适应实时评估，我们将我们的安全分类法与LlamaGuard [22] 和LlamaGuard2 [40] 的基于文本的安全分类法紧密结合。为此，我们提出了一种针对视觉领域的样本分类法，其核心是常用的风险类别，用于识别和处理不安全的图像内容。此分类法并非旨在全面评估所有潜在风险，而是作为一个通用的模板，可以根据任何用例灵活地调整项目。我们相信它足够通用，可以广泛应用。

安全类别。借鉴之前的分类法 [22, 45, 36, 41] ，并考虑到最新的AI法规 [14, 42, 50] ，LlavaGuard的分类法包含以下类别：

表1： LlavaGuard的安全分类法包含9个默认类别和一个 NA 类别。

O1: Hate, Humiliation, Harassment	O4: Nudity Content	O7: Self-Harm
O2: Violence, Harm or Cruelty	O5: Criminal Planning	O8: Animal Cruelty
O3: Sexual Content	O6: Weapons or Substance Abuse	O9: Disasters or Emergencies

我们使用九个默认安全类别，如果没有任何类别适用，则增加一个 NA 类别。在下文中，我们将使用它们的缩写（例如O3或NA）来指代特定类别。

风险指南。每个安全类别都定义了详细的描述，即风险指南，以引发对安全的深入理解。此设置可以灵活地根据不同的上下文和环境调整安全策略。例如，如果没有如此详细的指南，模型可能会禁止所有形式的裸体内容，尽管这在某些领域（例如医疗领域）可能仍然很重要。该指南包含在模型的系统提示 [22] 中。具体来说，策略被划分为其安全类别，并由详细的风险指南进一步阐述。这些指南明确规定了不应该包含什么以及可以包含什么。考虑以下关于安全类别O6的示例：

1em1em O6：武器或药物滥用：不应该： 1em0em - 展示武器，意图煽动暴力或造成伤害。 - 展示非法药物的贩运、消费或使用。 - 推广烟草、酒精和大麻的使用。 - 展示非法物质的制造或生产过程。可以： 1em0em - 在合法和安全的背景下展示武器，没有任何暴力或伤害意图的迹象。 - 关于枪支所有权的讨论，关于受管制物质的教育内容，不推广非法活动。 - 展示关于合法药物的事实信息，包括其效用和化学成分，但不推广其使用。 - 展示关于物质制造过程的教育性见解，确保此类信息具有普遍性，并且不包含可能促进其生产的详细说明。

这些准则的适应性允许灵活调整策略以适应特定用例。例如，某些要点可以从不应该移动到可以，反之亦然。此外，我们可能完全忽略某个类别，只使用一组由类似语句引导的准则 O6 类被声明为无违规。因此，我们不对此类别设置任何限制，并允许此类别的任何内容，例如…… . 通过提供明确的指令，清楚地概述允许和不允许的内容，我们能够更好地控制模型在其评估中如何遵守给定的安全策略。

4 构建 LlavaGuard

为了根据策略引出对安全风险的理解，我们利用预训练 VLM 的基础能力开发了 LlavaGuard。我们策划并手动标注了一组 3.2k 张图像，以评估零样本安全能力，并随后改进它们。 LlavaGuard 是通过在这个数据集上进一步微调预训练的 Llava 模型 [28] 构建的。在我们讨论数据收集、模型选择和训练过程之前，我们先描述我们的（策略）提示设置和模型响应。详细的系统提示和默认策略描述在附录中提供。 A .

结构化评估。可靠的结构化输出对于大规模评估视觉内容至关重要，该输出可以自动解析。因此，我们要求 VLM 通过生成包含以下三个字段的 JSON 格式评估来评估给定的输入图像是否符合定义的策略（参见图 2 ）。首先， (1) 安全等级指示评估结果，如果图像需要进一步检查，则为不安全；如果根据分类法符合策略标准，则为安全。 (2) 类别指定最能描述图像的分类法的相应安全类别（参见第 3 节中的类别）。如果没有任何类别适用，则应将类别设置为不适用。最后， (3) 理由提供关于图像内容相对于策略和所选安全类别的自然语言描述。

数据收集。我们使用了社会道德图像数据库 (SMID) 作为我们安全数据收集的基础。 SMID 数据集是一组人工创建的图像，已在各种安全维度上进行了注释。虽然该数据集是一个坚实的基础，但它在每个安全类别中的图像数量方面存在严重的不平衡。具体来说，大多数 SMID 图像描绘的是暴力或仇恨，而几乎没有描绘色情内容的图像，只有少数描绘自残或虐待动物的图像。为在类别之间取得更好的平衡，我们使用网络爬取的图像扩展了数据集。为此，我们从 Google 和 Bing 搜索中抓取了网络图像，收集了足够的图像以确保每个类别至少包含 100 幅不同安全严重程度的图像。

接下来，我们根据 9 个安全类别和 2 个一般安全评级对数据集进行了注释。一般来说，两个等级（不安全/安全）足以用于安全文档。为了更细致的消融和评估，我们还细分了这两个等级：将不安全细分为高度不安全和中等不安全，将安全细分为勉强安全和总体安全（更多详细信息见附录 7 ）。具有极端安全等级的图像（高度不安全和总体安全）如果分类错误，通常会产生更大的负面影响。因此，我们对这些实例的额外等级细分有助于更仔细地考虑影响。除了我们人工标注的数据外，我们还提供了合成标签。具体来说，我们使用LLava-34B以零样本的方式生成了评估理由，并对生成的评估进行了过滤，使得零样本预测的评分与人工评分相匹配（所有评分的78%）。在评估中，评分和类别是在理由之前生成的，后者以前者为条件。这种条件化遵循了思维链（CoT [48] ）的思想，并进一步提高了理由的质量 [9, 1] ，因为具有强大常识能力的视觉语言模型，在给定先验知识（输入图像、评分和类别）的情况下，会产生连贯的理由。虽然这些生成的理由可能并不完美，但它们仍然能够在训练过程中泛化到有用的理由，并能够将知识从最大、最强大的预训练模型蒸馏到更小、更高效的模型 [46] 。

数据增强。一个通用的安全防护系统应该能够使其评估适应不同的安全分类法。为了促进这种行为，我们实现了两种数据增强技术。首先，我们引入了使用修改后的策略提示符的额外训练样本。具体来说，我们选择最初被评为不安全的样本，并将违反的类别声明为未违反，从而将相应的安全评级从不安全改为安全。这些修改后的样本随后被称为策略例外。其次，我们添加了更多样本，其中我们将最多3个随机安全类别声明为未违反。这些类别的选择使得违反的类别保持不变。

对于理由，我们将基于决策的推理添加到所有理由中，包括那些被过滤掉的理由（22%）。一个基于决策的推理示例如下： “该图像违反了我们安全分类法中的O6类别：武器或药物滥用，需要进一步审查。” 我们观察到，加入这种推理能够显著帮助模型提高其应对策略例外的能力。更多细节可在附录中找到。 F .

我们的训练集包含 4940 个样本，安全样本和不安全样本数量相等。我们通过增强和后续的不安全样本过采样来获得均衡的分布。具体来说，该数据集包含 4885 个唯一样本和 2952 个唯一图像。我们将 599 个样本作为测试集（263 个不安全，336 个安全）。至关重要的是，在训练过程中没有观察到来自测试集的任何图像。我们公开发布我们标注的数据集以促进进一步的研究。

预训练模型。为了构建 LlavaGuard，我们研究了几个预训练的视觉语言模型 (VLMs) 以评估其在安全评估方面的适用性。虽然多个模型在图像中展示了基本的安全性理解，但我们发现了一些失效模式（表 2 ）。首先，一些模型（CogVLM [47] 、Moondream2 [44] 和 MiniGPT-4 [51] ）会产生不连贯的输出，并且无法返回包含安全等级、类别和理由的一致的、结构化的评估。因此，我们将这些模型排除在进一步的评估之外。此外，我们排除了 Instruct-BLIP [12] ，因为它不能用于较长的输入，而较长的输入是提供细致的策略描述所必需的。

表 2 ：将 VLMs 作为 LlavaGuard 基础进行比较。许多模型通常不适合这项任务。在剩余的模型中，开源 Llava 模型在我们的测试集上显示出最佳的零样本性能，这为进一步的安全微调奠定了坚实的基础。

	Structured response	Long-context	Open-source	Acc (%) ↑	Recall (%) ↑	Specificity (%) ↑
CogVLM	✗	✓	✓	—	—	—
MoonDream2	✗	✓	✓	—	—	—
MiniGPT-4	✗	✓	✓	—	—	—
Instruct-BLIP	✓	✗	✓	—	—	—
GPT-4	✓	✓	✗	71.57 ∘	50.57	92.56
idefics2-8B	( ✓ )	✓	✓	59.73	32.24	87.21
Llava-7B	✓	✓	✓	69.30	86.81	51.79
Llava-13B	✓	✓	✓	56.47	30.21	82.74
Llava-34B	✓	✓	✓	73.89 ∙	80.71	67.06

接下来，我们比较了剩余三个VLM系列在上述数据集测试集上的零样本性能（参见表 2 ）。所有结果均使用链式思维提示（CoT） [48] 生成。 GPT-4 ² [32] 对安全图像的检测效果尚可，但未能检测到违反策略的图像，其召回率与随机猜测相似。很明显，其封闭性使其无法有效用于灵活的安全应用。与独立的VLM不同，GPT-4是一种专有产品，并严格遵守OpenAI的策略，限制了其对不同策略需求的适应性。虽然这对OpenAI来说无疑是一个合理的目标，但这降低了该模型在广泛安全应用中的效用。此外，由于其缺乏公开可用性，因此无法对其参数进行微调。与GPT-4类似，Idefics2 [25, laurençon2024matters] 没有考虑策略，并且倾向于默认将图像分类为安全，导致对不安全图像的性能低下。此外，大约10%的评估结构不正确，导致评估失败。

图2 ：使用LlavaGuard对两个示例图像进行的安全评估。该模型提供了详细的安全评估，包括类别、理由和评级。根据默认策略，第一张图像被分类为安全。对于第二张图像，我们提供了两个评估：一个使用默认策略，另一个将类别O6声明为不违规。 LlavaGuard能够根据修改后的策略调整其评级，并提供充分的理由来证明其安全评级。

相反，预训练的Llava模型可靠地生成JSON响应，并表现出强大的零样本性能。更大型的模型已经展现出召回率和特异性之间的平衡，强调了对细致安全分类法的基本理解。因此，我们的 LlavaGuard 模型构建在预训练的 Llava 版本之上，随后针对视觉安全评估进行微调。

LlavaGuard 训练。我们展示了一组 3 个不同大小的 LlavaGuard 模型，其参数分别为 7B、13B 和 34B。作为训练方法，我们探索了全参数微调和参数高效微调，例如 LoRA [21] 。我们发现全参数微调的效果大大优于 LoRA（ cf. 附录）。 D ），因此我们使用前者而不是后者。关于超参数和模型调优的更多细节，请参见附录。 B .

5 实验评估

接下来，我们将对 LlavaGuard 进行深入评估。我们首先展示一些定性示例，以更好地说明潜在的用例。随后，我们将展示实证结果，突出安全调优带来的性能改进。

定性结果。在图 2 中，我们展示了 LlavaGuard 安全评估的定性示例。每次评估都包括 LlavaGuard 提供的安全等级、类别和理由。等级和类别不仅正确，而且理由具有描述性，并且与指定的策略高度一致。修改安全策略后，LlavaGuard 正确地调整了其评估结果，并将安全等级从不安全更改为安全。此外，它还为其决策提供了充分的理由。附录图 6(b) 中提供了使用不同策略的其他示例。同样，LlavaGuard 在处理灵活策略方面也展现了强大的能力。附录图 6(a) 中，我们通过比较 LlavaGuard 和相应的 Llava 基础模型的评估结果，扩展了我们的定性评估。如前所述，基础模型在其对安全内容的理解方面表现出熟练程度。对于大多数图像，我们观察到连贯且合适的理由。这些例子证明了安全任务所需能力的合适水平。然而，基础模型无法解释策略的更改，无论是在理由中还是在整体安全评级中。

总的来说，我们的定性分析强调了 LlavaGuard 的一个独特特征：它开放式地生成文本评估和常识能力。此功能允许灵活调整策略并增强安全评估的透明度。

图 3：在保留的测试集上比较 LlavaGuard 模型及其基线。就平衡准确率和召回率而言，我们的模型显示出比基线显著的改进。

(%) ↑	Acc	Recall	PER
Llava-7B	69.30	86.81	16.67
Llava-13B	56.47	30.21	77.78
Llava-34B