专栏名称: 深度学习与图网络

关注图网络、图表示学习，最近顶会顶刊动态以及机器学习基本方法，包括无监督学习、半监督学习、弱监督学习、元学习等

KDD25 | 大语言模型能否提高图神经网络的对抗鲁棒性？

深度学习与图网络 · 公众号 · · 2025-01-01 09:02

正文

Can Large Language Models Improve the Adversarial Robustness of Graph NeuralNetworks?

作者： 张中健，王啸，周辉池，于越，张梦玫，杨成，石川

单位： 北京邮电大学，北京航空航天大学，帝国理工学院，中国电信翼支付

摘要： 图神经网络（Graph Neural Networks, GNNs）对对抗攻击，尤其是针对图结构的扰动，具有较高的脆弱性。近年来，许多增强GNNs鲁棒性的方法得到了广泛关注。同时，我们也见证了大语言模型（Large Language Models, LLMs）的显著成功，这使得许多人开始探索LLMs在GNNs领域的潜力。然而，现有研究主要聚焦于通过LLMs提升节点特征，从而改进GNNs的性能。因此，我们提出一个问题： LLMs强大的理解和推理能力能否同样提升GNNs的鲁棒性？ 通过实证结果，我们发现尽管LLMs确实可以在一定程度上提高GNNs的鲁棒性，但在面对拓扑攻击时，GNNs的准确率仍然平均下降了23.1%，这表明GNNs在拓扑攻击下依然非常脆弱。因此，我们进一步提出另一个问题： 如何扩展LLMs在图对抗鲁棒性上的能力？ 为了解决这一问题，本文提出了一种基于LLMs的鲁棒图结构推理框架——LLM4RGNN。该框架将GPT-4的推理能力蒸馏至一个局部的LLM，用于识别恶意边，同时使用一个基于语言模型的边预测器来寻找缺失的重要边，以恢复鲁棒的图结构。大量实验表明，LLM4RGNN在不同的GNNs上都能持续提升其鲁棒性。即使在扰动比例高达40%的一些情况下，GNNs的准确率甚至优于其在干净图上的表现。

1. 背景与动机

GNNs 作为图机器学习领域的代表方法，通过其消息传递机制高效提取有用信息，并从图数据中学习高质量表示。尽管取得了巨大成功，大量研究表明，GNN对对抗攻击极为脆弱，特别是针对图结构的攻击，仅需对图结构进行轻微扰动，就可能导致模型性能显著下降。这种脆弱性为GNNs在真实世界中的应用带来了重大挑战，尤其是在安全关键场景中，例如金融网络或医疗网络。

面对对抗攻击的威胁，研究者提出了多种增强GNN鲁棒性的方法，主要可分为模型中心的防御方法和数据中心的防御方法。从模型中心的视角来看，防御方法可以通过鲁棒训练方案或新的模型架构来提升模型的鲁棒性。相比之下，以数据为中心的防御方法通常关注于灵活的数据处理，以增强GNNs的鲁棒性。这类方法将被攻击的图结构视为噪声，通过计算节点嵌入之间的各种相似性来净化图结构。上述方法在增强GNNs鲁棒性方面都得到了广泛关注。

近年来，如以GPT-4为代表的LLMs在理解和推理复杂文本方面展现出了卓越的能力，革新了自然语言处理、计算机视觉和图领域。通过利用LLMs增强节点特征，GNN的性能得到了极大的提升。然而，一个问题仍然未被深入研究： 考虑到LLMs强大的理解和推理能力，LLMs是否会在一定程度上增强或削弱GNNs的对抗鲁棒性？ 回答这一问题不仅有助于探索LLMs在图领域的潜在能力，还能为图对抗鲁棒性问题提供新的研究视角。

本文通过实证研究，考察了六种代表性的LLMs+GNNs的方法（OFA-Llama2-7B、OFA-SBert、TAPE、GCN-Llama-7B、GCN-e5-large和GCN-SBert）在Cora和PubMed数据集上，针对20%扰动率的Mettack的鲁棒性表现。如图1所示，结果显示这些模型的准确率最高下降37.9%，平均下降23.1%，对比Vanilla GCN的准确率最高下降39.1%，平均下降35.5%。这表明这些模型在面对拓扑扰动时仍然非常脆弱。因此，这里自然引出了另一个问题： 如何扩展LLMs的能力以提高图对抗鲁棒性？ 回答这个问题并不简单，因为图对抗攻击通常通过扰动图结构实现，而LLMs的能力通常集中在文本处理上。考虑到图结构涉及大量节点之间的复杂交互，如何高效利用LLMs在扰动结构上的推理能力是一个重要的挑战。

图1：不同LLMs+GNNs针对扰动率为20%的Mettack的准确性。

为此，本文提出了一种基于LLMs的鲁棒图结构推理框架LLM4RGNN，该框架高效利用LLMs净化被扰动的图结构，从而提高GNNs的对抗鲁棒性。具体而言，在一个开源且干净的图结构基础上，我们设计了一个提示模板，使GPT-4能够推断边的恶意程度并提供分析，来构建一个指令数据集。该数据集用于微调一个本地LLM（如Mistral-7B），从而将GPT-4的推理能力蒸馏至本地LLMs。当面对未知的被攻击的图结构时，我们首先利用本地LLMs识别恶意边。通过将识别结果视为边的标签，我们进一步将本地LLMs的推理能力蒸馏至一个基于语言模型的边预测器中，以寻找缺失的重要边。最后，通过移除恶意边并添加缺失的重要边来净化图结构，使各种GNNs更加鲁棒。我们的贡献可以总结为以下四点：

据我们所知，本文是首次探索LLMs在图对抗鲁棒性上的潜力。此外，我们也验证了现有LLMs+GNNs的方法即便结合了LLMs强大的理解和推理能力，面对对抗攻击仍然非常脆弱。
我们提出了一种新颖的基于LLMs的鲁棒图结构推断框架LLM4RGNN，该框架高效利用LLMs增强GNNs鲁棒性。此外，LLM4RGNN是一个通用框架，适用于不同的LLMs和GNNs。
大量实验表明，LLM4RGNN面对拓扑攻击时一致地提高了各种GNNs的鲁棒性。即使在扰动率高达40%的一些情况下，采用LLM4RGNN的GNNs的准确率甚至优于在干净图上的表现。
我们利用GPT-4构建了一个指令数据集，包括GPT-4对26,518条边的恶意性评估及分析。该数据集将被公开发布，可用于微调其它LLMs，使其具备GPT-4的鲁棒图结构推理能力。

2. 符号与预备知识

2.1. 文本属性图（Text-attributed Graphs, TAGs）

本文中，一个文本属性图（TAG）定义为带有节点级文本信息的图，其中、和分别表示节点集、边集和文本集。图的邻接矩阵记为，其中当节点与相连时，，否则。本文重点研究TAGs上的节点分类任务。具体来说，每个节点对应一个标签，表示节点所属的类别。通常，我们通过一些嵌入技术将文本集编码为节点特征矩阵，其中，以用于训练GNNs。在给定部分已标记节点的情况下，目标是训练一个GNN模型，以预测其余未标记节点的标签。

2.2. 图的对抗鲁棒性

本文主要关注更强的投毒攻击，这种攻击通过直接投毒训练数据可以导致模型性能极低。针对投毒攻击的对抗鲁棒性的形式化定义如下：

其中，表示对图的扰动，包括对节点特征的修改、边的插入或删除等；表示所有允许的有效扰动；是目标集合的节点标签；表示GNN的训练损失；是模型的参数。上述公式表明在坏扰动下，模型的对抗鲁棒性由其在目标集合上的表现决定。较小的损失值表明更强的对抗鲁棒性，即更好的模型性能。本文主要研究两种拓扑攻击下的鲁棒性：（1）有目标攻击，攻击者通过操控特定节点的相邻边以误导模型对的预测，此时；（2）非目标攻击，攻击者旨在降低GNNs的整体性能，而不关心具体目标节点，此时，其中表示测试集节点。

3. LLM4RGNN的实现

在本节中，我们提出了一种基于大语言模型的鲁棒图结构推理框架LLM4RGNN。如图2所示，LLM4RGNN包含三个主要部分：(a) 对本地LLMs进行指令微调，将GPT-4的推断能力蒸馏到一个本地LLM，用于识别恶意边；(b) 训练基于语言模型的边预测器，将本地LLMs的推理能力进一步蒸馏到边预测器中，以寻找缺失的重要边；(c) 净化图结构，通过移除恶意边并添加缺失的重要边，使各种GNNs更鲁棒。

图2: LLM4RGNN的总体框架。

3.1. 指令微调本地LLMs

对于受攻击的图结构，一种直接的方法是查询功能强大的GPT-4以识别图中的恶意边。然而，这种方法的代价非常高昂，因为图中存在种不同的扰动边。例如，对于包含19,717个节点的PubMed数据集，请求GPT-4的最坏成本约为972万美元。因此，我们希望通过将GPT-4的推断能力蒸馏到本地LLM中来识别恶意边。为此，基于GPT-4的指令微调是一种流行的微调技术，通过GPT-4构建指令数据集，并以有监督方式进一步微调本地LLM。指令数据集通常由（instruction，input，output）的实例组成，其中instruction表示针对LLMs的任务定义（以自然语言描述），input是指令的补充内容，output表示符合指令的期望结果。因此，关键在于如何构建一个有效的指令数据集，以微调LLM识别恶意边。

在图2 (a)的本地LLM微调阶段中，基于一个开源且干净的图结构（来自TAPE-Arxiv23），我们利用现有攻击方法（Mettack、Nettack和Minmax）生成扰动后的图结构，从而得到修改矩阵，定义如下：

其中，当节点和之间的边被添加时，；反之，若边被移除，则；若边未被修改，则。这里，添加的边被视为负边集，即恶意边集；而移除的边被视为正边集，即重要边集。由于攻击方法倾向于添加边而非移除边，为了平衡和，我们从原始中随机抽取一定数量的干净边加入。通过和，我们构建用于请求GPT-4的查询边集。

接下来，基于，我们以开放式方式查询GPT-4，包括提示GPT-4预测边的恶意程度并提供其决策分析。为此，我们设计了一个提示模板，包括'System prompt'（开放性问题，用于探讨边的恶意程度）和'User content'（节点对的文本信息，来自）。模板的通用结构如下（其中'System prompt'和'User content'也分别对应指令数据集中的instruction和input）：

❝
System prompt: In the context of graph neural networks, attackers manipulate models by adding irrelevant edges or removing relevant ones, leading to incorrect predictions. Your role is crucial in defending against such attacks by evaluating the relevance between pairs of nodes, which will help in identifying and removing the irrelevant edges to mitigate the impact of adversarial attacks on graph-based models. Given textual information about two nodes, analyze the relevance of these two nodes. Provide a concise analysis(approximately 100 words) and assign an integer relevance score from 1 to 6, where 1 indicates completely irrelevant and 6 indicates directly relevant. Your response should be formatted in JSON, with two keys: 'Analysis' for your written analysis and 'Relevance Score' for your numerical evaluation.

User content: Node {Title, Abstract}.\mynl\mynl Node {Title, Abstract}.

在'System prompt'中，我们提供了关于任务的背景知识以及LLMs在提示中所扮演的具体角色，这能够更有效地利用GPT-4的推理能力。此外，我们要求GPT-4对边的恶意程度进行细粒度评分，评分范围为1到6，其中较低的分数表示更恶意，而较高的分数表示更重要。'Analysis'这一概念尤为关键，因为它不仅有助于GPT-4在预测结果上的推理过程，还为将GPT-4的推理能力蒸馏到本地LLMs中提供了关键支持。最后，指令数据集的output由GPT-4生成，其格式如下：

❝
Analysis: Analysis of predicted results.

Relevance Score: Predicted integer scores from 1-6.

事实上，GPT-4很难实现完全准确的预测。为了构建更干净的指令数据集，我们设计了一种后处理筛选操作。具体来说，对于GPT-4的输出，我们仅保留负样本集中相关性评分的边，以及正样本集中的边。经过筛选的指令数据集被用于微调本地LLMs，例如Mistral-7B或Llama3-8B。经过微调后的LLMs能够拥有GPT-4推理边的恶意程度的能力。我们也在论文附录中提供了GPT-4与本地LLM（Mistral-7B）的案例研究。

3.2. 训练基于语言模型的边预测器

现在，给定一个未知的被攻击的图结构，我们的核心思路是恢复一个鲁棒图结构。直观上，我们可以将中的每条边输入本地LLM，获得其相关性评分。通过移除评分较低的边，可以减轻恶意边对模型预测的影响。同时，考虑到攻击者也可能删除一些重要边以降低模型性能，我们需要找到并添加在中不存在的重要边。尽管本地LLM能够识别具有较高相关性评分的重要边，但面对条边的情况，这仍然非常耗时且资源密集。因此，我们进一步设计了一个基于LM的边预测器，如图2 (b)所示，该预测器采用Sentence Bert作为文本编码器，并通过训练一个轻量的多层感知机（MLP）来预测缺失的重要边。

首先，我们介绍如何构造每条边的特征。最近，深度句子嵌入已成为一种强大的文本编码方法，性能优于非上下文嵌入。此外，句子嵌入模型无需微调即可轻量化生成表示。因此，对于每个节点，我们采用Sentence Bert模型作为文本编码器，从原始文本中提取表示，即。然后，将节点和的表示拼接作为对应边的特征。

接着，边的标签根据定义如下：

这里，我们利用本地LLM作为边注释器来蒸馏其推理能力，并选择4作为阈值以找到更正向的边。值得注意的是，当扰动率较低时，正向边的数量可能远高于负向边，导致标签不平衡问题。因此，我们基于余弦相似度选择一些节点对（具有较低相似度）构造候选集。当负向边不足时，我们从候选集中抽样以平衡训练集。

然后，将每条边的特征输入到中，获得边存在的预测概率。交叉熵损失函数被用于优化的参数：