基于大模型的图学习

专知 · 公众号 · · 2025-02-28 11:00

正文

2024年9月21日，2024第二届人工智能大模型技术高峰论坛在江苏南京举办，论坛同期举办的《可信安全高效大模型技术专题论坛》上，国防科技大学计算机学院刘新旺教授分享了《基于大模型的图学习》精彩演讲。

以下为演讲内容：

1 图学习研究背景

图通常可以定义为节点集合和边集合，其中，节点表示图中的实体；边表示节点之间的关系。图数据与图像和自然语言最大的区别，它是非欧几里得数据，即不能用固定的卷积或算子对它进行操作，因为它的邻居或者结构是非固定的，一个节点可能有非常多的边，所以处理过程相对来说比较困难。

由于图天然具备建模多样化关系的能力，所以在具有复杂关系的任务上应用十分广泛。比如，典型的结构化场景中的社交网络、知识图谱、推荐系统等任务离不开图的建模，非结构化场景中的目标检测、问答、关系抽取等任务中也经常利用图的特性。如目标检测任务中有很多工作是通过场景图来建模图片中的上下文关系，从而实现更好的识别性能。

图学习传统的研究方向主要集中在聚类分析的理论、方法及应用。针对多元数据的多样性、非全性、可学性，主要研究里面的多视图聚类的融合机理、有效填补缺失方法和自动学习聚类特征。

2 多视图聚类的融合机理

多视图聚类的融合机理方面我们提出了由对抗学习所引导产生的极大 - 极小优化，实现多视图聚类的新范式。通过对抗学习的机制，改变传统的 min-min 或者 max-max 的学习机制，使所提出的学习算法能够有理论化的全局最优性。此外，基于采样和锚点选取，以及逼近的方式，实现了高效率多核聚类算法，提升了聚类算法处理缺失数据的计算效率，将复杂度从 𝓞（N ³ ）降为 O(N) 的线性复杂度，通过这种方式实现更紧的额外风险理论上界。比如，在医疗体检过程中很难保证数据完备的情况下怎么快速实现数据填充，以及在缺失情况下的特征学习和表示学习，我们提出了一系列工作，提升了聚类算法处理缺失数据的计算效率，实现了填充和聚类的复杂度是 O(N) 的精度；同时分析了算法的泛化误差界，从理论上保证了有效性。

在深度聚类方面，我们首次从理论和实验上证明了深度判别式无监督学习中的在群点优势，并提出了首个深度离群点检测的自监督学习框架，实现了有效的深度离群点检测。以往研究主要针对邻接矩阵和核矩阵这两个相对核心观点，它们与图数据之间有很多相同地方，比如给定任何一个邻接矩阵或者核矩阵可以和一个无向图相对应，而图数据由于其关系的引入，尤其在语义信息引入的情况下，它的信息量相比于传统的邻接矩阵和核矩阵又有质的飞跃。因为语义信息的引入在原来核矩阵和邻接矩阵只能表示数据结构和数据特征的条件下引入了更加丰富的语义信息，而随着大语言模型 (LLMs) 的提出，尤其模型在语言能力、推理能力方面展现较以往的方法非常大的性能提升情况下，我们也积极将研究范围从传统的机器学习向基于 LLMs 的图学习进行拓展。

3 知识图谱学习

目前，人工智能发展慢慢从感知时代向认知时代迈进，而在认知时代如何度量知识和应用知识，以及提升系统的智能性、泛化性成为重要的研究问题。

知识图谱推理旨在基于已知逻辑规则推导出新的事实。如图 1 所示，我们第一个在不同图类型上，针对知识图谱推理模型进行了整理工作，其中整理了 221 个前沿 KGR 模型及 69 个数据集，发现静态图谱推理、时序图谱推理、多模态图谱推理有较多的研究，且这三个方向结合知识图谱和知识推理进行相应推理的趋势非常明显。此研究成果，题为 A Survey of Knowledge Graph Reasoning on Graph Types: Static, Dynamic, and Multi-Modal 的文章已在 TPAMI’24 上发表。

图 1 知识图谱推理

大模型是一种知识参数化的存储形式，即知识以参数的形式存储在 Transformer 模型中；而图谱是一种知识的结构化存储形式，它通过节点和边的形式把知识进行存储。这两种知识存储的优缺点非常明显，LLMs 很灵活，具有很强的语义理解能力和交互能力；而知识图谱相对而言虽然难以构建，处理比较固定，但是稳定性、推理能力等方面具有很大优势。

3.1 关系关联锚点增强的知识图谱补全方法

我们尝试将大语言模式与知识图谱这两种结构化和参数化的知识存储形式进行融合，提升各自的性能。其中，关系关联锚点增强的知识图谱补全（RAA-KGC）方法中，试图将 LLMs 作为上下文的一种存储形式，通过大语言模式提升上下文信息，辅助知识图谱推理任务。在知识图谱推理任务中，图谱主要提供上下文信息，与以往的自然语言问答较显著的区别就是它没有对于答案的显示描述，只能通过提供头实体的关系预测尾实体。例如欧洲具有哪些部分？当遇到这个问题时很难有一个直观的概念，到底指的是欧洲有哪些国家还是地理位置等信息，没有明确方向。要使链接预测任务具有更好的下游节点预测效果。因此，我们提出将目标实体作为锚定的形式，指引增强方法对尾节点的表达能力。比如给出一些范例，如欧洲的组成部分有葡萄牙国家，接下来做类似任务时就容易构建，只要找到欧洲的其他国家即实现了更好的链接预测。

基于上述思想，提出了锚点的构建方法、锚点的聚类方法，以及网络的设计方法，实现所提算法，并在多个数据集上证明了RAA-KGC性能的有效性。

此外应用中，针对知识图谱问答的任务，因为LLMs 具有任务编排器的作用，所以希望能将输入的自然语言变成知识图谱的一种查询语句，且具有一定的泛化性能；也就是输入任何自然语言都能很快实现知识图谱信息查询。由此，通过从知识库中检索具体的语义信息可以很好地缓解事实性的幻觉。

如何实现上述所述结果？例如，如果检索“巴塞罗那球队比赛过的场地有哪些可以参观”，要把这句话转成知识图谱的检索语句，首先要定位到“巴塞罗那”这支球队；再定位到它在哪些地方打过比赛，这些地方又有哪些位于巴塞罗那；最后通过一系列程序化的检索语句，即实现最终信息的提取。这是复杂知识库知识图谱的检索方法，但是，它与以往的数据相比有较明显的问题。比如，我们可以获取的数据量较小，如何在少量数据的情况下通过数据增强的方式实现更大规模的数据集的构建。

3.2 主动数据增强的复杂知识库问答方法

“自然语言和程序对”是相对来说比较“冷门”的研究方向，难点为在实现“自然语言和程序对”匹配机制的同时，还要在一定程度保证正确率。然而，这些高质量的标注数据通常难以自动化生成，需要专业人员的手动标注，导致真实场景下的标注数据往往是有限的。

为了在此场景下进一步提升问答模型的总体性能，我们通过采用主动学习策略选择性生成类似于验证集中代表性错误样本的合成对，提出一种难度感知主动数据增强的复杂问答方法（DADA-CQA），总体框架主要由两个处理阶段组成。如图 2（a）所示，在迭代训练阶段，使用预处理的原始训练集和合成数据集来训练语义解析器；在训练过程中，利用基于难度感知主动数据增强的合成对生成模块，有选择地生成大量有价值的合成对，用于下一个回合的模型训练。如图 2（b）所示，在模型推理阶段，首先使用核采样为每个测试问题生成多个候选程序；然后，对其进行参数对齐和程序过滤处理后，将保留下来的有效候选程序提交给基于加权投票机制的投票排序器 Voting Ranker 进行答案一致性评估，以进一步提高答案准确率。

图 2 DADA-CQA 的总体框架

采用主动学习的方法时，首先在训练过程中找到分类容易错误的样本，基于它们生成问题模板，在模板基础上结合知识图谱库中的已有知识替换其中一部分；然后提取代码的核心结构，构建部分可换的基于图谱的新的训练数据生成模式和生成范式。通过聚类学习错误样本的典型数据，同时通过图谱加强的典型代表程序的生成范式来生成语义一致的训练数据。

我们在大规模复杂问答数据集 KQA Pro 上开展了广泛实验，并在全监督 (full training set) 和低资源(10 K training set) 设置下验证了方法的有效性，证明所提方法能够给很多算法带来性能提升，以及泛化性能。

3.3 基于大模型的测试时训练框架

目前，图神经网络（GNNs）面临着一些挑战，如特征表达能力有限，GNNs 通常使用较低质量的嵌入作为节点初始特征，限制了它们表达复杂节点信息的能力；此外，在结构信息与文本信息的整合中，对于包含丰富文本信息的图，如何有效地结合结构信息和文本信息仍是一个挑战。

LLMs与GNNs的结合可以产生强大的协同效应，如增强了节点特征，提供更高质量的节点特征，有效捕捉文本和上下文信息；结构信息与文本理解的融合，GNNs 擅长捕捉结构关系，而 LLMs 擅长处理文本，两者结合可以实现更全面和强大的图学习。

具体地，不管是传统的 GNNs 处理方法还是Tanrsformer 都要解决的是对未知数据甚至其他领域数据的迁移问题。应对迁移数据时，因为 LLMs在很多数据集上都有过训练，所以在各类型的数据集上都有训练经验，针对图模型和传统模型很好的信息补充。我们利用 LLMs 作为节点注释器，整合 LLMs 和 GNNs 的优势，利用极小的成本实现对于预训练模型的测试时训练微调。将 LLMs 作为图数据、GNNs 学习标签的生成方式，通过这种方式验证语言模型生成标签的准确率。这里 GNNs 主要有两个作用，一是如果要对数据进行标注进行引导，它具有更好的多样性；二是将把握不好的数据进行数据标注和数据增强，提升其他领域数据的泛化性能。

我们在 4 种不同偏移类型的 5 个不同规模的节点分类数据集上验证了方法的有效性。

近年来，以 Transformer、BERT 和 GPT 为代表的 LLMs 取得了显著进展。这些模型不仅在各种自然语言处理任务(如情感分析、机器翻译和文本分类)中表现出色，还展现出了强大的迁移学习能力。随着研究的深入，越来越多的学者开始探索 LLMs 的多模态能力，尝试将其应用于处理图像、视频和图数据等多种类型的数据，为图大模型的诞生奠定了基础。

3.4 聚类算法与基于大模型的推荐系统

推荐系统则是另外一种图数据常见的场景，通过分析用户的行为和偏好，为用户提供个性化内容或产品技术，广泛应用于电商、社交媒体、影视音乐等领域。以 GPT 为代表的 LLMs 展现了强智能性，具有强大的理解能力和语义知识。传统的推荐系统多依赖于协同过滤等方法，处理数据稀疏性、冷启动问题存在局限。LLMs 的引入为解决这些问题提供了新思路。

例如，如果把 LLMs 中关于用户的商品知识嵌套正在使用的图模型中，如图 3 所示，LLMs 所学到的特征分布和图模型所学到的特征分布有较明显的分布差异，因为图数据是通过三元组至少是二元组的方式，而自然语言没有结构性的概念。

图 3 特征分布

为了更好地实现在 LLMs 和图模型进行知识蒸馏，把 LLMs 的知识嵌入到用于推荐的图模型中，我们设计了在两个模型中信息对齐的方式，同时在 LLMs 和图模型中设计公有信息和私有信息，通过在公有信息队做到信息对齐，实现 LLMs 只将图模型的迁移。针对 LLMs 和推荐模型在训练输入、训练过程、语义表示等方面存在显著差异，直接对齐二者存在的弊端，首先通过设计正交损失和均匀性损失来保证解耦合之后独有特征和共享特征的有效性，避免其退化为噪声特征；其次基于共享特征，分别构建 LLMs 和推荐模型特征的相似度矩阵作为全局相似度图，从全局角度迁移共享的大模型知识；此外，通过聚类分别获取 LLM 和推荐模型特征空间下的 user-item 的兴趣中心，将这些兴趣中心视为局部信息，在局部进行对齐策略，实现了这两个模型的对齐，保证信息提取的有效性，以及模型信息迁移的流畅性。

从实验结果看，所设计的解耦对齐框架可以提升 baseline 的推荐水平；此外作为一种插入式的方法，在多个方法和数据集上体现出了一定的泛化能力；同时消融实验和敏感性分析实验也说明了策略的有效性。

3.5 图聚类增强的联邦学习后门防御算法

在图聚类增强的联邦学习后门防御算法中，我们主要针对联邦学习这种大模型常用的训练方法。在该场景下，去中心化和数据不可控性加剧了安全威胁，其中一种重要的威胁形式就是后门攻击。尤其大模型时代，模型规模相比之前的体量大很多，如果直接针对数据模型计算它们之间的相似度，判断某个模态是否为后门攻击难度会大很多，也就是所谓的维度诅咒问题。

为了更好实现后门的检索，提出将多视图聚类的方法和后门攻击进行组合，即通过多视图聚类将不同部分的代码进行聚类，学习得到它的数据低维表示，构建多个对于同一代码的不同描述，丰富更新的参数，更加准确地描述对应的代码，用更小的时间开销取得更好的效果。从与其他防御算法的对比可以看出，本算法具备客户端筛选机制，利用了历史信息，无需客户端保存辅助数据，也不需要添加噪声，并能够有效消除后门影响。

基于大模型的图学习

正文

请到「今天看啥」查看全文