专栏名称: 深度学习与图网络

关注图网络、图表示学习，最近顶会顶刊动态以及机器学习基本方法，包括无监督学习、半监督学习、弱监督学习、元学习等

CIKM2024 | LightGODE: 挑战传统图推荐范式, 基于轻量级图ODE推荐算法

深度学习与图网络 · 公众号 · · 2024-08-30 08:56

正文

TLDR: 本文首先通过实验质疑了图卷积在推荐系统训练阶段的必要性，随后提出了后训练图卷积框架以及轻量级图常微分方程作为传统图卷积神经网络的替代。该方法避免了传统训练方法中最为耗时的消息传递，在大规模图上拥有极高的性能和效率表现。

论文： https://arxiv.org/abs/2407.18910
仓库： https://github.com/DavidZWZ/LightGODE

1. 研究背景

尽管基于图的推荐系统取得了令人鼓舞的进展，但这些方法在效率和可大规模拓展性方面面临固有的挑战。这些挑战主要来自现有基于图的推荐训练范式中计算耗时的图卷积和消息传递。这些问题在大规模用户商品二部图的实际应用中更加突出，因为随着用户和商品数量的增加，时间和计算复杂度将呈指数级增长。最近的研究表明，简单的多层感知机（MLP）在图卷积神经网络（GCN）模型初始化或通过对比学习、知识蒸馏训练时，可以在与图卷积神经网络模型共享相同权重空间的情况下表现出极强的竞争力。在推荐系统中，鉴于基于矩阵分解（MF）权重可以简单推导出一个轻量级的图卷积模型（LightGCN），这引发了一个重要的探究性问题： 在推荐系统的训练中，我们是否真的需要计算耗时的图卷积？

为了探讨这个问题，我们首先进行了初步实验，分析了图卷积的作用。结果显示，图卷积在测试中比在训练中发挥更重要的作用。值得注意的是，当在训练后实施类似的轻量级图卷积时，矩阵分解（MF）模型可以匹配图卷积网络（GCN）的性能。然而，目前的图卷积方法并不理想，实验证明，随着层数的增加，卷积前后嵌入差异显著增大。如果MF模型已经训练得很好，任何训练后的操作都不应显著改变原始的嵌入空间，而现有的较高嵌入差异的卷积策略可能会抵消更高阶信息的优势。此外，现有的粗粒度图卷积方法由于其离散特性，无法找到最佳的卷积深度。这些发现促使我们寻求一种更细粒度的方法来整合更高阶的用户-商品交互信息，同时避免在训练过程中计算耗时的消息传递。

在本文中，我们介绍了一种新颖的基于图的推荐系统——轻量级后训练图常微分方程（LightGODE），旨在实现细粒度且高效的大规模推荐系统。我们的贡献总结如下：

据我们所知，我们是首个质疑图推荐系统中长期以来的传统范式——图卷积的必要性，并通过实证和分析揭示了图卷积在测试中而非训练中的决定性作用。
我们开发了一种新颖的后训练图卷积框架，实现了极高效的训练，并设计了一种自循环为基础的无参数图卷积网络，缓解了嵌入差异问题。
我们原创性地提出了一种连续图常微分方程（LightGODE），能够动态建模节点表示，并在高阶信息与嵌入差异之间实现最佳权衡。
我们在三个真实世界的数据集上进行了广泛的实验，验证了LightGODE的有效性，展示了其相对于其他图SOTA模型在推荐性能和训练效率的大幅提升。

2. 初步探究性实验

在本节中，我们首先探讨了图卷积对于推荐系统的必要性，并分析了后训练图卷积增强的矩阵分解（MF）模型意外获得优越性能的关键原因。随后，我们通过识别构建更深图卷积层时的嵌入差异问题，明确了在设计后训练图卷积时需要权衡的因素。

2.1图卷积在训练中的作用和必要性

为了探讨图卷积对基于图的推荐系统的必要性，我们在Amazon-Beauty和Amazon-Toys-and-Games数据集上进行了初步实验，以了解图卷积在推荐系统训练/测试阶段的影响。具体来说，我们设计了四种具有相同参数量的模型变体，包括 MF-init （使用传统矩阵分解进行训练测试）、 MF-conv （在MF训练后,整合LightGCN卷积进行测试）、 LightGCN-init （仅使用LightGCN模型的初始嵌入进行测试）、以及 LightGCN-conv （使用LightGCN模型架构进行训练测试）。

如图1所示，我们将LightGCN模型（LightGCN-conv）设为基准，性能设为100%。令我们惊讶的是，MF-conv在两个数据集上均持续优于MF-init和LightGCN-conv，平均达到LightGCN性能指标的95%以上。这清楚地表明，通过MF初始化后整合后训练图卷积具有显著的优势，可以通过绕过复杂的图卷积过程来大幅降低计算成本。此外，这些结果也表明，基于图的推荐系统性能提升主要来源于训练后的图卷积，这促使我们重新审视图卷积在训练阶段的必要性。同时，我们提出了一种新的观点，来理解MF-conv模型在未使用图卷积训练时仍能表现出卓越性能的潜在原因。

2.2从深度优先的角度探究对齐特性

推荐系统的损失函数通常通过在训练过程中将正向用户-商品对进行对齐，来识别潜在的正向交互。在这个背景下，我们对第2.1节中提到的四个模型版本在Beauty和Toys-and-Games数据集上的对齐特性（即归一化后的正向嵌入之间的平均距离）进行了评估。

从表中可以看出，无论是MF还是LightGCN的初始ID嵌入，在两个数据集上表现出的对齐值都相近，表明无论是否使用轻量级图卷积，训练效果都相当。

从分析上看，当GCN模型与MF模型使用相同的目标进行优化时，通过图卷积在正向对的周围邻居节点上的对齐方向是直接施加在两个节点簇上的度加权版本。假设和证明详见原文附录C。

2.3后训练图卷积的嵌入差异问题

本章节进一步探讨在MF模型训练后，较高阶的图卷积是否继续具有优势。但同时，如果一个模型被优化训练后，其嵌入分布应该在测试中表现良好。因此，任何后训练操作都应尽量减少对原始嵌入空间的影响。我们特别关注模型性能与初始嵌入和卷积嵌入之间差异（即嵌入差异）之间的关系。

整合更复杂的高阶信息大多导致性能下降。此外，随着层数的增加，初始嵌入和卷积嵌入之间的差异也随之扩大，这表明现有的图卷积策略可能会破坏基础的训练，随着层数的增加可能会导致过度平滑现象。这表明，虽然额外的卷积层引入了更多的高阶信息，但它们也可能扰乱已经训练良好的嵌入。这可以解释为什么增加卷积层数最初会提升性能，但随后带来负面影响——当前策略在配置两层卷积时找到了一个平衡点。

为了提升性能，关键是要在保持接近原始MF模型嵌入分布的同时，通过增加更多层次来整合高阶信息。这需要一种更为细致的图卷积方法，在保持高阶结构信息和嵌入差异问题之间的平衡的同时，精细构建卷积层。

3. 框架介绍

在本节中，我们提出了一种后训练图卷积框架，包括用于极高效图推荐的ID嵌入预训练。为了在整合高阶信息和嵌入差异风险之间取得平衡，我们设计了一种带有自循环的无参数图卷积。基于此，我们提出了LightGODE——一种基于常微分方程的连续后训练图卷积，旨在实现最佳权衡。最后，我们展示了详细的时间复杂度分析，并与其他强大的GCN基线模型进行了比较。

3.1 ID嵌入预训练

由于在第2节中已发现图卷积在训练阶段是不必要的，我们舍弃了与图卷积相关的操作，专注于训练随机初始化的ID嵌入，如上图的训练部分所示。在损失计算方面，我们直接优化了对齐性和均匀性属性，以达到MF嵌入训练的最佳状态。具体而言，对齐损失最小化正向对归一化嵌入之间的距离：

而均匀损失函数为：

其用户端的均匀损失函数为：

3.2 基于自循环的离散图卷积

第二小节的实验表明，当图模型配置为两到三层时，通常可以实现最佳性能。然而，在更高阶层中突然中断卷积过程是不合适的，因为既没有对前面的浅层进行特别处理，也没有关注随后的高阶层。这种方法缺乏从低阶到高阶图卷积的无缝过渡，可能会忽略嵌入在浅层和深层图关系中的结构信息的细微差异，同时会加剧嵌入差异的问题。这需要重新考虑不同层深度的图卷积过程，以更好地捕捉推荐系统中的图数据的复杂性和动态特性。

一个直接的解决方案是将自循环（Self-Loop）整合到图卷积过程中。这一简单操作在每个消息传递过程中强调了前置层节点表示的重要性，有助于逐步过渡到更高阶的连通性，来减缓后训练图卷积带来的嵌入差异的问题。特别的，用户结点在k层可以表示为：

3.3 连续的图常微分方程ODE

为了得到更加适配的卷积深度，我们将离散的图卷积推导到连续的图常微分方程模型。对于一个K层的离散图卷积网络，其结点表征可化简为：

其中，而是归一化的邻接矩阵。上述结点表征可看作是从层0到层K的黎曼和，而当K趋近于无穷时，我们可以得到一个关于结点表征的连续的常微分方程：

通过归一化邻接矩阵的一阶泰勒展开以及从初始条件开始积分，最终的结点表示为：

3.3 时间复杂度分析

我们将LightGODE和传统图卷积神经网络的SOTA模型包括LightGCN和GraphAU进行了细致对比。

4. 实验结果

本文进行了大量的实验评估LightGODE的性能和效率优势。

4.1 数据集

本文选择了Gowalla，Amazon-Beauty，和Amazon-Toys-and-Games作为实验数据集。其中Gowalla结点和邻边的数量都远大于Amazon的数据集。