图卷积网络入门：数学基础与架构设计

数据派THU · 公众号 · 大数据 · 2024-12-12 17:00

正文

来源：DeepHub IMBA‍‍‍‍‍‍
本文约2700字，建议阅读9分钟
本文系统地阐述了图卷积网络的架构原理。

数据是对现实世界的抽象表征。物理现象、人类行为模式以及自然规律都可以通过数据结构进行编码和表示。通过实现各类算法和模型，可以挖掘数据中的隐含模式，提取具有实际意义的非平凡信息。卷积神经网络（CNN）专门处理具有网格结构的数据（如图像），循环神经网络（RNN）则针对序列数据（如时间序列或文本）进行建模。这些模型的共同特点在于它们所处理的数据具有规则的结构特征。对于具有不规则结构的图数据而言，其模式识别和特征提取则是一个较为复杂的任务。本文将重点讨论图学习领域中的一个重要模型——图卷积网络（Graph Convolution Network，GCN）[1]。

图卷积网络由Thomas N. Kipf和Max Welling于2017年2月在其论文《Semi-Supervised Classification with Graph Convolutional Networks》中首次提出。对于希望深入研究图神经网络的研究者而言，理解这篇论文的核心内容至关重要。本文将在保持数学严谨性的同时，着重阐释其基本原理，便于读者把握要点。

图的基本概念与表示

上图展示了一个无向图数据结构，其中每个节点都包含特定的特征向量。在此需要明确以下关键概念：

无向图： 一种边具有双向性质的图结构，其中顶点间通过无方向性的边进行连接。
邻接矩阵： 一个方阵，用于表示图中顶点之间的连接关系，矩阵元素表示对应顶点间是否存在边的连接。
度矩阵： 一个对角矩阵，其对角元素表示无向图中各节点所连接的边的数量。

在邻接矩阵和度矩阵中，以橙色标注的数字表示存在自环（self-loop）的情况，即节点与自身之间存在连接。

谱图卷积理论

谱方法通过图的频率（谱）特性来定义卷积操作，这种方法依赖于图拉普拉斯算子的特征值和特征向量分解。拉普拉斯矩阵(L)的数学定义为：

L = D - A

其中，D表示度矩阵，A表示邻接矩阵。

在上述表达式中：

g_theta 表示谱滤波器；
x 表示输入信号；
U 代表归一化图拉普拉斯算子 L = I - D^(-1/2) A D^(-1/2) 的特征向量；
I 为N阶单位矩阵，N为节点数量[1]。

谱方法具有以下特征：

计算复杂度高；
适用范围受限于特定图结构。

计算挑战与优化

在实际应用中，图拉普拉斯算子的特征分解计算复杂度为O(N³)，其中N表示图中节点的数量。对于大规模图或实际问题，当N增长到百万量级时，计算成本将变得难以承受。这一计算瓶颈促使研究者们探索绕过特征分解的替代方案。

上图为基于切比雪夫多项式的谱滤波器近似。

空间域解决方案

研究者提出使用K阶切比雪夫多项式来近似谱滤波器，这种方法无需显式计算特征值和特征向量。其核心优势在于计算仅依赖于每个节点的K跳邻居，从而使卷积操作局限于有限的邻域范围内。这种局部化策略实现了从谱域（基于图拉普拉斯算子的特征基）到空间域（基于邻域聚合）的计算转换。最终计算过程转化为"消息传递"机制，即通过聚合邻域信息来更新节点表示。

线性层次模型

Kipf和Welling进一步将切比雪夫多项式简化到（K=1）一阶近似，即仅考虑直接邻居的消息传递。其卷积操作可表示为：

线性层次模型的数学表达[1]

层次传播模型的示意图[1]

其中：

D^~ 表示包含自环的度矩阵（上标~表示考虑自环）
A^~ 表示包含自环的邻接矩阵
X 表示N个节点的特征矩阵
Theta或W^(l) 表示可学习的模型参数
H^(l=0) 即为输入特征矩阵X
sigma 表示激活函数，本模型中采用ReLU函数

该方程完全在空间域中进行计算，显著提高了模型的计算效率。

模型架构与计算机制

上图展示了一个包含4个节点的图结构示例。其中节点A与节点B、C、D相连，每个节点包含C维特征向量（C=1433）。模型的关键组成部分包括：

邻接矩阵A：包含自环的节点连接关系矩阵；
度矩阵D：包含自环的节点度数对角矩阵。

这些矩阵均为N×N维方阵，其中N为节点数量。模型中的关键矩阵维度如下：

初始特征矩阵H^[0]：维度为N×1433（N×C）；
权重矩阵W：维度为1433×64（C×F，其中F为滤波器参数数量）。

经过矩阵运算后，H^[1] 的维度变为N×64。值得注意的是，D^~(-1/2)的两次相乘实现了对称归一化（或称重归一化），这一步骤对于平衡不同度数节点的影响至关重要。这种归一化操作的必要性在于GCN模型处理的是具有不同连接数量的节点，如果不进行归一化，高度数节点可能会在信息聚合过程中产生过度影响。消息传递通过归一化后的邻接矩阵A与特征矩阵H[0]的乘法来实现，使得每个节点能够有效地聚合来自直接邻居的信息。