本文约1000字,建议阅读5分钟
本文在节点级别和图级别表示学习方面进行了研究,并提出了朝着更强大的表示学习迈进的解决方案,目标是实现图的基础模型。
图在现实世界中广泛应用于表示关系,许多数据自然可以通过图来表示,如社交网络、蛋白质结构、分子和交易等。与具有特定自然顺序的图像和文本不同,图是无序的,并且具有排列不变性,这为学习良好的表示带来了显著的困难。图神经网络(GNNs)被提出并不断改进,用于图表示学习。本文在节点级别和图级别表示学习方面进行了研究,并提出了朝着更强大的表示学习迈进的解决方案,目标是实现图的基础模型。在第一部分,我专注于节点级别的图表示学习,并解决一个关键问题——“表示过度平滑”。为了进一步理解图卷积网络(GCNs)的优势,我们探讨了神经网络与主成分分析(PCA)之间的关系。我们的研究表明,图正则化PCA的解与单个图卷积层的公式是相一致的。在第二部分,我深入研究了图级别的表示学习。与多层感知机(MLPs)不同,MLPs是表格数据的通用函数近似器,而图神经网络(GNNs)具有有限的表达能力。我探讨了两种方法来增强GNN的表达能力:使用有根子图来提高局部结构意识;以及探索无序的高阶交互,以实现与有序交互相当的表达能力,同时在实际应用中获得更好的可扩展性。在第三部分,我专注于图的生成模型。与需要标签来学习任务依赖表示的判别模型不同,生成模型在无监督表示学习方面表现出色。然而,图生成由于其无序性而面临独特的挑战,这要求一种与任何特定顺序无关的方法。为了解决这个问题,我首先研究了应用于类别数据的扩散模型,并提出简化并统一现有的离散时间和连续时间离散扩散。基于统一的离散扩散,我提出了一种基于部分顺序的扩散模型,将自回归方法与扩散模型相结合,用于图生成。该方法为图上的生成预训练奠定了基础。在最后一部分,我探索了图表示学习的应用。具体而言,我研究了图级别异常检测(GLAD),该方法具有许多重要应用。由于GLAD研究较少,我建立了一个基于图神经网络的强基准模型“OCGIN”,一个包含数据集和许多非图神经网络基准的评估平台。我还发现并研究了一个名为“性能反转”的问题。随后,我设计了一个特定模型,用于检测普华永道的可疑会计交易,该任务需要处理带属性的图数据。数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU