专栏名称: AI科技评论
「AI科技评论」是国内顶尖人工智能媒体和产业服务平台,专注全球 AI 业界、学术和开发三大方向的深度报道。
目录
相关文章推荐
黄建同学  ·  这个有意思,Gemini AI + ... ·  昨天  
爱可可-爱生活  ·  本文创新性地提出了 PENCIL ... ·  昨天  
爱可可-爱生活  ·  今晚八点!演员已就位~ ... ·  2 天前  
机器之心  ·  超越DeepSeek ... ·  2 天前  
51好读  ›  专栏  ›  AI科技评论

干货 | 中科院孙冰杰博士:基于网络化数据表示学习的重叠社区发现研究

AI科技评论  · 公众号  · AI  · 2017-12-18 18:57

正文

AI科技评论按: 网络是大数据的重要组织形式,然而网络化的数据由于缺少高效可用的节点表示,而难于直接应用。网络化数据表示学习通过将高维稀疏难于应用的数据转化为低维紧凑易于应用的表达而受到广泛关注。网络化数据表示学习的一个重要任务就是重叠社区发现。本文就是为大家介绍基于网络化数据表示学习的重叠社区发现的最新研究。文章内容根据中科院孙冰杰博士在GAIR大讲堂的线上直播公开课整理而成。

在近日 GAIR 大讲堂线上直播课上,来自中科院计算所网络数据科学与技术重点实验室的孙冰杰博士为大家做了一场主题为 「基于网络化数据表示学习的重叠社区发现研究」 的分享,详细介绍了他们团队最近在基于网络化数据表示学习的重叠社区发现研究上的相关工作。

孙冰杰,中科院计算所博士研究生,主要研究方向为网络结构分析,网络表示学习。

分享开始

我将从以下四个方面对我们团队最近所做的研究做详细介绍。

  • 研究背景及挑战

  • 对称编解码重叠社区发现方法:SEND

  • 重叠社区发现方法加速研究

  • 总结

首先看我们研究工作的背景及挑战。

大数据领域中大部分数据是以网络形式进行组织的,比如社交媒体中的社交网络,科研领域中的引用网络,生物领域的中蛋白质相互作用网络,以及交通领域中的航空网路或路网。网络化数据之后节点之间的复杂关系是导致大数据处理困难的重要原因。

网络化数据在不同粒度下对应的理论与应用研究也是不同的。在微观粒度上,主要研究的是节点层面上的任务,当节点聚集形成社区的时候,研究的是社区层面上的任务。在宏观层面上,我们研究的是在整个网络上的任务。

在这次分享上,我们主要研究在中观粒度下的社区发现任务。它主要由三元闭包理论和强弱连接理论为支撑,主要支撑的应用有社区发现应用等。

中观粒度上的社区发现任务:向下可通过节点表示支持微观粒度的任务,向上可通过网络生成支持宏观粒度的任务。

基于网络化数据表示学习的重叠社区发现所面临的问题和挑战

相对于传统节点表示,它的功能是比较单一的,只支持重叠社区指示,无法支持一些其他的任务。但现有的重叠社区指示方法没办法用在大规模网络上。这是针对社区指示能力和多任务支持能力之间的矛盾以及海量数据处理任务的挑战。

为此我们团队做了两方面的工作。

工作一:非负对称编解码模型

节点表示的社区指示能力需要满足多种约束条件。一般需要满足三个约束条件,非负性,稀疏性和分布性。

节点表示的多任务支持能力

需要节点表示能充分恢复数据在原始空间中的相似性关系,对节点表示添加的约束越多,对数据的恢复能力影响越大。因此这之间是矛盾的。矛盾主要体现在基于网络化数据表示的社区发现相关工作。

工作一是针对重叠社区得到节点表示的社区表示能力和数据还原能力之间的矛盾。目标是保证节点表示的社区指示能力和对原始数据的还原能力。

所面临的问题:

  • 如何在数据恢复过程中对节点表示进行约束增加指示能力。

  • 传统的OCD只优化解码过程,节点表示功能单一,不能应用于其他任务。

  • OCD节点表示的显示约束使优化困难

解决方案:用户点表示同时对原始数据进行编解码操作,保证学习到高质量节点表示。通过编解码过程对对称性节点表示进行隐式约束,保证指示能力。

具体来说,OCD模型通过重构输入数据学习节点表示,通过正则项等对节点表示进行显式约束,保证节点表示的指示能力。但传统的OCD目标函数相当于只优化了解码过程(生成原始数据)

OCD目标函数忽略了编码过程,导致模型学习到的节点表示无法充分体现节点在原空间中的相似性,因此应用在下游任务上准备性较低,且无法处理新样本数据。

以上提出的对称编解码模型可以同时解决节点表示的指示能力和对多种下游任务的支持能力。

通过优化编码和解码过程保证节点表示的数据还原能力,通过隐式约束保证节点表示的社区表示能力,从而最终在多种类型网络的多个任务上取得了目前最好的效果。







请到「今天看啥」查看全文