1. 在线社交网络信息检索
信息检索(Information Retrieval) 是从大规模非结构化数据中获取信息的过程,例如搜索引擎就是典型的信息检索技术的应用。在线社交网络数据结构有其特殊性,以微博的“话题”(#话题名称#)为例,这种新型的信息组织方式是传统信息检索研究没有涉及的,所以对社交网络信息的检索成为了一门研究课题。
1.1 社交网络内容搜索
内容搜索是指给定查询,从大量信息中返回相关信息的过程。例如在微博上搜索相关热点事件名称,能够返回关于热点事件的微博。内容搜索是信息检索最经典的应用形式。经典的信息检索模型有向量空间模型(VSM),概率模型及 BM25检索公式,基于统计建模检索模型及查询拟然模型,基于统计语言建模的检索模型等。
时间先验是由于语料库中的文档具有不同的重要性,考虑语料库背景定义不同的计算公式,再将计算结果用于检索模型以期得到更好的检索效果的一种检索方法。目前考虑时间信息计算文档先验的研究工作可分为两种:一种定义文档的时间变化关系;另一种为修改 PageRank 的方法,在其中加入时间关系。具体细节可参考:
1.2 社交网络内容分类
1.3 社交网络推荐
2. 社交网络信息传播规律
2.1 基于网络结构的传播模型
2.2 基于群体状态的传播模型
传染病模型(SI, SIS, SIR), 传染病模型是经典的信息传播模型,网上有丰富的参考资料。
2.3 基于信息特性的传播模型
3. 话题发现与演化
一般社交网络例如 Twitter 的数据有以下特点:数据规模大、内容简短、噪声多、数据特征丰富等。下面介绍几种主要的话题发现和演化模型。
3.1 基于主题模型的话题发现
3.2 基于向量空间模型的话题发现
3.3 基于词项关系图的话题发现
3.4 基于主题模型的话题演化
3.5 基于相邻时间片关联的话题演化
4. 影响力最大化
影响力最大化算法被证明为 NP-hard问题,下面主要介绍两种典型的影响力最大化算法。
4.1 贪心算法
4.2 启发式算法