专栏名称: 机器学习研究会

机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织，旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外，协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。

【学习】跨领域推荐，实现个性化服务的技术途径

机器学习研究会 · 公众号 · AI · 2017-01-22 21:08

正文

点击上方“机器学习研究会”可以订阅哦

摘要

转自：携程技术中心

一、跨领域推荐的概念

推荐系统在我们这个时代扮演了越来越重要的角色。如何利用海量数据，来对用户的行为进行预测，向用户推荐其感兴趣的物品与服务成为各大互联网公司非常关注的问题。

目前学术界与工业界对推荐的研究与应用，主要集中在对单领域的个性化推荐，即根据用户对某一领域（如书籍）的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品。

领域反映了两组对象相互间的关系，比如用户对书籍的评价数据即可看作一个用户-书籍领域，而这个领域本身可以用一个用户-书籍的评分矩阵表示，其中的第i行j列的值，即用户i对书籍j的评分信息。

单领域即表示输入的数据只有一组二元关系，它可以是评分关系（如用户对书籍的评分），购买关系（如用户是否购买书籍，可以用一个0-1评分矩阵表示，其中的1表示该用户购买该书籍，0表示未购买），也可以是用户或物品的特征关系（比如其中一个维度是用户，另一个维度是用户的年龄、性别等）等。

推荐系统根据用户对某一领域（如书籍）的兴趣特点和购买行为，向用户推荐用户感兴趣的信息和商品。推荐可以大大节省用户筛选信息的时间，得以从广大信息中获取其感兴趣的，对自己有价值的信息。

现有的单领域个性化推荐大多基于协同过滤推荐方法。协同过滤推荐方法的主要思想是，利用已有用户群过去的行为或意见预测当前用户最可能喜欢哪些东西或者对哪些东西感兴趣。单领域协同过滤推荐在过去取得了很好的效果，包括Amazon公司在内的很多互联网公司都采用了这样的协同过滤推荐。

然而，单领域的个性化推荐存在一些问题和局限，主要表现在以下几个方面：

1. 单领域推荐经常面临数据稀疏问题

单领域推荐数据往往过于稀疏（Sparsity），因而难以通过训练样本获得好的推荐效果。以用户购买书籍这个领域为例，对于用户来说，他在某个网站购买的书的数量必然是有限的，绝大多数用户只在网站购买了一两本书籍，而这个网站的所有出售的书籍可能有上百万本。如果仅根据这样的数据进行推荐，效果肯定不会理想。

2. 单领域推荐经常遇到冷启动问题

对某个领域的新用户，难以进行推荐，即冷启动（Cold-start）问题。还以用户购买书籍为例，因为是单领域推荐问题，对在该领域从未购买过书籍的用户来说，系统没有该用户在这个领域的任何信息，因此必然无法对用户进行单领域个性化推荐，只能推荐给用户一些流行热门的商品，无法体现个性化。

3. 单领域推荐难以实现“真正个性化”推荐

所谓的个性化推荐，在单领域往往是“群体分类推荐”。因为用户在单领域所留下的信息有限，比如可能只购买过两本书，而很多用户都可能只是购买了相同的这两本书，对这些购买过相同书的用户，因为已知信息完全相同，所以推荐给他们的肯定也是相同的书籍。从这一角度来看，并不能真正做到个性化推荐。

跨领域推荐是将多个领域数据联合起来，共同作用于目标领域推荐。比如一个系统拥有用户-书籍和用户-电影评价数据。关于这个问题跨领域推荐的做法，是在考虑用户-书籍评分信息的同时，也同时考虑用户-电影评分信息以及其他可获得且可能有益用户-书籍推荐的信息，综合起来对用户进行书籍的推荐。

原文链接：

https://mp.weixin.qq.com/s?__biz=MjM5MDI3MjA5MQ==&mid=2697265786&idx=1&sn=c33f2c319654b64f3a310f49d5af472e&chksm=8376fd4eb401745879a11c90df06244d98bf415908a33aef134befff4518c5266c434cd6108b&scene=0&pass_ticket=s5Xk5tTLBpgzr6IekVoNLeneQ2fuXJN5Q1sg8j9ypI0%3D#rd

“完整内容”请点击【阅读原文】

↓↓↓