专栏名称: 机器学习研究会

机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织，旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外，协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。

【学习】2017年，你还在用用户画像和协同过滤做推荐系统吗？

机器学习研究会 · 公众号 · AI · 2017-07-18 22:27

正文

请到「今天看啥」查看全文

本文是大数据杂谈 7 月 13 日社群公开课分享整理，也是第四范式主题月的第二堂公开课内容。

今天想和大家分享，如何使用大规模机器学习解决真实的业务问题。我们今天会以机器学习中的一个典型场景为例来讲解，即基于大规模机器学习模型的推荐系统。

推荐系统的本质是什么？

比如说我们看到手机淘宝首页，往下一拉，就能看到各种各样推荐的商品；比如说百度，它会给我们推荐广告，在某种程度上他的工作方式也很像推荐系统；再比如说今日头条，今日头条从数十万的新闻中选出会被我们看到的数十个新闻，这也是推荐系统。

尽管我们在生活中会已经见过非常多的推荐系统，但是在用机器学习搭建推荐系统之前，我们还是应当先思考一下，推荐系统要解决的到底是个什么样的问题？

推荐系统在本质上是一个信息检索的系统。它和搜索最大的区别是，搜索是主动式的，根据关键词和引擎参数、搜索引擎召回、机器学习排序，决定给你看到的是哪些内容。而我们看到的推荐系统，在大多数情况下是没有主动输入的（有时会有一些简单的反馈动作），是被动出现的。

推荐系统是利用上下文，根据当前用户所处的环境，根据信息的特点来决定给你推荐什么内容和商品。而在我们进一步去想之前，我们要问自己一个问题，就像上节课田老师讲的一样，推荐系统的目标是什么，什么才是一个好的推荐系统，要优化的指标是什么。

推荐系统的指标是什么？

推荐系统是个产品，产品当然是想方设法让用户去喜欢的，或者至少是不讨厌的。因而，我们需要把喜欢和讨厌这两件事情定义出来。同时我们毕竟不是用户肚子里的蛔虫，我们只能用我们可以测量到的数据来描述喜欢和讨厌两件事情。并用这些数据来决定我们做什么和不做什么。

比如说：我是个电商，用户表达对一个推荐商品喜欢的方式是：点击、收藏、加购物车、甚至购买下单、分享到社交平台上等等。用户讨厌一个推荐商品的方式，就是会投诉、会提意见。因而我们要预防一些很可能会让用户讨厌的推荐结果：比如说推荐成人用品和内衣，尤其是在上班时间；比如推荐用户刚刚买过的商品，等等。

我们一定能为一个推荐系统去定义指标，我们可以给这些指标分轻重缓急，看能用什么顺序实现。现在我用的指标可能有点投机取巧，我用的是点击率。而真实的指标考虑的是很多的，仅仅考虑点击率的模型，可能会出现标题党，如果是电商就可能会出现一堆 9 块 9 包邮，这可能不是我们业务想要的。

另外即使只考虑点击率，我们也知道其实我们推荐的是一个列表，列表的质量不完全是由单一的商品决定的，而是整个列表的组合、顺序、多样性所决定的。所以真实的业务中，我们会考虑用更复杂的目标，比如 MAP 来评价一个推荐列表的质量。

但没关系，今天我们就用点击率作为试点，介绍如何用机器学习来搭建推荐系统的完整过程。

推荐系统的 y 和 x

第一步，我们已经知道机器学习模型需要预测的就是优化目标，点击率；那我们把用户的点击行为需要记录下来。这样一来，对于机器学习来说，我们已经有 y 了

第二步，我们需要定义好 x，也就是特征。

一般来说推荐系统的特征体系由 3 个部分组成：用户特征、内容特征、上下文特征。

用户特征：包括但不限于用户姓名、性别、年龄、注册时间、收货地址、常用区域等用户特征

内容特征：包括但不限于以及商品、内容的标题分词、内容的 TF-IDF、内容来源、内容渠道、内容生产者等等

那么上下文特征，是代表用户当前时空状态、最近一段时间的行为抽象的特征。比如说用户当前的 GPS 坐标，大家可能觉得奇怪， GPS 坐标怎么用来推荐呢？其实很简单，地球一圈是 4 万公里，GPS 一圈是 360°，一度大概是 100 公开。如果我们把 GPS 坐标保存到小数点后一位，组合起来，这样的特征就是 10*10 公里的格子，这就代表了一个有泛化能力的用户的位置。

位置是一个非常强的特征，如果我们更进一步，做到了 1 公里，显然我们可以相信，在中关村地区，大家的偏好是有共性的，而在金融街，大家的喜好也是有共性的。当大家的数据足够多的时候，落在同一个格子里的人会非常多，GPS 就会成为非常重要的特征。

另外是 IP 地址，比如最近浏览的内容、最近购买的商品，这些都会构成上下文特征。所以我们就是在用户特征、内容特征和上下文特征的基础上，预测用户对当前内容的点击率。

转自：大数据杂谈