专栏名称: 数盟

数盟（数据科学家联盟）隶属于北京数盟科技有限公司，数盟致力于成为培养与发现“数据科学家”的黄埔军校。数盟服务包括：线下活动、大数据培训。官网：http://dataunion.org，合作：[email protected]

揭秘Keras推荐系统如何建立模型，获取用户爱好！

数盟 · 公众号 · 大数据 · 2017-08-17 21:37

正文

你是否有过这样的经历？当你在亚马逊商城浏览一些书籍，或者购买过一些书籍后，你的偏好就会被系统学到，系统会基于一些假设为你推荐相关书目。为什么系统会知道，在这背后又藏着哪些秘密呢？

图片描述

推荐系统可以从百万甚至上亿的内容或商品中把有用的东西高效地显示给用户，这样可以为用户节省很多自行查询的时间，也可以提示用户可能忽略的内容或商品，使用户更有黏性，更愿意花时间待在网站上，从而使商家赚取更多的利润，即使流量本身也会使商家从广告中受益。

**那么推荐系统背后的魔术是什么呢？其实任何推荐系统本质上都是在做排序。**

你可能注意到了，排序的前提是对喜好的预测。那么喜好的数据从哪里来呢？这里有几个渠道，比如你和产品有过互动，看过亚马逊商城的一些书，或者买过一些书，那么你的偏好就会被系统学到，系统会基于一些假设给你建立画像和构建模型。你和产品的互动越多，数据点就越多，画像就越全面。除此之外，如果你有跨平台的行为，那么各个平台的数据汇总，也可以综合学到你的偏好。比如谷歌搜索、地图和应用商城等都有你和谷歌产品的互动信息，这些平台的数据可以通用，应用的场景有很大的想象力。平台还可以利用第三方数据，比如订阅一些手机运营商的数据，用来多维度刻画用户

那推荐系统又是如何建立模型、知道用户爱好的？ 作者提供了两种重要的算法：矩阵分解模型和深度模型，快来一起探个究竟吧！

1.矩阵分解模型

矩阵分解可以认为是一种信息压缩。这里有两种理解。第一种理解，用户和内容不是孤立的，用户喜好有相似性，内容也有相似性。压缩是把用户和内容数量化，压缩成 k 维的向量。把用户向量维度进行压缩，使得向量维度变小，本身就是信息压缩的一种形式；向量之间还可以进行各种计算，比如余弦（Cosine）相似性，就可以数量化向量之间的距离、相似度等。第二种理解，从深度学习的角度，用户表示输入层（User Representation）通常用 One Hot编码，这没问题，但是通过第一层全连接神经网络就可以到达隐藏层，就是所谓的嵌入层（Embedding Layer），也就是我们之前提到的向量压缩过程。紧接着这个隐藏层，再通过一层全连接网络就是最终输入层，通常用来和实际标注数据进行比较，寻找差距，用来更新网络权重。从这个意义上讲，完全可以把整个数据放进神经系统的框架中，通过浅层学习把权重求出来，就是我们要的向量集合了。经过这么分析，矩阵分解在推荐系统中是如何应用的就显而易见了。

这两种情形都可以用矩阵分解来解决。假设数据库里m 个用户和 n 部电影，那么用户电影矩阵的大小就是 m×n。每个单元 (i,j) 用R ij 表示用户是否看了该电影，即0 或 1。我们把用户和电影用类似 Word2Vec 的方法分别进行向量表示，把每个用户 i 表示成 d 维向量 X i ，把每部电影 j 表示成 d 维向量 Y j 。我们要寻找 X i 和 Y j ，使得 X i ×Y j和用户电影矩阵 R ij 尽可能接近，如图所示。这样对于没出现过的用户电影对，通过 X i ×Y j 的表达式可以预测任意用户对电影的评分值。

图片描述

用数学表达式可以这么写：
图片描述
注意：这里d 是一个远小于m; n 的数。从机器学习的角度来说，模型是为了抓住数据的主要特征，去掉噪声。越复杂、越灵活的模型带来的噪声越多，降低维度则可以有效地避免过度拟合现象的出现。

2.深度神经网络模型

下面展示进阶版的深度模型。我们将建立多层深度学习模型，并且加入 Dropout技术。

这个模型非常灵活。因为如果有除用户、电影之外的数据，比如用户年龄、地区、电影属性、演员等外在变量，则统统可以加入模型中，用嵌入的思想把它们串在一起，作为输入层，然后在上面搭建各种神经网络模型，最后一层可以用评分等作为输出层，这样的模型可以适用于很多场景。深度模型的的架构如下图所示。

图片描述

首先，做用户和电影的嵌入层。

1 k = 1282 model1 = Sequential()3 model1.add(Embedding(n_users + 1, k, input_length = 1))4 model1.add(Reshape((k,)))5 model2 = Sequential()6 model2.add(Embedding(n_movies + 1, k, input_length = 1))7 model2.add(Reshape((k,)))

第三个小神经网络，在第一、二个网络的基础上把用户和电影向量结合在一起。

1 model = Sequential()2 model.add(Merge([model1, model2], mode = 'concat'))

然后加入Dropout 和relu 这个非线性变换项，构造多层深度模型。

1 model.add(Dropout(0.2))2 model.add(Dense(k, activation = 'relu'))3 model.add(Dropout(0.5))4 model.add(Dense(int(k/4), activation = 'relu'))5 model.add(Dropout(0.5))6 model.add(Dense(int(k/16), activation = 'relu'))7 model.add(Dropout(0.5))

因为是预测连续变量评分，最后一层直接上线性变化。当然，读者可以尝试分类问
题，用Softmax 去模拟每个评分类别的概率。

model.add(Dense(1, activation = 'linear'))

将输出层和最后的评分数进行对比，后向传播去更新网络参数。

model.compile(loss = 'mse', optimizer = "adam")

接下来要给模型输入训练数据。

首先，收集用户索引数据和电影索引数据。

1 users = ratings['user_id'].values2 movies = ratings['movie_id'].values

3 推荐系统

收集评分数据。

label = ratings['rating'].values

构造训练数据。

1 X_train = [users, movies]2 y_train = label

揭秘Keras推荐系统如何建立模型，获取用户爱好！

正文

1.矩阵分解模型

2.深度神经网络模型

3 推荐系统

请到「今天看啥」查看全文