专栏名称: AI前线
我们专注大数据和机器学习,关注前沿技术和业界实践。每天发布高质量文章,技术案例等原创干货源源不断。同时有四千人的社群微课堂,每周一次业界大牛技术分享,也希望你能从这里分享前沿技术,交流深度思考。
目录
相关文章推荐
软件定义世界(SDX)  ·  【红杉资本】发布年度AI行业报告:o1改变大 ... ·  3 天前  
软件定义世界(SDX)  ·  Anthropic ... ·  1 周前  
CDA数据分析师  ·  【实战】数据产品经理应该具备的5点数据分析技能 ·  1 周前  
51好读  ›  专栏  ›  AI前线

通过京东618谈电商平台的推荐系统:渗透每个环节,肩负建设平台生态

AI前线  · 公众号  · 大数据  · 2017-07-05 22:02

正文

 
本文是大数据杂谈 6 月 29 日社群公开课内容整理。

大家好,感谢大家白忙中抽出时间来参加这次直播。今晚我将围绕推荐系统在电商平台上的应用给大家做个介绍。

个性化推荐系统想必大家都已经非常熟悉,个性化,千人千面这些名词无处不在。它可以应用到非常多的业务场景中,比如新闻聚合产品,比如视频网站,以及最典型的电商。但凡是长尾对长尾的场景都是个性化推荐大展拳脚的地方。

今天不会涉及到具体算法和系统架构的介绍,主要还是侧重在业务应用层面,特别是在电商环境中个性化推荐面临的挑战和我们的思考。主要讲下面几部分内容:

  1. 个性化推荐系统在电商中的定位,价值所在以及面临的挑战;

  2. 介绍京东的个性化推荐系统用到的主要算法,以及对体验问题的解决;

  3. 用户画像和商品画像都是如何生成的,哪些是电商平台商品推荐中比较关键的属性标签;

  4. 最后介绍 618 大促期间个性化会场的实现和表现。

电商平台个性化推荐系统的定位和目标  

首先来介绍一下电商平台的个性化推荐系统的定位和目标。

简单来说,个性化推荐在电商平台中主要承担的任务是做用户和商品之间的精准匹配,从用户的角度来看,个性化推荐可以帮助用户在茫茫的商品中迅速找到自己有购买意愿,大幅降低商品搜寻成本。从电商平台的角度看,个性化推荐系统可以支持平台做到 uv 粒度的精细化运营,不管是促成交还是达到其他优化目标,个性化的流量分配可以最大化流量使用效率,这在获客成本居高不下的今天,是非常重要的。这里主要讲了推荐做为导购的定位,这也是推荐系统在电商应用中一个最主要的价值。流量是电商平台最宝贵的资源,推荐既然承担了流量分配的职责,同时也就承担起了建设平台生态的职责,除了追求成交外,还需要考虑比如新进商家,渗透率低品类的扶持和发展。

目前电商领域的个性化推荐所面临的挑战主要有以下几点:

   1.    用户购物诉求的精准捕捉。

推荐不同于搜索,搜索需要解决的问题具有很强的确定性,已知购物目的,只需要考虑相关性即可。而推荐则不同,推荐基于对用户意图的猜测,这种猜测来自于基于用户行为和用户画像的推理与判断。而且由于推荐在整个电商网站内无处不在,在用户的整个购买链路上都会发生作用,因此,对于用户的每个行为背后的真实意图的及时识别就变的非常重要。用户在线上购物环境下,诉求会变的微妙和难以捉摸,可能因为偶遇的一个促销活动,或者得到一张优惠券而完全改变本来的购物诉求,特别是女性用户群,普遍感性,易受外界影响,容易引发激情购物行为,一个精美的商品主图,或者明星街拍就可能引发购买。这些对于机器来说,都是比较难以捕获和量化的特征。再比如简单的一个商品点击事件,如果不结合上下文和用户的整个购物路径去分析,其实是没法区分这次点击是对商品购买意图的体现,还是只是一次随意的浏览。这里面涉及到较为复杂的用户购物状态的推理和判定,如果不借助人工输入,比如通过产品设计提供用户筛选接口,让用户人工输入限制项,典型的比如过滤器,负反馈,则对目前的机器算法是一个非常大的挑战。而推荐天然就是一个被动信息消费的产品,不适合做很重的意图探索交互,因此,这是目前电商平台上的推荐系统面临的一个较大的挑战。

   2.    推荐的优化目标,局部与全局的指标权衡。

无论承担了多少的角色定位,电商平台的个性化推荐一个万变不离其宗的任务就是达成成交,毕竟,这是一个交易平台,首要目标是最大化 GMV(Gross Merchandise Volume)。然而,单纯的优化成交类指标是有局限性的。首先从全局来看,推荐流量上做 gmv 最优,与全站 gmv 最优存在不一致性。用户从产生购买意向,到经历购买决策的整个过程,到最后下单,推荐可以作用于任何一个购物链路上的节点,如果推荐系统的优化目标是 GMV,那就意味着推荐在做最后的收割,这里收割的 gmv 是来自于其他模块的培育与引导的结果,而这些 gmv 即使不被推荐流量所收割,也大概率的会在其他场景被收割,比如购物车,收藏夹或搜索等。因此,推荐单纯做 gmv 的优化,未必能成就全局的 gmv 最大化。那么推荐就需要往购物链条的前端去做,做平台 gmv 的增量,这就引出了一系列的问题,如何使推荐在各个节点的作用可度量,优化目标怎么定,与 gmv 的关系怎样平衡。

其次,从平台生态来看,以 gmv 为优化目标,不加干预的推荐算法会造成马太效应,体现在电商平台上就是流量个性化后,对于渗透率高,轻决策的品类商品会拿到更多的流量,新品类,新商品较难出头,这里就需要有人工干预的策略。这个情况与新闻推荐有些类似,新闻推荐系统中,一个自然而清晰的优化指标就是点击率,但是如果只将点击率做为推荐算法的优化目标,带来的负面效果也是显而易见的,比如用户角度的内容过快收敛,平台生态来讲大量标题党,蹭热度的文章会导致优质内容迅速衰竭,因此阻碍了平台的健康发展。

   3.    用户体验的考量。

用户体验反映了一种感受,既然是种感受,那它是一个非常主观,很难量化的东西。一旦不能量化,就成了算法最大的挑战。做推荐的同学应该都深有感触,会收到各种关于体验类的抱怨,比如内容不相关,多样化不够等等。在做商品的推荐时,我们常常被抱怨的体验问题包括买了还推,推荐商品品类单一,没有让人眼前一亮的商品能满足一下发现的惊喜等等不一而足。往往这些体验问题的解决都需要人工规范的干预,但凡有规则的介入比如加入购买过滤,类目打散展示等策略,都会造成交易类指标的下降,平衡两者之间的关系对推荐系统是一个现实的挑战。

京东个性化推荐主要算法  

下面向大家介绍一下京东的个性化推荐系统的主要模块以及用到的主要算法。核心模块包括 offline pipeline 的数据生产;recall 部分;预测打分 (prediction service),系统框架如下图所示:

系统框架与传统的推荐系统类似,这里重点介绍下针对电商业务下,各个模块的逻辑和策略。在召回部分,用精准用户画像,通过倒排索引的方式实时的召回。应用协同过滤,及通过神经网络求解每个商品隐层 embedding 的表示,应用于召回。有点要提的是由于推荐系统会支持电商平台上各种频道,人群场景以及为你推荐模块内部商品的个性化,也支持店铺,活动等不同粒度的个性化展现,因此,召回的资源池会多种多样,不仅有不同选品标准的商品池,还有店铺池,活动池,优惠券池,我们通过实时消息通知和定期全量同步两种机制来保证。内容同步过来后,会有 pipeline 抽取内容中的特征。在排序阶段,应用业界领先的深度神经网络(DNN),及大规模线性模型,支持十亿级别的特征维度。应用强化学习的方法,实时的捕获用户和环境的交换及反馈,提升推荐效果。

总结来说,我们在推荐系统的效果优化上做了以下几点得到了效果的较大提升。

  1. 实时性,系统对用户行为的反应是实时的。

  2. 用户画像的精准性,找到用户真正感兴趣的类别,属性及价格区间。使得推荐更精准。

  3. 利用知识图谱,丰富商品属性,挖掘商品间的关系,改善用户体验。

  4. 通过大规模排序模型,应用海量的特征,提升排序效果。

提升效果的同时,也面临着一些特殊问题的解决,如冷启动、冷门类目的曝光,这个问题在开始也提到过。对于新品和渗透率低的品类,我们通过基于内容的 sku 关系挖掘,使得新品也可以被推荐出来。对于完全的新用户,我们会通过强利益点商品的推荐,得到一些反馈。对于某些类别下的新用户,我们会通过其他类别下的反馈,通过 cross-domain 推荐和迁移学习等技术进行推荐。

用户画像和商品画像  

下面介绍下算法使用的特征体系:用户画像和商品画像。

用户画像是根据用户人口统计学信息、社交关系、偏好习惯和消费行为等信息而抽象出来的刻画用户的标签化系统。用户画像分为多个维度,如长期用户画像,中期用户画像,实时用户画像。长期用户画像用来推断性别,年龄,地理位置等标签。这部分应用分类算法完成。中期用户画像通过 1 个月的用户行为,推断出用户近期感兴趣的 cid3,价格,属性等。这部分考虑了浏览的停留时间过滤了无效点击;商详页内是否看评论图片等细节信息。实时用户画像是基于浏览 session 的,可以实时推断用户每次新的行为后,感兴趣的商品。短期,长期和实时用户画像共同构成了对用户的精准表达。

商品画像是刻画商品的标签化系统。商品标签大致分为两部分:商品的自然属性(比如价格,品牌,销量,产地等),另一类是有共性的人群属性(比如购买此商品的人的购买能力,城市,年龄等等)。基于这些标签就可以刻画出商品之间的各种关系。知识图谱就是一种目前常用的刻画关系的方法,目前被谷歌等公司广泛使用。在推荐系统领域,由于它可以方便的组织知识(比如 sku,品牌,产品词,店铺)之间的各种关系,形成各种合理的推荐理由,从而有效的提升推荐结果结果的可解释性。目前我们已经建立了基于商品之间,品牌之间,以及商品与品牌之间的数十种关系的知识图谱。

不同推荐位和场景会采用不同的算法。召回和排序部分都有所不同。比如 app 首页猜你喜欢偏逛的推荐位,会有更丰富的召回,包括长期中期的兴趣,模型也会应用推荐位的反馈训练的。比如购物车和商详页的推荐,会以购物车中的商品及商详页的主商品为种子商品,根据知识图谱建立起来的商品间的关系召回更多商品,也会有自己的排序模型和特征。

618 大促个性化会场  

最后一部分,介绍下 618 个性化大促会场。今年的 618,京东取得了不俗的战绩。个性化会场,也称智能卖场在其中发挥了不小的作用。“智能卖场”实现了活动会场的个性化分发,大大提高了流量效率和用户体验,从而达到商家和用户双赢,不仅带来 gmv 的明显提升,也大幅降低了人工成本。

为了进一步提升用户购物体验,“智能卖场”还融入到用户的整个购买流程中。智能卖场会在购买路径上发现用户需求并推荐热点产品,以便提高购买效率;从加入购物车到确定购买产品、准备结算这一阶段,很多用户会形成一个过渡期,如果其间商品出现无货或者下架的情况,智能卖场将会根据产品价格、内容指数等给用户推荐相应的替代品;在提交订单环节,如果订单结算时无货,而后续有其他用户订单取消,通过大数据计算,智能化地推荐给信誉度较高的用户。

这里面我们实现了不止是传统的商品排序,还实现了楼层、活动、品牌、类目、优惠券及店铺等各种会场元素的算法排序,根据每个人的个人兴趣,给用户展现出其最感兴趣的活动、商品等,而不是像以往一样,所有人是千篇一律的一样的促销活动。

答疑环节  

Q1:个性化会场的推荐模型 是用以往的消费行为数据训练的还是实时迭代出来的?

曹媛媛:是前者。

Q2:您好老师,前面讲商品的时候提到了 embedding,请问这个 embedding 的输入是 onehot 编码?如果是的话,那每次训练离线模型的时候,都只能是当前所有的商品,那么对于新的商品怎么处理?

曹媛媛:我们的模型是增量学习的,来了新的商品后,模型迭代就能处理。

Q3:京东用的 spark mllib 做的推荐吗?还是自己写的?

曹媛媛:有应用 spark milib,也有用 xgboost。

Q4:另外在用户画像这一块,有考虑将用户 profile 向量化吗?

曹媛媛:用户画像我们有用神经网络学习一个隐式的向量表示。

Q5:用户的行为链条会用 rnn 建模吗?

曹媛媛:会用 lstm 建模。

Q6:类似旅游类这种周期性较长的商品 京东有做过推荐相关业务么?如果要做,有哪些会要注意的?就是购买周期可能相对较长,不会短时间内经常买。

曹媛媛:推荐在决策周期非常长的产品上发挥空间会比较有限。

Q7:实际操作中,是如何避免只给特定用户推荐某种类型商品,提供范围会不会越来越窄。还有偶然性点击,比如不小心点击了自己并没兴趣的内容,但是会在一段时间内一直推荐。

曹媛媛:我们的推荐系统有 click quality 的判定,不会出现由于误点造成对推荐结果的大幅度影响。

Q8:请问下美女学霸,对于推荐或搜索甚至广告这类产品,JD 内部的产品经理在跟开发、算法的合作过程中,是如何处理不同角色在技术方案上的分歧的?

曹媛媛:如果想在搜索推荐广告这类产品上做一个靠谱的产品经理,一定的技术背景一定是需要的,不然只能在外围打转,抓不住核心。京东这类产品的产品经理基本都是技术背景的,因此对算法模型的理解没有太大问题,在与算法工程同学合作的过程中,产品经理更多是做业务逻辑的输入,圈定一个问题边界,然后交由算法同学实现。

Q9:实时的用户画像在京东主要应用在哪些场景里,解决哪类问题。多谢。

曹媛媛:其实推荐,搜索,和广告都会用到。主要还是解决精准匹配的问题。

作者介绍

曹媛媛,京东商城搜索与大数据事业部高级产品总监,负责京东商城个性化推荐平台与大数据相关产品。在清华大学计算机系取得博士学位后,一直在从事搜索推荐方面的工作,曾在雅虎北京研发中心负责移动搜索和新闻推荐系统的产品设计,之后在阿里巴巴负责展示广告和个性化推荐方面的工作。

今日荐文

点击下方图片即可阅读

                                         

         京东 618 智能卖场:个性化技术在大促会场上的实践


免费报名! 全球架构师峰会深圳 2017 云计算与 AI 实践相关专场:7 月 7 日 UCloud 技术晚场上,来自 UCloud 才智过人的六位技术专家 / 解决方案架构师会结合以上的云计算话题点,带领大家进行深入的开发和应用讨论,碰撞最新最流行的技术观点。目的在于帮助大家解决在工作中遇到的技术难题,同时给出最佳的解决方案。现场,我们还会抽奖赠送礼品,礼品包括《大数据挖掘》、《深入浅出深度学习 Python 实践》、《心智社会》、《科技之巅 2》、《面向机器智能 TensorFlow 实践》、Kindle。欢迎现场蜂拥而至。戳“阅读原文”报名。