专栏名称: 机器学习研究会
机器学习研究会是北京大学大数据与机器学习创新中心旗下的学生组织,旨在构建一个机器学习从事者交流的平台。除了及时分享领域资讯外,协会还会举办各种业界巨头/学术神牛讲座、学术大牛沙龙分享会、real data 创新竞赛等活动。
目录
相关文章推荐
爱可可-爱生活  ·  【[52星]N8loom:基于树结构的前缀缓 ... ·  昨天  
宝玉xp  ·  转发微博-20250205150219 ·  昨天  
爱可可-爱生活  ·  【The End of Search, ... ·  昨天  
信息平权  ·  国产的希望 ·  5 天前  
信息平权  ·  国产的希望 ·  5 天前  
51好读  ›  专栏  ›  机器学习研究会

AI在双11中的个性化搜索和决策实践

机器学习研究会  · 公众号  · AI  · 2017-12-17 21:32

正文

12月13-14日,由云栖社区与阿里巴巴技术协会共同主办的《2017阿里巴巴双11技术十二讲》顺利结束,集中为大家分享了2017双11背后的黑科技。本文是《人工智能在搜索中的应用》演讲整理,本文首先介绍了AI如何在搜索中落地,进而重点介绍了个性化搜索,包括图搜索、个性化召回,接着又分享了智能决策的探索。内容如下。


分享嘉宾:



三桐:阿里巴巴资深算法专家,淘宝商品搜索算法方向,主持多个搜索技术项目,致力于推动大规模机器学习、深度学习等在商品搜索的应用。


搜索智能化之路


搜索是有交互的个性化推荐产品,具体体现在query的引导,提升整体效率;其次是个性化,主要问题是行业冷启动、购物链路比较长,包括淘宝产品如搜索、推荐、广告的个性化,用户会在其中作不同的穿插;第三,电商搜索是商业平台的搜索产品,涉及到消费者、商家和买家三方市场;最后是数据闭环,淘宝数据链与网页不一样,用户行为(浏览、点击、成交、评价、物流)形成全链路闭环数据,商品数据也上传到淘宝平台中。


AI在搜索中如何落地?


在算法层面,需要考虑用户理解、个性化匹配和排序策略,还要对购物链路进行优化,也要对深度学习在线预估进行探索调研。学习(大数据+大模型+实时+在线预估)+决策(自动探索和学习)是在算法中所作的人工智能,学习具体体现在由单任务-多任务、由浅层-深层、由batch-sgd,决策是指探索未知领域、多任务联合优化等。


AI在搜索中的挑战主要是如何做超大规模机器学习平台,如何进行在线深度学习,如何进行稀疏深度模型处理和加速,如何进行异构计算,如何进行多模信息融合、多任务表征学习、多目标学习,以及如何处理长短期收益平衡?



图为算法系统框架,包括离线数据处理和机器学习平台和在线数据处理和机器学习平台,离线主要做预测和模型训练,在线主要做个性化引擎和搜索服务。算法层面我们实现了常见的强化学习、在线学习、深度学习等主要模型,我们还为搜索业务制定了特定模型。



在系统演化方面我们取得了很多进展,比如:


  • 流式计算Blink:实时日志Join,在线特征抽取和预测和在线学习 TF-PAI@Porsche;


  • 图搜索引擎 IGRAPH:分布式超大规模,实现实时更新、在线查询、过滤、复合查询和推理;


  • 在线排序算分服务 RTP:服务解耦,CPU + GPU异构计算;


  • 机器学习平台:离线、增量和在线学习,混布和异构计算;


  • 引擎:个性化索引和向量召回,多级排序和重排;


  • 平台化:服务产品化,算法平台化。


整体来看,算法、系统和业务正在交织发展,机器学习平台、在线学习平台和实时计算平台是算法的前提条件,我们一直在探索深度学习和强化学习,并且在搜索全链路深度学习、多场景联合优化和知识图谱和智能交互方面取得一些进步。


个性化搜索


关键字推荐



推荐关键字主要参考用户和当前query,我们会给出关键字list,用户会选择想要的query进行下一步的搜索,那么,如何评价query list的好坏呢?我们从直接收益和间接收益当中学习,包括query点击和query引导的用户搜索页是否成交,以及用户选择query后,会产生新的query做query推荐。Query推荐是一个序列优化问题,适合使用强化学习来做,所以我们基于DQN做query推荐,每个query是一个action,状态是用户和当前query。


图搜索



个性化搜索数据体系叫电商图谱,是以用户为核心建立用户社交圈、用户生活圈、用户购物行为、用户购物行为、用户标签和辅助关系,通过数据挖掘挖掘出这些关系,基于此图做简单个性化,电商图谱约有10亿个实体、近千亿条边和几十种关系类型。


个性化召回



个性化搜索中较重要的是个性化召回,首先基于Igraph数据取出基本信息,因为搜索中是有query的,每个query中用户信息是不一样的,所以首先会基于上下文对基本信息进行过滤,再拿这个信息去引擎中召回结果。传统搜索引擎只是关键字,在这里除了关键字外,还有很多个性化辅助信息参与召回。









请到「今天看啥」查看全文