来源:阿里集团和蚂蚁金服
编辑:闻菲
【新智元导读】
2017 年的数据挖掘顶会 KDD 开幕在即,新智元带来阿里集团和蚂蚁金服在本届会议发表的 5 篇论文。其中,介绍阿里内部分布式学习系统“鲲鹏”的论文,还有淘宝智能排序算法 CLOSE 的论文,都将以口头报告的形式发表。
KDD 的英文全称是 Knowledge Discovery and Data Mining,即知识发现与数据挖掘,由美国计算机协会 ACM 下的数据挖掘分会举办,是国际数据挖掘领域的顶级会议,每年有大量来自世界各地的学术界和工业界人士参与此盛会。KDD 2017 共吸引全世界 1144 篇论文投递,收录 216 篇,包括清华、中科院、阿里在内的中国大陆学术界和工业界共被收录 25 篇。
在 2017 国际知识发现与数据挖掘大会(KDD)全球论文投稿中,阿里集团和蚂蚁金服共有 5 篇论文被大会收录,都在应用 Track(大会接收论文分 Research Track 和应用 Track),涵盖深度学习、大规模图计算、商品智能排序等多个研究领域,基于真实的业务场景或数据样本,文中部分方法结论已经在业务中运用。
例如,深度学习语义建模研究中提出了一种新的文本语义编码算法 conv-RNN,该模型在参考了较为常用的文本语义编码模型循环神经网络与卷积神经网络的同时,进行了进一步的文本语义编码优化,实现更为精准的文本分类和问答匹配,已经应用于阿里的智能音箱产品。
2 篇应用 Track 口头报告:展现大规模真实系统中的实际应用
鲲鹏:基于参数服务器的分布式学习系统及其在阿里和蚂蚁的应用
KunPeng: Parameter Server based Distributed Learning Systems and Its Applications in Alibaba and Ant
作者:周俊、李小龙、赵沛霖、陈超超等
近年来,由于大数据(TB 甚至 PB 量级)和大模型(数千亿甚至上万亿参数)的出现,无论是学术圈还是工业界,都亟需并行机器学习的能力。虽然有一些现有的分布式计算系统,如 Hadoop 和 Spark,它们为了支持机器学习算法并行化,提供了一些同步和粗粒度运算符(例如,Map,Reduce 和 Join 等),能够在一定程度上解决一些中小规模的问题,但这些系统很难让开发人员设计出更有效率且支持更大规模的机器学习算法。这促使我们设计一个通用的分布式平台,称为鲲鹏(KunPeng)。它结合了分布式系统和分布式优化算法的特性,处理复杂的大规模机器学习问题。
鲲鹏的架构:鲲鹏建立在阿里巴巴集团内部的大规模分布式 Apasra 平台上面,Robust Failover、Backup Instance,以及 DGA for Scheduling & Synchronization
具体来说,鲲鹏不仅封装了数据/模型并行、负载平衡、模型同步、稀疏表示、工业容错等特性,而且还提供了易于使用的接口,以使用户能够聚焦在机器学习核心逻辑上,降低使用成本并提升效率。在上千亿样本/特征的数据集上,测试结果表明,这样的设计在机器学习上带来了引人注目的性能改进,大幅提升了 LR、FTRL、GBDT、FM 和深度学习等算法的规模跟效率。鲲鹏已经在包括阿里巴巴的双11、广告、推荐、蚂蚁金服交易风险估算等上百个真实场景上线,并取得了令人鼓舞的效果。
实验中,鲲鹏在训练时间和存储方面都优于 Spark 和 MPI。
多层级联学习在大型电商排序系统的应用
Cascade Ranking for Operational E-commerce Search
作者:刘士琛、肖非、欧文武、司罗
(阿里集团)
在大数据时代,大量应用都会涉及到对海量项目进行排序的工作。我们一方面需要得到尽量准确的排序结果,另一方面希望保证系统的性能以及用户的体验。过往大量的工作都集中在算法准确性方面(如各种 learning to rank 的方法);只有不多的工作会考虑计算的性能,而且基本停留在小数据集和研究阶段。在电商场景,商品总量很多的同时(十亿级),query 的相关商品也可能很多(千万级)。在在线请求非常高的情况下,计算性能是必须考虑的,尤其是在“双11”等场景下请求量会数倍的增长。
为了同时保证排序的效果和效率以及用户体验,本文设计并实现了一种级联式搜索 CLOES:它的主要思想是将以此排序分成多个阶段,各阶段使用逐渐复杂的特征去得到逐渐准确的结果;在靠前阶段使用简单特征过滤显然不合要求的结果,在靠后阶段使用复杂特征辨别难以区分的结果;除此以外,算法结合电商场景的特殊性,严格限制了返回结果的延迟以及返回商品的数量,以保证用户的搜索体验。离线实验验证了算法的正确性以及有效性,对比传统的方法能提升准确率的同时大幅提升了计算性能;在去年双11,在新增了大量准确又耗时的计算特征(包括强化学习和深度学习特征)的情况下,算法极大保证了引擎的效率,使排序对引擎的压力下降 40%,同时排序效果有一定提升。
(※该论文也有海报展示)
3 篇海报展示:智能调价算法、用户行为预测、问答及分类
淘宝展示广告中的 OCPC 智能调价算法
Optimized Cost per Click in Taobao Display Advertising
作者:朱晗、靳骏奇、李
晗
(
阿里集团)
针对传统广告系统中广告主对粗粒度流量进行固定价格竞价的模式,该论文创新性提出了一种新的 OCPC(Optimized Cost per Click)智能调价算法。该方法智能调整每个流量上的广告主出价,实现更优的流量价值匹配,明显提升了广告主收益和广告系统的分配效率。同时立足于健康的经济生态和可持续的长远收益,该方法亮点在于不单优化了客户价值,还实现了用户体验、平台收益的整体优化和经济福利的权衡分配。该项技术现已在淘宝展示广告主要场景上全面应用并取得了明显的效果提升。