专栏名称: 天池大数据科研平台

天池，基于阿里云的开放数据处理服务ODPS，面向学术界开放海量数据和分布式计算资源，旨在打造“数据众智、众创”第一平台。在这里，人人都可以玩转大数据，共同探索数据众创新模式。

从上千篇投稿脱颖而出，这5篇大数据论文凭什么征服KDD评委？

天池大数据科研平台 · 公众号 · 大数据 · 2017-05-31 22:15

正文

文章来源：阿里技术（ali_tech）

5月23日消息，在2017国际知识发现与数据挖掘大会（KDD）全球论文投稿中，阿里集团和蚂蚁金服共有5篇论文被大会收录，这是继年初阿里云天池获得KDD Cup 2017举办权之后，阿里巴巴在国际数据挖掘顶会KDD学术成果上的又一次突破。

在此小天温馨提醒：明天是KDD CUP 2017最后一次可以提交结果的日子！各位请把握最后一次机会！

附KDD CUP接下来的时间安排：
June 1st, 2017: Final result submission

June 7th, 2017: Deadline for the finalists to submit code & documentation

June 15th, 2017: Announcement of winners

KDD 2017 官网图片

KDD的英文全称是Knowledge Discovery and Data Mining，即知识发现与数据挖掘，由美国计算机协会ACM下的数据挖掘分会举办，是国际数据挖掘领域的顶级会议，每年有大量来自世界各地的学术界和工业界人士参与此盛会。KDD 2017共吸引全世界1144篇论文投递，收录216篇，包括清华、中科院、阿里在内的中国大陆学术界和工业界共被收录25篇。今年8月，KDD 2017大会将在加拿大港口城市哈利法克斯召开。

据了解，阿里巴巴本次被收录论文涵盖深度学习、大规模图计算、商品智能排序等多个研究领域，基于真实的业务场景或数据样本，文中部分方法结论已经在业务中运用。如深度学习语义建模研究中提出了一种新的文本语义编码算法conv-RNN，该模型在参考了较为常用的文本语义编码模型循环神经网络与卷积神经网络的同时，进行了进一步的文本语义编码优化，实现更为精准的文本分类和问答匹配并已应用于阿里智能问答系统中。

5篇论文概述如下：

《淘宝展示广告中的OCPC智能调价算法》

“针对传统广告系统中广告主对粗粒度流量进行固定价格竞价的模式，该论文创新性提出了一种新的OCPC(Optimized Cost per Click)智能调价算法。

该方法智能调整每个流量上的广告主出价，实现更优的流量价值匹配，明显提升了广告主收益和广告系统的分配效率。同时立足于健康的经济生态和可持续的长远收益，该方法亮点在于不单优化了客户价值，还实现了用户体验、平台收益的整体优化和经济福利的权衡分配。”

《基于大规模图计算的本地算法对展示广告的行为预测》

“用户行为建模在计算广告中是至关重要的，它通过跟踪用户的在线行为建立用户的产品，然后根据用户的兴趣和需求提供相关的广告。准确的模型将导致更高的定位精度，从而提高广告效果。直观上，类似的用户往往对展示的广告具有类似的行为（例如，展示，点击，转换）。

然而，据我们所知，以前的工作没有太多明确地调查各种类型的用户行为的相似之处，并且将它们纳入广告响应目标和预测中，主要是由于问题规模过大。为弥合这一差距，本文中，我们使用二分图来表示历史用户行为，其中包括用户节点和广告客户活动节点，以及过去反映各种类型的用户- 广告营销活动交互的边。

基于这种表示，我们研究了用户行为建模和动作预测的随机步行本地算法，其计算复杂度仅取决于输出群集的大小，而不是整个图形。我们的目标是通过利用历史用户-用户 (user-user)，广告系列活动 (campaign- campaign) 和用户-活动 (user-campaign) 交互来改善行为预测。

特别地，我们提出了伴随ADNI算法的二分图AdvUserGraph。 ADNI将NIBBLE算法扩展到AdvUserGraph，并且能够将由感兴趣的用户组成的本地群集发现到特定的广告客户活动。我们还提出了ADNI的两个扩展，提高了效率。所提出的算法的性能表现在合成数据和世界领先的需求侧平台（Demand Side Platform），表明它们在预测极少数事件的有效性。”

《一种新的语义编码模型及其在智能问答及分类中的应用》

“在本文中，我们研发了卷积迭代神经网络（conv-RN N）的通用推理混合框架，用于文本的语义建模，无缝集成了从卷积和复现神经网络结构中提取语言信息的不同方面的优点从而加强新框架的理解力。

此外，基于转换RNN，我们还提出了一种新颖的句子分类模型和一个基于句子的答案选择模型，分别具有加强力的句子匹配和分类。我们在各种各样的数据集中验证了所提出的模型，包括两个具有挑战性的答案选择任务（AS）和用于句子分类（SC）的基准数据集。

据我们所知，AS和SC目前是最为完整的比较结果。我们在这些不同的挑战性任务和基准数据集中经验性地展示了转换RNN的优越性能，并总结了对其他最先进技术方法的表现的见解。”

《多层级联学习在大型电商排序系统的应用》

“在大数据时代，大量应用都会涉及到对海量项目进行排序的工作。我们一方面需要得到尽量准确的排序结果，另一方面希望保证系统的性能以及用户的体验。过往大量的工作都集中在算法准确性方面（如各种learning to rank的方法）；只有不多的工作会考虑计算的性能，而且基本停留在小数据集和研究阶段。而在电商场景，商品总量很多的同时(十亿级)，query的相关商品也可能很多(千万级)。

在在线请求非常高的情况下，计算性能是必须考虑的，尤其是在双十一等场景下请求量会数倍的增长。为了同时保证排序的效果和效率以及用户体验，本文设计并实现了一种级联式搜索CLOES：它的主要思想是将以此排序分成多个阶段，各阶段使用逐渐复杂的特征去得到逐渐准确的结果；在靠前阶段使用简单特征过滤显然不合要求的结果，在靠后阶段使用复杂特征辨别难以区分的结果。

除此以外，算法结合电商场景的特殊性，严格限制了返回结果的延迟以及返回商品的数量，以保证用户的搜索体验。离线实验验证了算法的正确性以及有效性，对比传统的方法能提升准确率的同时大幅提升了计算性能；在去年双11，在新增了大量准确又耗时的计算特征(包括强化学习和深度学习特征)的情况下，算法极大保证了引擎的效率，使排序对引擎的压力下降40%，同时排序效果有一定提升。”

《基于参数服务器的分布式学习系统及其在阿里和蚂蚁的应用》

从上千篇投稿脱颖而出，这5篇大数据论文凭什么征服KDD评委？

正文

请到「今天看啥」查看全文