允中 整理编译
量子位 报道 | 公众号 QbitAI
8月6日,第34届国际机器学习大会(ICML 2017)已在悉尼拉开帷幕。
其中最受关注的论文奖项已公布。
据主办方消息,ICML2017共评审了1676篇论文,收录了434篇,录取率为25.89%。
最佳论文奖由斯坦福大学Pang Wei Koh和Percy Liang的论文Understanding Black-box Predictions via Influence Functions获得。最具时间价值奖则是2007年巴黎南大学和阿尔伯塔大学共同投递的论文Combining Online and Offline Knowledge in UCT。
量子位整理传送如下:
最佳论文奖
论文:Understanding Black-box Predictions via Influence Functions(通过影响函数理解黑箱预测问题)
作者:Pang Wei Koh、Percy Liang
单位:斯坦福大学
摘要:应该如何解释黑箱模型预测环境?在这篇论文中,我们用稳健统计学中的一种经典方法探索模型预测问题。通过学习算法和其背后的训练数据,模型能够识别给定预测最合理的训练点数。为了使影响函数应用在机器学习任务上,我们创建了一种简单且高效的实现方式,它仅需要梯度oracle访问途径和Hessian矢量积。虽然在非凸模型和不可微分模型中这个理论还不成立,但近似影响函数仍能提供有价值的信息。在这篇论文中,我们演示了影响函数在线性模型和卷积神经网络的多种任务的表现,包括理解模型表现、调试模型、检测数据集错误、甚至出创造视觉无法区分的训练集攻击类型。
论文下载地址:http://proceedings.mlr.press/v70/koh17a/koh17a.pdf
最佳论文提名
论文:Lost Relatives of the Gumbel Trick
作者:Matej Balog、Nilesh Tripuraneni、Zoubin Ghahramani、Adrian Weller
单位:剑桥大学、马克斯普朗克智能系统研究所等
摘要:Gumbel技巧是从离散概率分布中抽样或估计其归一化分区函数的方法。该方法取决于以特定方式重复对分布进行随机扰动,每次求解最可能的配置。我们得出了一系列相关的方法,其中Gumbel技巧是其中一种,并且表明新方法在几个设置中具有优越的性能,以及最小的附加计算成本。另外,对于Gum-bel技术来为离散图模型(discrete graphical model)有计算优势,所有配置的Gumbel扰动通常被所谓的低等级扰动(low-rank perturbations)所替代。我们展示了我们新方法的子系列如何适应这种设置,证明了对数分区函数的新的上限和下限,并得出了吉布斯分布(Gibbs distribution)的一系列重要采样器。最后,我们展示了如何通过更简单的Gumbel技巧来简化分析形式,推导出额外的理论结果。
下载地址:http://proceedings.mlr.press/v70/balog17a/balog17a.pdf
论文:Modular Multitask Reinforcement Learning with Policy Sketches
作者:Jacob Andreas、Dan Klein、Sergey Levine
单位:加州大学伯克利分校
摘要:我们描述了一个以policy sketches为指导的多任务深入增强学习的框架。sketches用指定的子任务序列标注任务,提供关于任务之间的高级结构关系的信息,但不是如何实现它们 —— 具体来说,不提供强化学习之前的学习策略抽象工作所使用的详细指导(如中间奖励、子任务完成信号、内在动机)。为了从sketches中学习,我们提出一个将子任务与模块化子政策相关联的模型,并通过将每一个子任务和模块子策略结合起来,并通过在共享子策略之间测试参数,将全部任务特定的策略的奖励最大化。优化是通过解耦合actor-critic训练目标来实现的,这个目标可以帮助学习多个不相似的奖励功能的共同行为。我们评估我们的方法在具有离散和连续控制的三个环境中的有效性,以及仅在完成若干高级次级目标之后才能获得的稀少奖励。实验表明,使用我们的方法学习sketches,比现有的学习特定任务或共享策略的技术具有更好的表现,同时可以自然归纳出可重新组合的可解释的原始行为库,以快速适应新任务。
下载地址:http://proceedings.mlr.press/v70/andreas17a/andreas17a.pdf
论文:A Unified Maximum Likelihood Approach for Estimating Symmetric Properties of Discrete Distributions
作者:Jayadev Acharya、Hirakendu Das、Alon Orlitsky、Ananda Suresh
单位:康奈尔大学、雅虎等
摘要:许多应用中都出现了对称分布特性,例如支持大小、支持覆盖率、熵值和均匀性等。最近,研究人员应用了不同的估计量和分析工具,来为每个属性推导渐进的样本最优近似。我们的研究表明,单一、简单、插件式的估计量:profile maximum likelihood (PML),是可以与所有对称属性竞争的样本,特别是对于上述所有属性,PML最优。
下载地址:http://proceedings.mlr.press/v70/acharya17a/acharya17a.pdf
最具时间价值奖(Test of Time Award)
论文:Combining Online and Offline Knowledge in UCT
作者:Sylvain Gelly、David Silver
单位:巴黎南大学、阿尔伯塔大学
摘要:UCT算法使用基于样本的搜索在线学习价值函数。TD(λ) 算法可以为策略分布离线学习一个价值函数。我们在UCT算法中考虑了三种离线和在线价值函数的组合。第一种,在蒙特卡洛模拟中使用离线价值函数作为默认策略。第二种,UCT价值函数与快速在线action values评估相结合。第三,离线价值函数作为UCT搜索树的先验知识。我们通过在9×9规格围棋盘上对阵GnuGo 3.7.10来评估这些算法。第一种算法的表现,由于使用随机模拟策略的UCT,但是令人意外的比使用手工模拟策略的UCT算法要差。第二种算法全面优于UCT。第三种算法表现优于使用手工先验知识的UCT算法。我们在MoGo(世界最强9×9围棋程序)中结合了这三种算法。每一种算法都显著改善了MoGo的棋力。
下载地址:http://www.machinelearning.org/proceedings/icml2007/papers/387.pdf
最具时间价值奖提名:
论文:Pegasos: Primal Estimated sub-GrAdient SOlver for SVM
地址:http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
论文:A Bound on the Label Complexity of Agnostic Active Learning
下载地址:http://www.machinelearning.org/proceedings/icml2007/papers/375.pdf