当地时间 8 月 6 日,第 34 届国际机器学习大会(ICML 2017)在澳大利亚悉尼正式开幕。在大会的第一天下午,备受关注的本届大会最佳论文等奖项也已公布。
ICML 是计算机科学领域的顶会之一。在机器之心昨日的文章《计算机领域顶级科学家、学术会议、期刊影响力排名(附国内排名)》中,根据 Google Scholar Metrics 的 H5-Index 值作出的排名可以看出,ICML 在计算机科学领域众多会议中位列第四。
据统计,ICML 2017 共评审了 1676 篇论文,接收了 434 篇,录取率为 25.89%。在机器之心之前报道的论文中,也有众多为 ICML 2017 所接收,比如百度有关 Deep Voice、Gram-CTC 的论文。据机器之心了解,腾讯 AI Lab 也有四篇论文入选 ICML 2017。
今日,ICML 2017 公布了最佳论文、Test of Time Award 以及荣誉提名论文,共 7 篇获奖论文。
获奖论文如下:
最佳论文奖
Honorable Mentions
Test of Time Award
Honorable Mentions
论文:Pegasos: Primal Estimated sub-GrAdient SOlver for SVM
作者:Shai Shalev-Shwartz、Yoram Singer、Nathan Srebro、Andrew Cotter
机构:耶路撒冷希伯来大学、谷歌、芝加哥丰田工业大学
本文中,机器之心对这 7 篇论文进行了摘要介绍。
最佳论文
论文:Understanding Black-box Predictions via Influence Functions
地址:http://proceedings.mlr.press/v70/koh17a/koh17a.pdf
摘要:我们应该如何解释黑箱模型的预测结果?在本论文中,我们使用影响函数(influence functions),即一种鲁棒统计(robust statistics)的经典技术,它可以通过学习算法追踪模型的预测并返回训练数据,因此我们能确定最影响给定预测的训练数据点。为了将影响函数扩展到现代机器学习设定中,我们开发了一个简单并高效的实现,它只需要对梯度和 Hessian-vector 积有 oracle 访问。我们展示了即使在理论失效的非凸和不可微模型下,影响函数的近似依然能提供有价值的信息。在线性模型和卷积神经网络中,我们展示了影响函数的多用途性:理解模型的行为、检测模型错误、检测数据集错误,它甚至能构建视觉上不可区分的攻击训练集。
Honorable Mentions
论文:Lost Relatives of the Gumbel Trick
地址:http://proceedings.mlr.press/v70/balog17a/balog17a.pdf
摘要:Gumbel 技巧是一种从离散概率分布中抽样或估计其归一化配分函数(partition function)的方法。该方法依赖于使用特定方式对分布重复应用随机扰动,并且每一次都求解最可能的配置。我们推导出了一系列相关的方法,其中 Gumbel 技巧就是其中一员,本论文表明新方法因为有最小的额外计算成本而在多种设置中有优秀的属性。特别的,Gumbel 技巧对于离散图模型(discrete graphical model)有计算优势,并且在所有配置上的 Gumbel 扰动通常被所谓的低秩扰动(low-rank perturbations)所替代。我们展示了新方法的子系列如何适应这种设置,并证明了对数配分函数一种新的上确界和下确界,且推导出吉布斯分布(Gibbs distribution)的一系列序列采样。最后,我们展示了如何从 Gumbel 技巧简化分析并推导出额外的理论结果。
论文:Modular Multitask Reinforcement Learning with Policy Sketches
地址:http://proceedings.mlr.press/v70/andreas17a/andreas17a.pdf
摘要:我们描述了一个由策略 sketch 引导的用于多任务深度强化学习的框架。Sketch 使用命名的子任务序列来标注任务,提供任务之间高层次结构关系信息,而不是如何实施它们——具体来说,就是不提供强化学习之前的学习策略抽象工作所使用的详细指导(如中间奖励、子任务完成信号、内在动机)。为了从 sketch 中学习,我们展示了一个模型,该模型将每一个子任务和模块子策略结合起来,并通过在共享子策略之间尝试参数,将全部任务特定的策略的奖励最大化。该模型通过解耦合 actor-critic 训练目标完成优化,即推动模型从多种不同奖励函数中学习普遍行为。我们在三种环境中对我们方法的有效性进行评估:离散控制环境、持续控制环境和带有完成一系列高层次子目标才能获取的稀疏函数的环境。实验证明在 sketch 的引导下使用我们的方法学习策略的性能优于现有的学习任务特定或共享策略的技术,通过我们的方法可自然归纳出一个可解释的原始行为库,该库可重新整合以快速适应新任务。
论文:A Unified Maximum Likelihood Approach for Estimating Symmetric Properties of Discrete Distributions
地址:http://proceedings.mlr.press/v70/acharya17a/acharya17a.pdf
摘要:许多应用中出现了诸如支持大小、支持覆盖率、熵和一致性接近度(proximity to uniformity)等对称分布特性。最近,研究人员应用了不同的估计量和分析工具来为每个这些特性渐进地推导样本最优近似。我们表明,单个简单的插件估计量——profile 最大似然(profile maximum likelihood/PML)——是可与所有对称特性相竞争的样本;尤其是对于以上所有属性,PML 是渐进地样本最优的。
Test of Time Award
论文:Combining Online and Offline Knowledge in UCT
地址:http://www.machinelearning.org/proceedings/icml2007/papers/387.pdf
摘要:UCT 算法使用基于样本的搜索学习在线价值函数(value function)。T D(λ) 算法可以学习用于在策略分布的离线价值函数。我们考虑了三种方法在 UCT 算法中结合离线和在线价值函数。第一种,离线价值函数在蒙特卡洛模拟中作为默认策略。第二种,把 UCT 价值函数与在线评估动作值结合起来。第三种,离线价值函数在 UCT 搜索树中作为先验知识(prior knowledge)。我们在 9 × 9 围棋对战 GnuGo 3.7.10 中对这些算法进行评估。第一种算法性能优于使用随机模拟策略的 UCT 算法,但却意外地比使用较差的人工模拟策略的 UCT 算法性能要差。第二种算法性能优于 UCT 算法。第三种算法优于使用人工先验知识的 UCT 算法。我们在 MoGo(世界上最强大的 9 × 9 围棋程序)中结合了这些算法。每一种技术都显著改善了 MoGo 的下棋水平。
Honorable Mentions
论文:Pegasos: Primal Estimated sub-GrAdient SOlver for SVM
地址:http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
摘要:我们描述分析了一个简单有效的随机子梯度下降算法(stochastic sub-gradient descent algorithm),用于解决支持向量机(SVM)提出的优化问题。我们证明了获得精确度解决方案所需的迭代次数是 O(1/ε),其中每次迭代在单个训练实例中运行。相比之下,先前 SVM 的随机梯度下降方法的分析需要 Ω(1/ε^2 ) 次迭代。如先前设计的 SVM 求解器,迭代次数随着 1/λ 线性缩放,其中 λ 是 SVM 的正则化参数。对于线性核函数,我们方法的总运行时间为 O(d/(λε)),其中 d 是每个实例中非零特征数量的约束。由于运行时间不直接依赖于训练集的大小,因此得到的算法特别适合于从大型数据集学习。我们的方法也可以扩展到非线性核函数,同时仍然仅基于原始目标函数,尽管在这种情况下,运行时确实依赖于训练集大小。我们的算法尤其适合解决大型文本分类问题,在这些问题中,我们展示了超过以前的 SVM 学习方法的数量级加速。
论文:A Bound on the Label Complexity of Agnostic Active Learning
地址:http://www.machinelearning.org/proceedings/icml2007/papers/375.pdf
摘要:我们研究了在不可知的 PAC(agnostic PAC)模型中基于池化的主动学习的标注复杂度。具体来说,我们得出了 Balcan、Beygelzimer 和 Langford 提出的 A^2 算法(Balcan et al., 2006)所做的标注请求数量的一般界限。这表示了不可知的 PAC 模型中标注复杂度的第一个非常重要的通用上界。
本文为机器之心报道,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者/实习生):[email protected]
投稿或寻求报道:[email protected]
广告&商务合作:[email protected]