专栏名称: AI数据派

THU数据派"基于清华，放眼世界"，以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯，定期组织线下活动，分享前沿产业动态。了解清华大数据，敬请关注姐妹号“数据派THU”。

ICML话题：机器学习近年来之怪现状

AI数据派 · 公众号 · · 2018-07-15 07:30

正文

来源：机器之心

作者： Zachary C. Lipton、Jacob Steinhardt

本文共 10800字 ，建议阅读 10+分钟 。

本文针对近年来ML领域不合理解释与推测、滥用数学及语言等不良趋势，举例并阐述背后的原因，鼓励研究人员构建合理的学术标准以实现自我修正。

[ 导读 ] 人工智能领域的发展离不开学者们的贡献，然而随着研究的进步，越来越多的论文出现了“标题党”、“占坑 ” 、 “ 注水 ” 等现象，暴增的顶会论文接收数量似乎并没有带来更多技术突破。最近，来自卡耐基梅隆大学的助理教授 Zachary C. Lipton 与斯坦福大学博士 Jacob Steinhardt 提交了一篇文章《Troubling Trends in Machine Learning Scholarship》，细数了近年来机器学习研究的几大 “ 怪现状 ” 。本文将在 7 月 15 日 ICML 2018 大会上的 “ Machine Learning: The Debates” 研讨会上接受讨论。

一、引言

总体来说，机器学习（ML）的研究人员正在致力于数据驱动算法知识的创建与传播。在一篇论文中提到，研究人员迫切地想实现下列目标的任一个： 理论性阐述可学习内容、深入理解经验严谨的实验或者构建一个有高预测精度的工作系统。 虽然确定哪些知识值得探究是很主观的，但一旦主题确定，当论文为读者服务时，它对社区最有价值，它能创造基础知识并尽可能清楚地进行阐述。

什么样的论文更适合读者呢？我们可以列出如下特征：这些论文应该：

提供 直观感受 以帮助读者理解，但应明确区别于已证明的强有力结论;
阐述考量和排除其他假设的 实证调查 [62];
明确 理论分析 与 直觉或经验 之间的关系 [64];
利用语言 帮助读者理解 ，选择术语以避免误解或未经证实的内容，避免与其他定义冲突，或与其他相关但不同的概念混淆 [56]。

尽管经常偏离这些理想条件，但机器学习近期仍然在持续进步。在本文中，我们关注以下四种模式，在我们看来，这些模式是机器学习领域当下研究的倾向：

无法区分客观阐述和猜想。
无法确定达到好效果的来源： 例如，当实际上是因为对超参数微调而获得好效果的时候，却强调不必要修改神经网络结构。
数学性： 使用令人混淆的数学术语而不加以澄清，例如混淆技术与非技术概念。
语言误用： 例如，使用带有口语的艺术术语，或者过多地使用既定的技术术语。

虽然这些模式背后的原因无法确定，但很可能包括社区大幅扩张，导致审查人员数量不足，以及学术和短期成功衡量标准（如文献数量、关注度、创业机会）之间经常出现的错位激励。虽然每种模式都提供了相应的补救措施（呼吁“不要这样做 ” ），我们还是想讨论一些关于社区如何应对此类趋势的探索性建议。

随着机器学习的影响扩大，研究此类论文的人员越来越多，包括学生、记者和决策者，这些考量也适用于更广泛的读者群体。我们希望通过更清晰精准的沟通，加速研究步伐，减少新晋研究人员的入门时间，在公共讨论中发挥建设性的作用。

有缺陷的学术研究可能会误导大众、阻碍未来研究、损害机器学习知识基础。 事实上，在人工智能的历史上，甚至更广泛的科学研究中，很多问题都是循环往复的。1976 年，Drew McDermott [53] 就批判 AI 社区放弃了自律，并预言 “ 如果我们不能批评自己，就会有别人来帮我们解决问题 ” 。类似的讨论在 80 年代、90 年代和 00 年代反复出现 [13,38,2]。在心理学等领域，糟糕的实验标准削弱了人们对该学科权威的信任 [14]。当今机器学习的强劲潮流归功于迄今为止大量严谨的研究，包括理论研究 [22,7,19] 和实证研究 [34,25,5]。通过加强更明了的科学思考和交流，我们才可以维持社区目前所拥有的信任和投资。

二、免责声明

本文旨在激发讨论，响应 ICML 机器学习辩论研讨会关于论文的号召。虽然我们支持这里的观点，但我们并不是要提供一个完整或平衡的观点，也不是要讨论机器学习这一科学领域的整体质量。在复现性等许多方面，社区的先进标准远远超过了十年前的水平。

我们注意到，这些争论是我们自己发起的，攻击的也是我们自身，关键的自省都是我们自己人做出的，而不是来自局外人的攻击。我们发现的这些弊病不是某个人或某个机构独有的。我们已经身处这种模式之中，将来还会重蹈覆辙。

揭示其中一种模式不会让一篇论文变差或谴责论文的作者，但是我们相信，揭示这种模式之后，所有论文都会因避开这种模式而得到质量的提高。

我们给出的具体例子将涉及我们自身及那些我们仰慕的著名研究者或机构，不会挑选那些容易受到本文严重影响的年轻学者或没有机会与我们平等对话的研究者。身处这样一个可以自由获取知识、表达观点的社区，我们感到非常欣慰。

三、不良趋势

在下面的每个小节中，我们将：

首先描述一个趋势；
然后提供几个例子（包括抵制这一趋势的正面例子）；
最后解释该趋势带来的后果。

指出个别论文的弱点可能是一个敏感的话题。为了尽量减少这种情况，我们选择了简短而具体的例子。

3.1 解释与推测

对新领域的研究往往涉及基于直觉的探索，这些直觉尚未融合成清晰的表达形式。于是推测成为作者表达直觉的一种手段，但是这种直觉可能还无法承受科学审查的所有压力。然而，论文常以解释为名行推测之实，然后由于科学论文的伪装和作者假定的专业知识，这些推测被解释为权威。

例如，[33] 围绕一个内部协变量转移的概念形成了一个直观的理论。关于内部协变量转移的论述从摘要开始，似乎陈述了技术事实。然而，关键术语不够清晰，最终无法得出一个真实值。例如，论文指出，通过减少训练过程中隐激活层分布的变化，批处理规范化可以获得改进。这种变化是用哪种散度衡量的？论文中没有阐明，并且有些研究表明，这种对批处理规范化的解释可能偏离了 [65] 的标准。然而，[33] 中给出的推测性解释已经被重复为一种事实，例如 [60] 中说， “ 众所周知，由于内部协变量转移问题，深层神经网络很难优化。”

我们也同样对伪装成推测的解释感到不安。在 [72] 中，JS 写道， “ 无关特征的高维性和丰富性……给了攻击者更多的空间来攻击 ” ，而没有进行任何实验来衡量维度对攻击性的影响。在 [71] 中，JS 引入了直观的覆盖概念，但没有对其进行定义，并将其当做一种解释来运用，如： “ 缺少覆盖的一个表现是不确定性估计较差，无法生成高精度的预测。 ” 回顾过去，我们希望交流不够具体化的直觉，这些直觉对论文中的研究很重要，我们不愿把论点的核心部分看作推论。

与上述例子相反，[69] 把推测与事实区分开来。这篇论文介绍了 dropout 正则化，详细推测了 dropout 和有性繁殖之间的联系，但 “ Motivation”一节明确地隔开了这一讨论。这种做法避免了混淆读者，同时允许作者表达非正式的想法。

在另一正面例子中，[3] 提出了训练神经网络的实用指南。在这篇论文中，作者谨慎地表达了不确定性。该论文没有把这些指南当成权威性的东西，而是这样表达： “ 虽然这些建议……来自多年的实验和一定程度的数学证明，但它们应该受到挑战。这是一个良好的起点……但没有得到什么正式验证，留下许多问题，可以通过理论分析或扎实的比较实验工作来回答”。

3.2 未能确定经验成果的来源

机器学习同行评审过程重视技术创新。也许是为了让审稿人满意，许多论文强调了复杂的模型（这里提到的）和奇特的数学表达式（见 3.3）。虽然复杂的模型有时是合理的，但经验上的进步往往通过其它方式实现：巧妙的问题公式、科学实验、优化算法、数据预处理技术、广泛的超参数调整，或者将现有方法应用于有趣的新任务。 有时，把提出的很多技术相结合可以获得显著的经验结果。在这些情况下，作者有责任向读者阐明实现文中的成果需要哪些技术。

但很多时候，作者提出了许多缺乏适当变化的控制变量研究，掩盖了经验成果的来源。 实际上，有时改善结果的原因只有一个变化而已。这会给人一种错误的印象，认为作者做了更多的工作（通过提出几项改进），而实际上他们做得并不够（没有进行适当的变量控制）。此外，这种做法会使读者误以为提出的所有改变都是必要的。

最近，Melis et al.[54] 阐明，很多已发表的改进技术实际上要归功于超参数的调节，而这原本被认为是在神经网络中进行复杂创新的功劳。与此同时，自 1997 年以来几乎没有修改过的经典 LSTM 排名第一。如果早点知道关于超参数调节的真相，而没有受到其它干扰，AI 社区可能受益更多。深度强化学习 [ 30 ] 和生成对抗网络 [ 51 ] 也遇到了类似的评估问题。更多关于经验严谨性失误及其后果的讨论详见 [ 68 ]。

相比之下，许多论文对 [ 41,45,77,82 ] 进行了很好的控制变量分析，甚至追溯性地尝试隔绝成果来源也可能导致新的发现 [ 10,65 ]。此外，控制变量对于理解一种方法来说既不是必要的也不是充分的，甚至在给定计算约束的情况下也是不切实际的。可以通过鲁棒性检查（如 [15]，它发现现有的语言模型处理屈折形态的效果很差）以及定性错误分析 [40] 来理解方法。

旨在理解的实证研究甚至在没有新算法的情况下也能起到启发作用。 例如，探究神经网络的行为可以识别它们对抗干扰的易感性 [ 74 ]。细致的研究还经常揭示挑战数据集的局限性，同时产生更强的基线。[ 11 ] 研究了一项旨在阅读理解新闻段落的任务，发现 73 % 的问题可以通过看一个句子来回答，而只有 2 % 的问题需要看多个句子（剩下 25 % 的例子要么模棱两可，要么包含共指错误）。此外，更简单的神经网络和线性分类器的性能优于此前在这项任务中评估过的复杂神经结构。本着同样的精神，[ 80 ] 分析并构建了视觉基因组场景图数据集的强基线。

3.3 滥用数学

在写早期 PhD 论文的时候，经验丰富的博士后会给我们（ZL）一些反馈： 论文需要更多的方程式。 博士后并没有认可我们提出的系统，但是传达出一种审议研究工作的清晰方式。即使工作很难解释，但更多的方程式会令评审者相信论文的技术深度。

数学是科学交流的重要工具，正确使用时可以传递精确与清晰的思考逻辑。然而，并非所有想法与主张都能使用精确的数学进行描述，因此自然语言也同样是一种不可或缺的工具，尤其是在描述直觉或经验性声明时。

当数学声明和自然语言表述混合在一起而没有明确它们之间的关系时，观点和理论都会受到影响： 理论中的问题用模糊的定义来覆盖，而观点的弱论据可以通过技术深度的出现而得到支持。

我们将这种正式和非正式声明之间的纠缠称为 “ 滥用数学（mathiness） ” 。经济学家 Paul Romer 描述这种模式为： “ 就像数学理论一样，滥用数学将符号和语言混合，但滥用数学不会将两者紧密联系在一起，而是在自然语言表述与形式语言表述间留下了充足的空间 [64]。 ”

滥用数学表现在几个方面：

首先，一些论文滥用数学来传递技术的深度，他们只是将知识堆砌在一起而不是尝试澄清论点。 伪造定理是常见的手法，它们常被插入到论文中为实证结果提供权威性，即使定理的结论并不支持论文的主要主张。我们（JS）就犯过这样的错 [70]，其中对 “ staged strong Doeblin chains ” 的讨论与提出的学习算法只有很少的相关性，但可能给读者带来理论的深度感。

在 Adam 优化器的原论文 [35] 中，这个问题无处不在。在引入具有强大经验性性能的优化器过程中，它还提供了凸优化情况下的收敛性证明，这对于关注非凸优化的的论文来说不是必要的。这一个证明后来还被指出有错误 [63]，并给出了新的证明。

第二个问题是既非明确的形式化表述，也非明确的非形式化表述。 例如在 [18] 中，作者表示优化神经网络主干的困难不在极小值点，而在鞍点。这项工作引用了一篇关于高斯随机场的统计物理学论文 [9]，该论文表示 “ 高斯随机场中所有局部极小值点的误差与全局最小值点误差非常相近 ” ，相似的说明在 [12] 中也有提到。

这似乎是一个正式的声明，但是并没有一个具体的定理，也很难验证声明的结果或确定其确切内容。我们可以理解为，这个声明表示在问题参数为典型配置时，我们不知道是经验性地在数值上极值与最值差距非常小，还是理论性地这个差距在高维空间中会慢慢消失。正式声明将有助于澄清这一点，我们注意到 [18] 描述了极小值点比鞍点有更低的损失、更清楚的证明与经验性的测试。

最后，一些论文以过于宽泛的方式引用理论，或者引用不是那么相关的定理。 例如，通常我们引用 “ 没有免费午餐定理 ” 作为使用启发式方法的理由，而这种启发式方法通常是没有理论保证的。

虽然补救滥用数学最好的方法就是避免它，但有一些论文会进一步明确数学与自然语言之间的关系。最近有一篇论文 [8] 描述了反事实推理，它以扎实的方式涵盖了大量的数学基础，且与很多已应用的经验性问题有非常多的明确联系。此篇教程以明确地方式写给读者，并帮助促进新兴社区研究机器学习的反事实推理。

3.4 滥用语言

我们明确了机器学习中三种滥用语言的方式：

暗示性定义
技术术语过载
suitcase words

3.4.1 暗示性定义

在第一种方法中，新的技术术语创造出来可能就具有暗示性的口语语义，因此潜在的含义无需争论。这常常体现在任务的拟人化特征（音乐合成 [59] 和阅读理解 [31]）、技术的拟人化特征（好奇 [66] 和害怕 [48]）。很多论文以暗示人类认知的方式命名提出模型的组成部分，例如 “ 思想向量 ” [36] 和 “ 意识先验 ” [4] 等。我们的目的并不是消除所有这类语言的学术文献；如果命名比较合适，那么它可以传递灵感的来源 。然而，当暗示性术语指定了技术含义时，所有后续论文都别无选择，只能接受该术语。

使用 “ 人类水平"的松散声明描述经验性结果，同样描绘了对当前能力的错误认识。 以 [21] 中的 “ 皮肤病专家水平的皮肤癌分类模型 ” 为例，与皮肤科医生的对比掩盖了分类器和皮肤科医生执行根本不同任务的事实。真正的皮肤科医生会遇到各种各样的情况，并且尽管存在不可预测的变化，他们都必须完成工作。但是分类器只在独立同分布的测试数据上实现了较低的误差。

相比之下，[29] 表明分类器在 ImageNet 图像分类任务上有人类水平的性能更可信，因为它并不是说在目标检测等更广泛的领域。即使在这种情况下，相比于不那么细致的 [21, 57, 75]，一篇更细致的论文可能并不足以使公众讨论重回正轨。流行的文章记叙将现代图像分类器描述为 “超越人类水平的性能，并有效证明更大的数据集导致更好的决策 ” [23]。尽管有证据表明这些分类器依赖虚假的相关性，即将“穿红衣服的亚洲人 ” 误分类为乒乓球 [73]，但人们还是相信它们有超越人类的准确度。

深度学习论文并不是唯一遭受影响的领域，滥用语言困扰着 ML 非常多的子领域。[49] 中讨论了机器学习公平性的最近文献，其发现机器学习从复杂的法律学中借了大量的术语，例如使用「disparate impac」命名统计等价概念的简单方程。这导致了文献中的「fairness」、「opportunity」和「discrimination」表示预测性模型的简单统计学特征，这样会令忽略其中差异的研究者迷惑，也会令政策制定者误解将道德纳入机器学习的难易程度。

3.4.2 技术术语过载

误用语言的第二个方式包括将具备准确技术含义的术语用作不准确或完全相反的意义。

例如 解卷积（deconvolution） ，它描述了反转卷积的过程，但是现在在深度学习文献中，该词常用于指自编码器和生成对抗网络中的转置卷积（transpose convolution，也叫 up-convolution）。在深度学习领域中，该术语首先出现于 [79]，其中它确实是指解卷积，但后来被过度一般化，指使用 upconvolution 的任意神经架构 [78, 50]。此类术语过载现象会导致持续的混淆。新机器学习论文中的 deconvolution 可能 (i) 指其原始意义，(ii) 描述 upconvolution，(iii) 尝试解决混淆，如 [28]。

另一个例子是 生成模型（ generative model ） ，它原本指输入分布 p(x) 或联合分布 p(x,y) 的模型。而 discriminative model（判别模型）指标签的条件分布 p(y | x)。但是，近期的论文中「generative model」不准确地意指生成逼真结构化数据的任意模型。表面看来，这似乎与 p(x) 的定义一致，但它混淆了几个缺陷：例如，GAN 或 VAE 无法执行条件推断（如，从 p(x2 | x1) 中采样，x1 和 x2 是两个不同的输入特征）。后来这个术语被进一步混淆，现在一些判别模型（discriminative model）指生成结构化输出的生成模型 [76]，我们在 [47] 中犯了这个错误。为了解决该混淆，并提供历史背景，[58] 对规定的和隐性的生成模型进行了区分。

再来看 批归一化（batch normalization） ，[33] 描述协变量偏移（covariate shift）为模型输入分布的变化。而事实上，协变量偏移指一种特定类型的偏移，尽管输入分布 p(x) 可能确实出现变化，但标注函数 p(y|x) 没有变化 [27]。此外，由于 [33] 的影响，Google Scholar 将 batch normalization 列为搜索「covariate shift」的第一个参考文献就是 batch normalization（《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift》）。

语言误用的后果之一是我们可能通过将之前的未解决任务重新定义来掩盖没有进展的事实。这通常与通过拟人化命名进行的暗示性定义有关。语言理解 (language understanding) 和阅读理解（reading comprehension）曾经是 AI 的两大挑战，而现在指在特定数据集上的准确预测 [31]。

3.4.3 suitcase words

最后，我们讨论机器学习论文中“suitcase words ” 的过度使用。这个词由 Minsky 在 2007 年的书《The Emotion Machine》中创造，suitcase words 将多种意义的词 “ 打包”起来。Minsky 描述了心理过程例如意识、思维、注意力、情绪和感觉，并认为这些过程可能没有 “ 共同的起因或来源” 。很多机器学习中的术语都有这样的现象。例如，[46] 注意到可解释性并没有普遍认同的含义，通常对应不相交的方法。结果，即使在论文的互相交流中，人们也可能理解的是不同的概念。

另一个例子，generalization 有特定的技术含义： “ 泛化 ” （从训练泛化到测试），和更加口语化的含义：更加接近于迁移的概念（从一个总体扩展到另一个总体），或外部效度（从实验扩展到现实世界）。合并这些概念将导致高估当前系统的能力。

暗示性的定义和超载的术语也可能创造出新的 suitcase words。在研究公平性的文献中，法律、哲学和统计学语言通常都过载，像 bias 这样的变成 suitcase words 的术语在之后必须要分离。

在通用语和鼓舞人心的术语中，suitcase words 可以很有用。 也许 suitcase words 反映了一个至关重要的联合不同含义的概念。例如，人工智能一词也许能打包成一个鼓舞人心的名词来组织一个学术部门。 另一方面，在技术观点中使用 suitcase words 可能导致困惑。 例如，[6] 写了一个涉及智能和优化能力的等式（Box 4），隐含地假设这些 suitcase words 可以用一个 1 维标量量化。

四、对趋势背后原因的思考

以上模式预示着某种趋势吗？如果答案是肯定的，其背后的原因又是什么？我们推测，这些模式将愈演愈烈，其背后的原因可能有以下几点：

面对进步的自满；
社区的急剧扩张；
相关审议团队的匮乏；
扭曲的激励机制与评价成果的短期标准

4.1 面对进步的自满

机器学习的快速发展有时会导致这样一种态度：只要结果足够有力，论点站不住脚也没有关系。取得有力结果的作者可能感觉自己有权插入可以导出结果的任意未经证实的东西（见 3.1），省略掉可能弄清楚这些因素的实验（见 3.2），采用夸张的术语（见 3.4），或滥用数学（见 3.3）。

同时，评价过程的单轮属性可能让评阅人感觉自己不得不接受具有有力结果的定量研究论文。实际上，即使论文被拒，其中的弱点可能也不会在下一轮中得到修补，甚至根本不会被注意到，因此评阅人最终可能会认为：接受一篇有瑕疵的论文是最好的选择。

4.2 成长的痛苦

大约在 2012 年左右，由于深度学习方法的成功，机器学习社区急剧扩张。尽管我们将社区的扩张视为一种积极的发展，但这一扩张也有其弊端。

为了保护年轻的研究者们，我们优先选用自己和那些著名学者的论文。然而，新加入的研究者可能更容易受到这些模式的不良影响。例如，不了解既有术语的作者更容易用错或乱用论文语言（见 3.4）。另一方面，资深研究者可能也会陷入这些模式。

社区的急剧扩张还会从两个方面稀释评论：

一是 提高提交论文与评阅人的比例
二是 降低资深评阅人的比例

经验不足的评阅人可能对架构新奇性的要求更高，也更容易被伪造的定理所迷惑，并忽略严重而微妙的问题，如误用语言，从而加快上述几种趋势的发展。同时，资深但负担过重的评阅人可能陷入 “ 清单核对 ” 的心理定势，更加青睐公式化的论文，忽略更富有创意或思路更宽但不符合既有模板的论文。此外，工作量超负荷的评阅人可能没有足够的时间来修补或注意到论文中的所有问题。

4.3 扭曲的激励机制

给作者以不良激励的不止是评阅人。随着机器学习研究越来越受媒体关注，机器学习创业公司也越来越普遍，在某种程度上，这一领域所获得的激励可以说是媒体（ “ 他们会写什么？ ” ）或投资人（ “ 他们的钱会投到哪里？ ” ）给的。媒体煽动了上述趋势的几种。对机器学习算法拟人化的表述为新闻报道提供了素材。以 [55] 为例，该文将自动编码称之为 “ 模拟大脑 ” 。暗示机器表现达到人类水平的新闻会在报纸头条上引起轰动，如 [52]，该文在描述一种深度学习图像字幕系统时称其 “ 模仿人类的理解水平”。

投资人对 AI 研究也颇有兴趣，有时他们仅依据一篇论文就会为创业公司投资。根据我们（ZL）与投资人接触的经验，他们有时更青睐那些研究成果已经被媒体报道的创业公司，这种资本激励最终又归功于媒体。

我们注意到，最近投资人对智能会话机器人创业公司的兴趣伴随着报纸及其他媒体对对话系统及强化学习者的拟人化描述一起出现，尽管很难确定投资者的兴趣和扭曲的激励机制是否构成因果关系。

五、建议

假设我们要对抗这些趋势，该如何做呢？除了仅建议每个作者放弃这类模式，我们从社区可以做些什么来提高实验实践、阐述和理论水平呢？我们如何才能更容易地提炼社区内的知识并消除研究人员和普罗大众的误解呢？下面根据我们的个人经历和印象提出一些初步的建议。

5.1 对作者的建议

我们鼓励作者多问 “ 是什么起了作用？ ”

ICML话题：机器学习近年来之怪现状

正文

请到「今天看啥」查看全文