专栏名称: AI数据派

THU数据派"基于清华，放眼世界"，以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯，定期组织线下活动，分享前沿产业动态。了解清华大数据，敬请关注姐妹号“数据派THU”。

把BERT拉下神坛！ACL论文只靠一个“Not”，就把AI阅读理解骤降到盲猜水平

AI数据派 · 公众号 · · 2019-07-31 07:30

正文

本文经AI新媒体量子位（公众号ID:qbitai）授权转载，转载请联系出处

本文约 1700 字，建议阅读 5 分钟。

BERT到底是败在了一项怎样的任务上？

有一篇中选了ACL的论文，打击了以BERT为首的众多阅读理解模型。

研究人员认为，包括BERT在内，许多模型的成功都是建立在虚假的线索上。

团队用了去年诞生的 观点推理理解任务 (ARCT) 考验了BERT。

结果发现，只要做个对抗数据集，准确率就从77%降到 53% ，几乎等同于随机猜。

预告一下，这里的对抗并不是把 o变成0、把I变成1 的小伎俩。

实验说明，BERT是依靠数据集里“ 虚假的统计学线索 (Spurious Statistical Cues) ”来推理的。

也就是说，它并不能真正分析出句子之间的逻辑关系。

碎成渣渣

那么，BERT到底是败在了一项怎样的任务上？

观点推理理解任务 (ARCT) ，是Habernal和小伙伴们提出的阅读理解任务，考察的是语言模型的推理能力，中选了 NAACL 2018 。

一个观点，包含前提 (Premise) ，和主张 (Claim) 。

除此之外，观点又有它的原因 (Reasoning) ，以及它的佐证 (Warrant) 。

在ARCT里面，AI要根据一个给定的观点，在两个选项里，找出正确的佐证。

两个佐证句十分接近，得出的主张却是完全相反。

原始的ARCT数据集里，一共有2000个观点，配以它们的佐证。

原本，BERT在这个数据集上表现优良，77%的最好成绩，只比未经训练的人类 (79.8%) 低不到3个百分点。

中位数，也在70%以上。

可这样就能说明BERT拥有推理能力了么？

为了研究BERT的选择是如何做出的，团队观察了AI眼中容易分类的那些数据点。

结果发现，BERT是利用了一些线索词来判断，特别是“Not”这个词。

在两个选项里面，如果选择带有“Not”的佐证句，就有 61% 的概率是对的。

并且，在所有正确答案里，有 64% 的佐证句都包含了“Not”。

这是最强大的一个线索词，但它和答案之间是虚假关系 (Spurious Relationship) ，并不是在逻辑上相关的。

除此之外，其他的线索词还包括了“Is”“Do”“Are”等等。

为了证明“Not”这样的线索词，对AI的推理真的有影响，团队做了一个对抗数据集。

具体方法是，给观点的主张 (Claim) 加上一个“Not”来否定；

原因 (Reasoning) 不变；

把佐证 (Warrant) 的两个选项，对错标签反过来填。就是把错误答案和正确答案对调。

拿修改过的数据集，再去考BERT。它的成绩就降到了盲猜水平：

研究人员觉得，将来再评估AI的阅读理解能力，也应该采纳这样的方法，如此才能测出语言模型的推理到底有多鲁棒。

前情： BERT有多神

在NLP领域，没有人不知道BERT的大名。

BERT由谷歌推出，堪称2018年最火的NLP模型，甚至被称为NLP新时代的开端。

甫一亮相，BERT就在11项NLP任务上都取得了最顶尖的成绩，将GLUE基准提升7.6%，将MultiNLI的准确率提升5.6%。

哪怕是在XLNet等后来者的冲击之下，BERT在SQuAD2.0排行榜上仍处于霸榜的地位，前10名中有6位都是BERT的变体。其中第一名BERT + DAE + AoA的表现甚至超过了人类。

“不只一个数据集有问题”

这篇论文的结论给了NLP模型们当胸一击。

BERT的秘密被揭穿，网友们纷纷表示这是非常值得深入探讨的一个议题。

作者本人在Reddit评论区补充说：

我们每隔几个月就会听到有关NLP的新进展，更新、更好的模型层出不穷。但当有人实际用数据集测试时，会发现这些模型并没有真正学习到什么。优化模型的竞赛该放缓脚步了，我们更应该仔细研究研究数据集，看看它们是否真的有意义。

把BERT拉下神坛！ACL论文只靠一个“Not”，就把AI阅读理解骤降到盲猜水平

正文

碎成渣渣

前情： BERT有多神

“不只一个数据集有问题”

请到「今天看啥」查看全文