专栏名称: 产业智能官
用新一代技术+商业操作系统(AI-CPS OS:云计算+大数据+物联网+区块链+人工智能),在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能;实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。
目录
相关文章推荐
河南新闻广播  ·  2025年研考国家线发布 ·  6 小时前  
法治网  ·  河南许昌:全市对标胖东来服务理念 ·  昨天  
河南新闻广播  ·  苏英杰严重违纪违法被双开 ·  昨天  
河南发布  ·  阳光正在赶来!河南即将开启升温模式 ·  2 天前  
河南新闻广播  ·  即日起至5月底,严查! ·  3 天前  
51好读  ›  专栏  ›  产业智能官

【NLP】NLP未来发展趋势&ACL 2019回顾

产业智能官  · 公众号  ·  · 2019-08-28 07:03

正文


图灵TOPIA

作者: Mihail Eric

编译:闫娜 、李翔宇

图灵联邦编辑部出品


7月28日-8月2日,第57届国际计算语言学协会年会(ACL 2019)在意大利佛罗伦萨召开。作为自然语言处理(NLP)领域的国际顶级学术会议,本次会议共吸引了全球3000余名来自学界和工业界的研究者前来现场参会。Alexa AI 机器学习科学家Mihail Eric回顾并总结了ACL 2019会议内容,并从减少偏见、多个方面对目前NLP领域的发展趋势进行了总结。


以下是原文:


本周,我有幸参加了计算语言学协会(ACL) 2019年年会,年会在美丽的佛罗伦萨美第奇家族的一座古老堡垒里举行。

会议是我最喜欢参加的活动之一,因为在很短的时间里,可以利用社区的意识流,了解人们的想法以及这个领域的发展方向。鉴于ACL是来自世界各地的NLP研究人员的最大聚集,它提供了社区headspace的代表性样本。
参加会议就是这样,总会有一种在知识的湍流中激流勇进的感觉。你身边充斥着论文、演讲、创意和才华横溢的人。这篇文章中,我将自己在ACL 2019一周时间里的所见所闻梳理了出来,从中可以更直接的了解NLP领域在2019年的动态和趋势,以及未来的发展方向。
减少NLP中的偏见
在开幕式的致辞中,ACL主席周明表示,今年的ACL大会是举办该会以来规模最大的一次,共有2900多份投稿论文,比2018年增加了75% ! 自然语言处理领域炙手可热,学术和行业热情创历史新高。
然而,这些关于受欢迎程度的统计数据并不能完全反应全球NLP的兴趣。这种增长主要发生在北美(由美国主导)和亚洲(由中国主导),而南美、非洲以及许多欧洲国家则相对落后。因此,当前NLP的状态有遭受地理偏见的风险,在这种情况下,我们无法获得一组不同的观点和视角来塑造该领域的未来。
周明根据他在亚太地区的NLP社区经验,指出了一个可能的解决方案,就是在那些代表性不足的地区举办更多的学术会议和活动,这样可以刺激当地NLP研究的积极性。目前也有相关案例,比如在非洲举办的深度学习Indaba活动。
除了地理上的偏见,人们也越来越意识到,在当前自然语言处理发展的过程中,存在其他消极的人为因素,例如性别偏见。对此有实证研究证明其确实存在。例如,Stanovsky等人证明了四种工业机器翻译系统以及目前两种学术上最先进的(SOTA)模型很容易出现基于性别的翻译错误。
社区也很清楚这一问题,因此提出了许多有趣的工作,例如Kaneko等人的工作,他们开发了一种用于词嵌入的去偏方法,该方法在保留非歧视性性别相关信息的同时消除了刻板的性别偏见。
在更高层次上,ACL今年还举办了第一次NLP工作坊中的性别偏见,并扩大了NLP工作坊的范围,这是为了将致力于解决这些问题的研究人员聚集在一起,进一步提高认识,并激发富有成效的讨论。
社区也很清楚这个问题,因此提出了许多有趣的作品,如Kaneko等人开发了一种词汇嵌入的去除方法,可以保留非歧视性别相关信息,同时消除了刻板的性别偏见。更高层次上, 今年,ACL第一次举办了Gender Bias in NLP Workshop 和Widening NLP Workshop ,这些研讨会致力于将研究此问题的研究员聚集在一起,提高认识,促进富有成效的讨论。虽然还有很多工作要做,但是社区积极措施缓解偏见问题的做法是令人鼓舞的。
大量的自然语言处理应用
当前,自然语言处理的状态是令人兴奋的,因为我们开发的模型和工具有能力解决很多实际问题。当看到会议上各种NLP应用程序时,这一点更加很清楚。
在神经网络生成的假新闻成为一大问题的时代,验证叙述内容的真实性正变得越来越重要。hengli Hu的研究建立了一个系统,利用声学和语言特征来识别文本和语音中隐藏的信息,性能表现超过人类达15%!
在健康领域,Shardlow等人开发了一种神经网络模型,用于通过特定于某些域的短语列表,让医生编写的临床信息对患者而言更具可读性。在相关研究中,Du等人提出了从临床对话中提取症状以及基线模型的任务,以减少初级医生在与临床文献系统交互上所花费的时间。
今年,ACL还专门举办了关于应用于生物学问题的NLP的完整研讨会。例如,Fauqueur等人提出了从生物医学文献中提取新事实的技术,无需培训数据或手工制作的规则。
另一篇是Rajagopal和Vyas等人的论文,他们将通过在大型数据集上预先训练LSTM-CRF模型,然后在低资源语料库上进行微调,在标准数据集上实现21 F1点的改进,从而将语义角色标记系统适应生物过程!
NLP的其他很酷的应用还有包括Zhang等人的研究,该研究提出了电子邮件标题生成的问题(就像Gmail的智能回复,但是用于生成电子邮件标题),从自动和人工评估结果来看,这是个有发展前景的问题模型。
先预训练,然后微调:NLP的新范例
正如神经网络在2011年突然彻底改变了计算机视觉领域,自然语言处理的深度学习的故事同样也是一个“爆炸性和快速增长”的故事。
从2015年到2017年,NLP中的大多数任务都可以通过一个相对简单的公式来解决:通过某种连续的矢量表示嵌入文本输入,编码这些表示,参与编码表示,然后预测您的任务。Matthew Honnibal在一篇文章中很好地描述了这种形式主义。
虽然在概念上很简单,嵌入,编码,参与,预测公式似乎几乎不可阻挡,在所有类型的任务上实现SOTA结果,例如机器翻译,问答和自然语言推理等等。有一段时间,似乎没有问题是免疫的。
如今,随着强大的预训练表示的出现,使用ELMO,OpenAI GPT和BERT等语言建模目标的某些风格进行训练,这种模型是在庞大的数量上预先训练的使用一些较小的域内语料库对数据进行微调和微调。实际上,这一战略已经成功地在现有的NLP基准测试中取得了巨大的SOTA成果。
在ACL,这种策略的优势被强化寻求进一步推动transformer-based的语言超级模型,极大地提高速度并实现SOTA困惑度数量。这个新范例的另一个非常有代表性的工作是Liu和He等人的工作,他们利用基于BERT的架构来领先GLUE基准测试排行榜(在提交时)。
除了这些作品本身,会议上的普遍讨论是,如果使用类似BERT这样的东西,许多架构可以实现几个百分点的改进。那么问题就变成了:这种新范式是否使NLP中的许多建模创新变得无足轻重?
我的答案是否定的。总的来说,仍然有许多工作是未充分探索的,对于推动NLP进展的下一次迭代至关重要。
将知识融入NLP架构
虽然现有的预训练语言超模型体系结构非常强大,但是从原始文本语料库中进行训练的方式可以鼓励您获得学习的乐趣。换句话说,这类模型学到的东西是相当不受约束的,他们的优越表现可能只是能够在巨大的数据集中发现不同背景下的许多文本序列实例。
我们可以通过拓展基础知识来源,提供更多的信息来让NLP模型的能力超出这个范围吗?
在ACL有很多论文试图解决这个问题。例如,Zhang等人使用类型化实体嵌入和对底层知识图的对齐来增强BERT表示,这表明他们的模型在实体类型和关系分类方面胜过BERT。Yang等人也提出通过KT-NET解决了这个问题,KT-NET使用注意机制融合来自知识库(如WordNet和NELL)的选定信息,从而在Squad 1.1(提交时)实现SOTA。另一篇不错的论文是Logan等人的,他提出了知识图语言模型,这是一种生成架构,可以从与基础上下文相关的知识图中有选择地复制事实,优于强基线语言模型。
虽然将知识融入神经模型确实是一个难题,但从目前的结果来看,似乎很有希望!
模型的可解释性
众所周知,神经网络是黑盒模型,因此要真正理解决策函数很困难。不考虑这些模型的完全可解释性是否是绝对必要的,公平地说,对模型内部某种程度的理解可以极大地指导未来的体系结构设计。ACL的几篇优秀论文可对现有模型提供启发。
Serrano等人的工作挑战了民间的智慧,即注意力机制表示模型的重要性概念,这表明尽管有时是正确的,但在某些情况下,替代的排名指标可能更有效地指示模型决策过程。
在另一项研究中,Jawahar et. al.探究了BERT学习的语言结构,发现BERT的层次学习了丰富的语言信息,如底层的表层特征,中层的句法特征,顶层的语义特征。作者进一步指出,学习远程依赖信息需要更深的层次。
其他工作也涉及模型可解释性问题。Gehrmann等人开发了一种工具,通过可视化预测单词标记的模型密度来检测神经生成的假文本,这使得人类用户的检测率提高了近20%。Sydorova等人研究了一些事后解释方法,比如问答系统上的LIME,证明了某些技术可以帮助人们从几个选项中识别出更好的QA模型。
重新思考自然语言生成中的评估与假设
自然语言生成的评估的概念仍然是一个非常有争议的问题,因此这种重新思考是值得提倡的。
Maxime Peyrard证明,在评估某些评分范围内的表现时,某些自动评估汇总指标是不一致的。Clark团队根据句子移动的相似性提出了一个新的生成文本评估指标,与标准ROUGE相比,该指标与人类判断的相关性更强。
模型生成的文本往往会出现事实错误和虚假陈述。因此,Falke等人研究了是否可以将自然语言推理系统用于重新排列输出作为处理这个问题的一种方法。他们发现,开箱即用的NLI系统还不足以适应下游任务,并提供了使这些系统达到必要性能的工具。
Maxime Peyrard在其基础的著作中,从理论上对冗余、相关性和信息性等概念进行了严格的定义。
在评价之外,Sankar等人对传统的循环和transformer-based的序列到序列的对话模型从对话历史中学到的某些假设提出了质疑。他们特别指出,这些模型对应用于上下文的某些扰动并不敏感,这对对话自然语言生成器的有效性构成了挑战。
超越Pretrain-Finetune范式
我们经常使用基准测试来衡量任务的表现和性能改进,而这些模型中许多模型已经接近或超过了这些现有NLP基准测试的人类表现。那么我们怎么办?
这是Zellers等人提出的问题,他们在早期的工作中为常识自然语言推理问题引入了一个具有挑战性的数据集,但在发布后不久就发现BERT的性能接近人类的表现。为了解决这个问题,作者提出了一个后续数据集,该数据集使用一种称为“对抗性过滤”的技术来选择BERT和其他模型难以回答的示例。在此过程中,它们极大地增加了基准的复杂性。
BERT当然不是完美的。Nangia 等人的一项研究表明,表明基于BERT的模型与低资源句子分类任务相悖,并提出了一种后续的自然语言理解基准,称为SuperGLUE,专门用于评估这种情况。
McCoy等人的另一项工作表明,应用于自然语言推断的BERT模型正在学习非常简单的句法启发式方法,不能很好地推广到其他包含示例。他们还发布了一个评估集,以确定模型是否采用这些启发式算法,但不能解决更一般的推理问题。






请到「今天看啥」查看全文