专栏名称: AI开发者
AI研习社,雷锋网旗下关注AI开发技巧及技术教程订阅号。
目录
相关文章推荐
爱可可-爱生活  ·  HieroLM: ... ·  2 天前  
黄建同学  ·  昨天最火🔥的是Manus被扒了↓网友Jian ... ·  2 天前  
爱可可-爱生活  ·  [CL]《Knowledge ... ·  2 天前  
宝玉xp  ·  回复@Timetopretenddd:这我还 ... ·  3 天前  
51好读  ›  专栏  ›  AI开发者

谷歌开源文本生成新方法 LaserTagger,直击 seq2seq 效率低、推理慢、控制差三大缺陷!

AI开发者  · 公众号  · AI  · 2020-02-17 18:32

正文

点击上方“蓝字”关注“AI开发者”


目前,在序列到序列( seq2seq )的自然语言生成任务中,主流预训练模型仍然面临一些重大缺陷,例如:生成输出与输入文本之间长度匹配问题、需要大量训练数据才能实现较高性能、推断速度慢等。
因此,Google 提出了一种新型的文本生成模型 LaserTagger,该模型旨在解决 seq2seq 模型运行过程中的上述缺陷,可以预测将将源文本转换为目标文本的一系列生成操作。Google 发布了相关文章介绍了这一开源文本生成模型,我们将内容整理编译如下。


开发背景

序列到序列(seq2seq,https://en.wikipedia.org/wiki/Seq2seq)模型最初由软件⼯程师 Eric Malmi 和 Sebastian Krause 开发,这一模型一经推出后,为机器翻译领域带来了巨大的技术革新,并成为了各种⽂本⽣成任务(如摘要生成、句⼦融合和语法错误纠正)的主流模型。
同时,结合模型架构(例如,Transformer,https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html)的改进,以及通过⽆监督的预训练方法使用⼤量无标注⽂本的能⼒,使得近年来神经⽹络⽅法获得了质的提升。
文本生成神经网络架构发展;其中,BERT是深双向的,OpenAI GPT是单向的,ELMo是浅双向的
但根据实际使用情况,将 seq2seq 模型⽤于⽂本⽣成也有一些实质性的缺陷,例如:⽣成输⼊⽂本不⽀持的输出(称为幻觉,hallucination)、需要⼤量的训练数据才能到达很好的效果;此外,seq2seq 模型通常需要逐字⽣成输出,因此其推断时间较长。
近日,Google 的《Encode, Tag, Realize: High-Precision Text Editing》(https://ai.google/research/pubs/pub48542/)一文介绍了⼀种新颖的、开源的⽂本⽣成模型,旨在专⻔解决上述三个缺陷。由于该模型的速度快、精度高,因此该模型名为 LaserTagger。
该模型的核心思想在于:不从头开始⽣成输出⽂本,⽽是通过使⽤预测的编辑操作标注单词来⽣成输出;然后在单独的实现步骤中将这些单词应⽤于输⼊单词。这是处理⽂本⽣成的⼀种不太容易出错的⽅法,而且它可以通过更易于训练和更快执⾏的模型架构来处理文本。
《Encode, Tag, Realize: High-Precision Text Editing》论文


LaserTagger 的设计和功能

许多⽂本⽣成任务的显着特征是输⼊和输出之间经常存在⾼度重叠。例如:在检测和纠正语法错误、或者是在融合句⼦时,⼤多数输⼊⽂本可以保持不变,并且仅⼀⼩部分单词需要修改。
因此,LaserTagger 会产⽣⼀系列的编辑操作,⽽不是实际的单词。我们使⽤的四种编辑操作类型是:Keep(将单词复制到输出中),Delete(删除单词)和 Keep-AddX / Delete-AddX(添加短语 X)标注的单词之前,并可以选择删除标注的单词)。
下图说明了此过程,该图显示了 LaserTagger 在句⼦融合中的应⽤:
LaserTagger 适⽤于句⼦融合。预测的编辑操作对应于删除「.Turing」,然后替换为「and he」,注意输⼊和输出⽂本之间的⾼度重叠
所有添加的短语均来⾃受限制的词汇表。该词汇表是⼀个优化过程的结果,该优化过程具有两个⽬标:
(1)最⼩化词汇表的⼤⼩;
(2)最⼤化训练示例的数量;
其中添加到⽬标⽂本的唯⼀必要单词仅来⾃词汇表,短语词汇量受限制会使输出决策的空间变⼩,并防⽌模型添加任意词,从⽽减轻了「幻觉」问题。
输⼊和输出⽂本的⾼重叠特性也可以得到⼀个推论,即:所需的修改往往是局部的并且彼此独⽴。这意味着编辑操作可以⾼精度地并⾏进⾏预测,与顺序执⾏预测的⾃回归 seq2seq 模型相⽐,可以显着提⾼端到端的速度。

实验结果与结论







请到「今天看啥」查看全文