专栏名称: AI开发者
AI研习社,雷锋网旗下关注AI开发技巧及技术教程订阅号。
目录
相关文章推荐
宝玉xp  ·  转发微博-20250312022821 ·  昨天  
人工智能学家  ·  图灵奖得主杨立昆:AI需要学习物理学才能继续 ... ·  2 天前  
爱可可-爱生活  ·  HieroLM: ... ·  2 天前  
爱可可-爱生活  ·  //@爱可可-爱生活:欢迎参与!//@爱可可 ... ·  3 天前  
51好读  ›  专栏  ›  AI开发者

Facebook开源最大规模并行语料,45亿语料,覆盖576种语言对,或成为NMT评估标准

AI开发者  · 公众号  · AI  · 2020-02-10 18:12

正文

点击上方“蓝字”关注“AI开发者”



作者 | 京枚
编辑 | 贾伟


当前自然语言处理中的大多数方法都是数据驱动的,大多数多语言模型(特别是神经机器翻译系统)都需要并行语料库进行训练。大多数的并行文本都只是适用于几个主要语言(例如英语、汉语),且限制于特定的领域。
为了解决这一问题,在去年七月份,Facebook曾发布了第一个系统处理Wikipedia上所有语言(包括资源贫乏的语言和方言)的数据集WikiMatrix,大约包含了亿级的并行语料,覆盖1620种语言对。

而最近,Facebook基于新的方法和数据源,开发并开源了一个目前为止最大的并行语料数据集 CCMatrix。这个数据集包含 45 亿并行语料(是WikiMatrix的近50倍),覆盖576种语言对。
论文:https://arxiv.org/abs/1911.04944
数据集开源地址:https://github.com/facebookresearch/LASER/tree/master/tasks/CCMatrix

1、语料库构建

首先,从语料来源上讲。目前有几个公共的多语言并行语料库,主要来自一些国际会议(如European Parliament 、the United Nations)的语料,这些都是专业的人工翻译语料,使用语言较为正式,且仅限于政治主题。此外也有几个依靠志愿者翻译而形成的语料库,例如news commentary 、Opensub- Titles 、the TED corpus等。2019年Facebook的Schwenk等人曾利用Wikipedia中的语料进行挖掘,从而开发了WikiMatrix数据集。
以上这些,从数据来源上讲都有局限。为了使并行语料库量大、覆盖主题广泛,Facebook在CCMatrix这项工作中,选择使用了随机抓取web中的数据作为并行语料的来源,他们每个月随机发送url,从而获得包含各种语言的网页快照(TB级)。
十次快照语料中,不同语言的单句数量(其中一次快照只包含英语)
然后通过预处理去除高达70%的重复数据(例如模板文件、导航菜单、cookie等),并使用fastText(语言识别器,可以识别176种语言)来识别文档中的语言,最后使用一个在Wikipedia上训练的模型来过滤掉低质量的内容,只保留较低困惑度的文档。如此处理获得一个包含有327亿个句子的CCNet数据集。
在这项工作中,使用的挖掘方法的底层思想是,首先学习一种多语言的语义嵌入,即在一个嵌入空间中语义上相似的句子会有较近的距离,而与它们所使用的语言无关。这意味着空间中的距离可以作为两个句子是否是相互翻译的指标。
用于大规模训练多语言句嵌入的框架
不过由于余弦距离的绝对阈值在全局上并不一致,所以Schwenk在这里所采用的是Margin criterion:

2、语料库分析

在超过320亿个句子中挖掘平行语料,计算上是非常昂贵的。在当前版本的CCMatrix语料库中,作者限制为38种语言。
CCMatrix:这里给出了单语文本的数量和提取的平行句子的数量(单位:百万),margin阈值为1.06,以及在TED测试中的BLEU分数。(编者注:这是11月份数据,当时数据集规模为35亿并行语料,下同)
CCMatrix:每种语言对的并行语料数量(单位:百万),Margin阈值为1.06。举例来说,希腊语/汉语对的语料数量为470万。






请到「今天看啥」查看全文