在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。
在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果。
点击本文底部的「
阅读原文
」即刻加入社区,查看更多最新论文推荐。
Earth Mover’s Distance Minimization for Unsupervised Bilingual Lexicon Induction
@paperhwd 推荐
#Bilingual Word Embeddings
文章想解决的问题是如何使用无监督的方法构建双语词典,传统方法需要利用有监督的种子翻译词对来获得两个语言空间的映射。文章的主要思路是借助 GAN 这个工具。当然我们知道 GAN 存在训练困难的问题,所以文章其实真正实现的是 WGAN。
关于文章的应用和意义,一方面为许多跨语言处理任务提供了重要资源,尤其是为完全缺乏双语资源的小语种和专门领域开辟了与其他语言连接的可能。此外,只使用单语语料就能构建双语词典意味着语言在词汇层面的某种同态性,佐证了人类语言在概念表示上可能存在的一致性。
论文链接
http://www.paperweekly.site/papers/1087
代码链接
http://nlp.csai.tsinghua.edu.cn/~zm/UBiLexEMD/
Ngram2vec: Learning Improved Word Representations from Ngram Co-occurrence Statistics
@
paperhwd
推荐
#Word Embeddings
本文主要还是想生成质量更好的词向量,基于经典的 word2vec 的思想,在其之上加入了 ngram 的共现信息,取得了更好的结果。我更加在意的其实是他们提供了不错的工具包,同时在建立共现矩阵的时候采取了优化策略来减少存储开销,加快了计算速度。
论文链接
http://www.paperweekly.site/papers/1086
代码链接
https://github.com/zhezhaoa/ngram2vec/
Improved Neural Machine Translation with a Syntax-Aware Encoder and Decoder
@Andy 推荐
#Neural Machine Translation
文章提出了 bidirectional tree encoder,可以同时学会译出语言的序列表达和树状表达特征。之后,解码器利用这些信息进行解码。 其次,提出了 tree-coverage model,使得注意力机制更有效地利用了译出语言的句法结构。
论文链接
http://www.paperweekly.site/papers/1082
代码链接
https://github.com/howardchenhd/Syntax-awared-NMT/
A Simple Approach to Learn Polysemous Word Embeddings
@haimizhao 推荐
#
W
ord Embeddings
文章在原有的向量表示的基础上,直接对上下文的向量表示作加权和,作为目标词在该上下文的表示,方法极其简单,可以低成本尝试,一系列评估方法也自成一体。
论文链接
http://www.paperweekly.site/papers/1052