「PhD Talk」是 PaperWeekly 的学术直播间,旨在帮助更多的大牛 PhD 和青年学者宣传其最新科研成果。我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和交流可能会让知识的传播更加有意义,从而产生更大的价值。
嘉宾介绍
▼
王丁泉
约翰霍普金斯大学 CLSP 实验室博士生
活动主题
▼
➊
The Galactic Dependencies Treebanks: Getting More Data by Synthesizing New Languages
论文链接:
http://www.cs.jhu.edu/~jason/papers/wang+eisner.tacl16.pdf
Galactic Dependencies 依存关系数据集 — 通过人工合成来得到更多数据
我们提出 Galactic Dependencies 1.0 — 一个使用 Universal Dependencies 格式注释的大规模人造依存关系数据集。这个新数据集旨在为陌生语言的自然语言处理工具提供训练和验证数据。在这个人工数据集中,每个依存关系树都是通过将一个真实语言的名词和/或动词的依赖随机排列来匹配其他真实语言的单词顺序而生成的。我们讲讨论这些“新”语言的实用性,真实性,多样性等多种特性。作为其应用的一个简单示范,我们提出了单源迁移 — 通过使用“接近”的源语言训练得到的语法分析器来分析目标语言。我们发现人工语言的引入有效的增加了源语言的多样性,从而显著提高了大多数目标语言分析效果。
➋
Fine-Grained Prediction of Syntactic Typology: Discovering Latent Structure with Supervised Learning
论文链接:
http://www.cs.jhu.edu/~jason/papers/wang+eisner.tacl17.pdf
细粒度语言类型学预测 — 使用监督学习来发现隐层结构
我们展示如何仅仅利用一个未知语言 POS 序列来预测其基本语序 — 比如该语言是主谓宾还是主宾谓、状语前置还是状语后置,介词前置还是介词后置等等。这些基本语序被称为语言类型学特征(linguistic typology),已经被证明对语法推导(grammar induction)有很大的帮助。在过去,此类的问题被认为是无监督学习,这篇文章的创新就是将其看作为监督学习,使用大量的人造语言作为训练数据。该系统的特点是将语言 POS 序列的表面特征(人工或神经网络特征)关联到其的深层结构(语言类型学特征)。我们的实验结果将展示:1)加入大量的人造语言有助于该系统的训练。 2)该系统对于有噪声的输入是稳定的。 3)该系统相比于传统的语法推导有很大提高。
活动时间
▼
5 月 6 日 本周六 10:00 AM
活动地点
▼
使用斗鱼App搜索房间号「1743775」
或
通过PC端访问:https://www.douyu.com/paperweekly
论文共读
▼
本周,我们将利用在线协同工具,针对本期 PhD Talk 的两篇主讲论文发起同步论文共读活动。小提示:主讲嘉宾也将加入其中,和您零距离交流探讨。扫描下方二维码添加主持人微信进行报名,请备注「论文共读」。
关于PaperWeekly
PaperWeekly是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事AI领域,欢迎在公众号后台点击「交流群」,小助手将把你带入PaperWeekly的交流群里。