来源:research.fb.com
译者:熊笑
【新智元导读】作为语言最富表现力的形式之一,诗歌生成的难点在于既要满足审美,又要符合语义约束。Facebook 人工智能研究院和剑桥大学的一项联合研究提出了两种新方法,使自动生成的诗歌比人类创作的诗歌更像“出自人类之手”。
诗歌自动生成模型不仅需要聚焦于“正在写什么”(内容),还要聚焦“如何写”(形式)
微软诗人小冰不寂寞了,在她写下诗集《阳光失了玻璃窗》之后,Facebook 人工智能研究院和剑桥大学一起,也开始研究用神经网络生成韵律诗了。从小冰那本诗集中的作品看,“韵律”应该不是小冰作诗时考虑的要素。让我们简单感受一下。
幸福的人生的逼迫
这就是人类生活的意义
——小冰
The crow crooked on more beautiful and free,
He journeyed off into the quarter sea.
——FAIR 论文中AI自动生成的诗歌
诗歌是语言交际的高级形式,其中传达了一类信息,既满足审美,又要符合语义约束。由于诗歌是语言最具表现力的形式之一,能被当作是诗歌的文本自动创作具有相当难度。除了需要理解语言的许多方面,包括韵律、节奏和头韵等语音模式,诗歌创作还需要对语义的深刻理解。
诗歌生成可以分为两个子任务,即与诗歌语义有关的内容问题,以及与诗歌遵循的审美规则有关的形式问题。这些规则描述的可能是一些文学要素,通常具有高度的规范性(从这个角度上说,小冰所选择切入的中国现代诗,其约束确实要少一些)。举例来说,不同形式的诗歌(这一研究的对象当然是英语诗歌),如 limerick(五行打油诗)、ballad(民谣)和 sonnet(十四行诗)。例如,limerick 的特点是它们要严格按照韵律规则(AABBA)、节奏(两个非重音节接一个重音节),而第三和第四行较短。创造这样的诗歌不仅需要理解语言本身,还需要了解大声朗读时听上去如何。
统计文本生成通常需要构建一个生成语言模型,学习任何给定的词语、给定的上下文的概率。神经语言模型(Schwenk 和 Gauvain,2005; Bengio 等,2006)学习自然语言的复杂语法和语义表征的能力已经吸引了巨大的研究兴趣(Mikolov 等,2010; Sutskever 等,2014;Cho 等,2014; Kim 等,2015)。诗歌生成是一个有趣的应用,因为自动执行此任务需要创建的模型不仅聚焦于“正在写什么”(内容),还要聚焦“如何写”(形式)。
为了完成这一任务,Facebook 人工智能研究院(FAIR)和剑桥大学的这项研究提出了两种新方法。第一个涉及到通过使用语音编码来训练模型,以学习内容和形式的隐含表示。第二个涉及到训练生成语言模型来表征内容,然后由表征形式的判别式发音模型来约束。第二种模型特别有趣,因为可以通过调整发音模型来产生具有任意韵律、节奏、重复和主题的诗歌。
图1:在Iambic Pentameter(五音步抑扬格)诗歌上训练的语音级模型(phonetic-levelmodel)的输出示例(突出了语法错误)。
图4:自动生成和人类创作的诗歌的例子。(a)字符级模型(Character-levelmodel) - 严格的节奏规则– 抑扬格– 无主题;(b)字符级模型- 严格的节奏规则– 抑抑扬格;(c)字符级模型- 双声叠韵。(d)艾米莉·狄金森- - I’m nobody, whoare you?(e)语音级模型– Nonsensical 抑扬格线。
图5:要求受试者区分自动生成诗歌和人类诗歌的实验环境。
摘要:
我们提出了两种自动生成各种形式的韵律诗的新方法。第一种方法使用训练语音编码的神经语言模型来学习英语诗歌形式和内容的隐含表达。这种模型可以有效地学习诸如韵律、节奏和头韵等常见的诗歌要素。第二种方法将诗歌生成视为约束满足问题,其中生成式神经语言模型的任务是学习内容表示,判别式加权有限状态机基于形式对其进行约束。通过操纵模型的约束,我们可以产生任意形式和主题的连贯的诗歌。大规模的外部评估表明,在 54% 的时间内,受试者会认为机器生成的诗是由人类写的。此外,参与者将一首机器生成的诗评为了所有参评诗歌中最像人类写的诗。
论文地址:https://research.fb.com/wp-content/uploads/2017/06/automatically-generating-rhythmic-6-2.pdf?
【号外】新智元正在进行新一轮招聘,飞往智能宇宙的最美飞船,还有N个座位
点击阅读原文可查看职位详情,期待你的加入~