专栏名称: 刺猬公社
在传播格局急遽变化的大时代,内容行业大潮涌动。一只刺猬站在山顶上,瞭望这急速不宁的世界,默默记下每一个细节。
目录
51好读  ›  专栏  ›  刺猬公社

既有“入屏出岫势峰拔”,又有“万里长征有彦宏”,机器人写诗水平到底咋样?

刺猬公社  · 公众号  · 科技媒体  · 2017-02-16 07:56

正文

导读

“男儿奋发自从容,万里长征有彦宏。”

  

By 熊少翀


刚刚过去的情人节,不知道广大男同胞给老婆or情人送了啥。除了红包鲜花巧克力,会不会有一首由机器人代笔的古诗吗?

 

先给大家看两首诗。


        落花                                  落花

红湿胭艳逐零蓬,          向晚黄鹂隔叶鸣,
一片春风细雨濛。          唤回残梦两三声。
燕子不知无处去,          一天春色无人管,
东流犹有杜鹃声。          红雨纷飞落纵横。

 

这是两首同题诗。你能看出哪首是人写的,哪首是机器人写的吗?

 

答案是,第一首是机器人写的。

 

哪怕在专业人士看来,这首机器人作品也可圈可点。中国社会科学院文学研究所助理研究员张一南对它的点评是:


 “胭艳”不辞,首句意好,句不工。“一片”句宕得开。“燕子”句写落花,不失为好句,然不能下启佳句,嫌散漫,可置换。“东流”句好。

 

翻译一下就是,虽然有些地方不太工整,但也不乏好句子。

 

这可能是很多人没有想到的。曾几何时,古人七步成诗被传为奇谈,唐朝诗人卢延让还为了“吟安一个字,拈断数茎须”。而小小一台机器人,竟已不仅可以杀遍天下围棋无敌手,还能在几秒钟内作出一首甚至几百首古典诗词与人类抗衡。

 

作为进化了上千万年的人类,面对这个只有几十年历史的异物种对手,你是否感到背脊发凉?

 

趁着情人节的特别需求,百度也上线了一款自动生成诗歌的小产品。

 

打开百度搜索APP,摁住下方语音按钮说一句“为你写诗”,就能进入写诗页面。再通过语音输入(之后可手动修改)关键词,一首七言绝句就自动生成了。


注意:这可不是广告,且看诗的水准。



你可以输入自己女票/男票的名字,也可以输入其他任意字词或短语,自动生成的诗歌中会包含这些输入信息。



老实说,输出结果有些尴尬。充其量算是打油诗吧,而且语句混乱,基本不知所云。不知道有多少人会真把它当做情人节礼物送出手。

 

中国人工智能学会基础专业委员会常务委员陈志成博士告诉刺猬君,自动生成诗歌所涉及的人工智能技术,主要攻克的是自然语言理解能力。其中一种方式是,系统根据人所输入的关键词,在现有数据库中寻找相关性较大的词汇,进行编排组合,再通过韵律、平仄等基本规则,删去不符合要求的结果,最终输出一个最优解。

 

自然语言计算是人工智能领域的关键技术之一。陈志成所介绍的只是众多“造诗机”模型中的一种,而百度也只是现有众多玩家中入场较晚的一位。



微软、IBM都在研发“造诗机”

机器人究竟是如何写诗的?


电脑辅助诗歌创作这件事,并不是刚刚出现的。

 

早在1959年,德国就出现了全世界第一首由机器人创作的诗歌。彼时已有学者在论文中提出了完整的造诗机模型和系统。目之所及,中国也至少在10年前就出现了“造诗机”。一款名为“稻香老农”的古诗自动生成软件,也一度被学界频繁引为例证和对比参照物。

 

知乎专栏作者萧瑟在《当AI邂逅艺术:机器写诗综述》一文中,梳理了五种基于传统方法的诗歌生成模式。

 

第一种是Word Salada(词语沙拉)。这是最早期的诗歌生成模型,被称作只是简单将词语进行随机组合和堆砌,而不考虑语义语法要求。

 

第二种是基于模板和模式的方法。基于模板的方法类似于完形填空,将一首现有诗歌挖去一些词,再用一些其他词进行替换,产生新的诗歌。这种方法生成的诗歌在语法上有所提升,但是灵活性太差。因此后来出现了基于模式的方法,通过对每个位置词的词性、韵律平仄进行限制,来进行诗歌生成。

 

第三种是基于遗传算法的方法。这里将诗歌生成看成状态空间搜索问题。先从随机诗句开始,然后借助人工定义的诗句评估函数,不断进行评估和进化迭代,最终得到诗歌。这种方法在单句上有较好的结果,但是句子之间缺乏语义连贯性。

 

第四种是基于摘要生成的方法。将诗歌生成看成给定写作意图的摘要生成问题,同时加入了诗歌相关的一些优化约束。

 

还有最后一种,也是当前最有代表性的,即微软所采用的基于统计机器翻译的方法。

 

微软亚洲研究院自然语言计算组成员、清华大学理论计算机研究中心博士何晶等三人,在一篇名为《基于统计的汉语格律诗生成研究》的论文中介绍,他们将诗歌生成看成一个机器翻译问题,将格律诗中的上下句关系建模为机器翻译中的源语言句子和目标语言句子的关系。即根据上句生成下句。

 

具体来说,统计机器翻译把翻译过程看作是一个搜索过程,也就是对一个给定的源文句子,生成多种可能的译文,然后搜索一个在统计意义下最优的翻译结果。



微软以短语作为翻译的基本单位。系统会首先将上句按照各种可能划分为多个短语,然后将每一个短语利用翻译模型翻译为下一句中的短语,最后结合语言模型组合得到最优的若干候选下句。同时,微软对传统机器翻译解码器进行了修改,使之生成符合韵律要求的下句。

 

很明显,这个“通过上句生成下句”的方法有一个缺陷是:无法生成诗的第一句。微软的办法是,从古籍《诗学含英》中获取一个诗歌词汇库,并设计了一个结合节奏模板和语言模型的首句生成模型。

 

研发组选择这本古籍的理由是,对于500首格律诗的调查显示,95%的诗歌的第一句中出现的字词都可以在《诗学含英》中找到,因此用这本书作为诗歌词汇的来源是“切实可行”的。

 

去年4月,IBM中国研究院也推出了一款“造诗机”,名唤“偶得”,取自陆游诗“文章本天成,妙手偶得之”。



“偶得”生成的是七言绝句“藏头诗”。这款产品是基于深度学习技术和认知技术的自动写作系统,从大量唐诗宋词中学习了古诗词的韵律,然后将语音学的特征引入到诗词生成的算法中。

 

用户需要先输入四个关键字,分别作为绝句“藏头”的四个首字。“偶得”会在这四个给定字的基础上,分别组词,并在已有数据库中,根据相关性匹配其他词语,其所谓“深度学习”和“认知”即在于此。

 

一位自称“偶得”系统的作者之一的网友BetterRain,在水木社区中发帖说,“偶得”大体上采用的是一个神经网络模型,根据前面已出现的文字来预测下一个字,这样逐字预测,直到生成一首完整的诗。

 

训练神经网络用的是《全唐诗》和《全宋诗》中的部分诗作。节奏、对仗和平仄是模型自己学习到的,但模型对音韵处理得不太好,这部分加了一些特殊规则来处理,但由于训练数据不足,依然存在很多问题。



既有“入屏出岫势峰拔”

又有“主任殷勤开口笑”

机器人写的诗究竟是什么水平?


 就像人与人一样,不同公司研发上线的“造诗机”也有水平高下之分。

 

本文开头列出的机器人作品,是由清华大学语言和语音中心(CSLT)自然语言处理研究组研发的智能机器人“薇薇”所作。去年3月,该研究组宣布,经过社科院等专家评测,“薇薇”通过了图灵测试。

 

所谓“图灵测试”,是人工智能领域的一项专门测试,用来判断机器人是否具备了与人一样的智识。

 

比如,把人和机器人分别关在一个小黑屋里,由一位不知情(不知道哪个屋子里关的是人)的专家分别向这两个小黑屋里问十个相同的问题,如果根据回答结果,仍然不能判断哪个小黑屋里关的是人,就算是通过了图灵测试。

 

大家可再欣赏两首“薇薇”的作品。


     早梅                                云峰

春信香深雪,             入屏出岫势峰拔,

冰肌瘦骨绝。             万里云霄一寸崖。

梅花不可知,             千古洞天无处觅,

何处东风约。             空留松鹤伴寒鸦。

 

不过,尽管“薇薇”表现不俗,却依然败给了人类。在去年3月的一场人机比赛中,“薇薇”平均得分2.72分(满分5分),略低于人类诗人的3.20分。

 

研发组称,“薇薇”是基于Attention RNN(一种深度学习和自然语言处理模型)实现对汉字组合规律的学习,通过设定不同的规范样式,用同一模型实现不同格律限制的古诗生成。

 

尽管能作多种类型的古诗,包括五言、七言诗,乃至宋词、藏头诗等,但“薇薇”目前仍处在持续研发阶段,提升空间还很大。

 

与其他“造诗机”只需要给定关键字词就能直接得到结果不同,“微软绝句”通过增强与用户的交互性,即获得更多人类智慧的协助,输出让人更满意的作品。

 

首先,用户需要在若干主题中选择一个关键词,主题包括天文、时令、游眺、花草等40个类别。系统根据用户确定的关键词生成第一句,用户可以手动选择第一句,也可以手动修改。

 

接下来,用户点击第二句的输入框,系统根据第一句自动生成第二句。此时,用户需要再次在众多候选项中选择自己满意的句子,或手动输入;同理生成第三句和第四句。



相比之下,IBM的“偶得”就更加考验机器人的深度学习和自然语言理解能力了。因为用户只输入四个字,而且作为每句的居首(藏头),这无疑给诗歌创作形成了更多束缚。结果可想而知,在当前技术不过硬的情况下,其生成的诗歌尽管可以不断刷新生成不同结果,却大多词句混乱无章,意旨表达效果远不如人意。


  

前述网友BetterRain也总结说,“偶得”存在的问题主要是内容前后不一致、意境前后不一致、生成的句子意思不通、不理解一些常识以及不知道典故等等。

 

萧瑟认为,目前诗歌生成技术,学习到的仍然只是知识的概率分布,即诗句内、诗句间的搭配规律。而没有学到诗歌应当如何蕴含思想感情。

 

所以,即便如“薇薇”或“微软绝句”等选手有时能有惊艳表现,很大程度上也是“偶得”。

 

陈志成对刺猬公社说,当前的人工智能主要学习结构化确定性知识,譬如围棋规则、诗歌的韵律平仄,乃至新闻简讯的编排等等,而对于诗歌的意境、情感等难以捉摸的非结构化主观性知识的准确理解和自主运用,尽管已经取得了一定进展,总体上还是很困难。

 

但如果不能真切地抒发情感,无法打动人心,即便完全符合韵律平仄要求,这样的空洞词句组合还能叫“诗”吗?这样的智识水平还能称之为“人工智能”吗?

 

特别有意思的是,在百度的“为你写诗”中输入“人工智能”,得出这么两句:

 

造化人工难写诗,智能高咏有谁知。



人工智能依然道阻且长。

 


既然“造化人工难写诗”

百度为何还要做“造诗机”?


哪怕在全世界范围内,人工智能都已是最热门的投资领域,俗称“风口”。陈志成告诉刺猬公社,2016年以来国内主要的大型投资基金几乎都布局了人工智能,但多数项目仅处于孵化阶段。

 

在人工智能技术平台方面,清华系新三板上市公司捷通华声(NEEQ:837791)等少数企业成为头部,在语音识别、人脸识别、图像识别、机器翻译、语义理解、声纹识别等技术上有所进展。

 

市场中更多的参与者还是中小型企业和初创企业,研发多局限在某个或少数几个领域的算法或应用。但由于人工智能行业的整体走强,以及风投资金持续跟进,陈志成预计,人工智能技术会在2019年进入普遍应用阶段。

 

百度此次推出的“为你写诗”,一大特色是语音识别+自动搜索。这也是百度在人工智能领域深耕多年后为数不多的实质性成果之一。

 

尽管巨头扎堆研发诗歌自动生成系统,其本意却并不在此。陈志成认为,“造诗机”本身并无太大的市场应用价值,企业只是想通过这种方式验证其人工智能研发水平,同时向外界展示,还能通过这种趣味性产品增强用户参与和分享行为,提升品牌。

 

自从“小度机器人”被卷入造假风波,百度似乎更迫切地想对外展示其在人工智能领域的建树。

 

放眼望去,中国恐怕没有哪家公司像百度这样,对人工智能抱有如此深的执念。

 

从2014年到2016年,百度在人工智能领域的研发投入逐年加码。研发成本占总营收比分别为12.9%、14.2%和15.3%。

 

今年初,前微软集团全球执行副总裁陆奇在万众瞩目下空降百度。这位全球人工智能资深专家,被赋予了仅次于李彦宏的权力,正在以集团总裁兼首席运营官的身份,重新改造这家明显掉队的BAT巨头成员。

 

在百度的战略版图中,人工智能直接被提升到了“核心中的核心”地位。李彦宏早已在多个公开场合提及了百度的这一战略转型。

 

前不久百度召开的总监会上,各业务部负责人纷纷提出将辖内业务进行“人工智能+”,比如金融+人工智能、O2O+人工智能、国际化+人工智能,以及内容生态+人工智能,似乎这就是百度能否冲出重围的救命稻草。

 

所以,无论百度的写诗机器人是不是一款无关紧要的产品,它以及后续相关产品的水平如何,想必是李彦宏始终要惦记着的。

 

文章最后,附赠两首百度机器人自动生成的小诗:


   

最后的最后,再传送文中提及的几款“造诗机”链接,你要不要也试一试?

 

微软绝句:http://duilian.msra.cn/jueju/

IBM偶得(移动端):

http://www.mobile-show.cn/ibm/Ibm_old/old-phone/index.html

稻香老农:http://www.poeming.com/web/index.htm

 

作者,熊少翀,关注内容产业、创业投资。欢迎微信交流(ID:masonhsiung),添加时烦请注明姓名、公司、职务。

 


参考资料


 1、萧瑟.《当AI邂逅艺术:机器写诗综述》[OL]. https://zhuanlan.zhihu.com/p/25084737,2017-02-04.

2、何晶,周明,蒋龙.《基于统计的汉语格律诗生成研究》[J]. 中文信息学报,2010.24(2):96-98.





内容产业报道第一媒体

微博 @刺猬公社

合作、转载事宜请联系微信号yunlugong

投稿邮箱[email protected]

网站www.ciweigongshe.net