雷锋网按:7月8日,由中国计算机学会(CCF)主办、雷锋网与香港中文大学(深圳)全程承办的AI盛会「全球人工智能与机器人峰会」(CCF-GAIR)进入火热的第二天。各分会会场人头不减,大家在细分领域深入探讨交流的激情更盛。
作为AI+专场的开场嘉宾,北京大学计算机科学技术研究所研究员万小军发表了主题为《机器写稿技术与应用》的演讲。会后,不少媒体朋友上前与万小军交流,期望能将“机器写稿技术”引入自家媒体。
机器人写稿并不是一个全新的话题了。2016年8月,万小军带领的北大计算机所与今日头套实验室联合推出新一代AI写稿机器人——奥运AI小记者Xiaomingbot。2017年1月,万小军与南方都市报合作研发写稿机器人“小南”。“小明”和“小南”备受关注,引发很多争论,正如邻居小朋友每次考了高分都会让你紧张一样,机器人在智能上的每一次进步,都让人类担心自己的饭碗不保,不少小编“哭晕在厕所”。
当南方都市报将“小南”看作自己的“新同事”的时候,万小军却对雷锋网编辑说,“在我眼里,写稿机器人就是一个程序,目前看到的更多的还是不足。”十几年前,万小军就开始做自然语言处理,开始关注其在新闻上的应用,写稿机器人并不是一个凭空跳出来的拥有华丽简历的神同事,而是技术不断推进和媒体环境变化的产物。在雷锋网对万小军的专访中,我们抛开人工智能何时能超越人类, 机器人能不能自主思考这样漫漫而谈的终极话题,一起来看看这个专注于新闻领域的计算机教授究竟在做什么。
新闻是做自然语言处理最规范的文本
雷锋网:您专注的自然语言处理技术主要有哪些应用场景?
万小军:自然语言处理在很多方面都有应用价值,现在的智能问答、人机交互都需要语言的处理,比如说现在的语音交互就需要机器对语言的理解,执行使用者的指令。另外机器翻译、机器写稿都是可应用的方面,机器写稿更侧重于自然语言的生成,是说根据语义数据去生成自然语言文本,机器的语言理解和语言生成是两个相反的过程。
人机对话中也会用到自然语言的生成,机器理解用户的问话之后,要生成语言来回答。在文化娱乐方面,也可以用自然语言生成技术来生成诗词、对联等。
雷锋网:同样都是自然语言生成,人机对话中的语言生成和机器人写稿的语言生成有什么不一样?
万小军:首先是长短不一样,人机对话中生成的回复文本一般比较短,多数情况下只生成一个句子,而机器人写稿则要生成包含多句话的完整文章,写稿过程中需要重点考虑篇章结构组织以及语句之间的连贯性。另一方面,对话的生成要重点考虑跟多轮上下文的衔接,也就是“语境”,而写稿的时候没有这种考虑,能够把一件事情说清楚就行了。最后,人机对话的语言表达可以比较口语化,但机器写稿倾向于使用比较规范和正式的语言表达。
雷锋网:您如何评价微软小冰和度秘这一类的语音助手或者说聊天机器人?
万小军:做聊天机器人如果不限领域的话其实很难做,如果限定一个领域的话就可以做的相对较好,例如专注于天气、体育或者财经。如果允许天马行空地发问,机器人回复的难度就很大。一般来说,针对一个狭窄的领域则可以做得很精细,比如就是针对某类产品的客服机器人。现在的“问答机器人”回答的是相对简单的事实型问题,但是像“百度知道”里绝大部分问题都是复杂型问题,问的是怎么样安装Windows, 托福怎么样考高分,怎么样上北大清华这样的问题,这些问题机器不好回答。你要问中国的首都在哪儿,就很好回答,wiki里都有,抽取出来放到知识库就可以了。现在的智能问答聊天系统还不能回答复杂的问题,解释事情的原委以及对比。我们得一步一步来,先解决简单的然后再考虑复杂的,如果一开始就把复杂的情况都考虑进来那就没法做了。
雷锋网:您在2004年就有论文关注新闻摘要提取,自然语言处理的应用领域很多,为什么选择并且一直专注在新闻领域?
万小军:自然语言处理的各项研究最早都是针对新闻语料开始做的,因为新闻是最规范的文本。如果一开始就在微博、微信和用户评论这样的不规范的文本去做,挑战会很大。所以像“自动分词”、“句法分析”、“语义分析”、“自动摘要”这些自然语言处理任务一开始的测试语料都是新闻文本。我们先看在新闻文本上能不能做好,再去考虑其它的,因为新闻相对于其他文本来说是最简单的。
雷锋网:用在新闻上的算法能够应用在别的文本吗?
万小军:应该是可以的,但是在精度上肯定是有变化的。比如说“分词”这个事情,你在新闻上面分可以达到95%以上,在微博上可能会降几个点,因为难度会更高,但是方法是可以用的。也可以进一步做些针对性处理,提高精度。
写稿机器人是新媒体时代产物
雷锋网:您从事新闻文本挖掘已久,您怎么看待新闻这种文字体裁?机器人的新闻写稿得符合哪些基本的要求?(还需要传统的新闻五要素、客观性、准确性这些标准吗?)
万小军:在互联网时代,新闻的定义已经跟原来不一样了。以前要求新闻要客观准确,而目前网络上标题党横行,很吸引眼球,很多人看。自媒体时代,人人都可以写稿,新闻不再只是由专业写稿人生产。现在更重要的是实时、有趣。自媒体时代每个人都在发声,机器将微博内容和评论整合起来就能出一篇新闻,这在以前是没有的。新闻的定义在互联网时代发生了变化。
雷锋网:新媒体时代的新闻已经发生了变化,您在与新媒体和传统媒体公司合作“写稿机器人”的时候,感受到新媒体与传统媒体哪些不同?
万小军:他们对机器人写稿的看法有不一样。今日头条会将Xiaomingbot生产的内容直接发布,但是南都还是比较传统一点,在发布到自己的app上时还是会经过人工审核。从传统媒体的立场,他们希望发布的信息要很准确。而自媒体更注重量大,侧重时效,吸引用户阅读。
雷锋网:您与今日头条Xiaomingbot写稿机器人的合作是如何开始的?
万小军:刚开始也是机缘巧合。我们团队当时在ACL上发表了一篇论文(《Towards Constructing Sports News from Live Text Commentary》),是一篇关于利用体育直播文字进行新闻稿写作的论文,我们当时已经做出了DEMO。当时正是2016年里约奥运,他们看到了我们的论文,邀请我们去做报告,然后在两周内,我们就将写稿机器人产品做出来了。我们这次的研究离实用很近,双方的对接也很简单。
雷锋网:在今日头条后,您又与南方都市报展开了合作,两次合作有什么不一样?
万小军:南都不一样在于他们主要是依据数据写稿,从12306网站抓取车票的数据,以及天气预报这样的结构化的数据去生成报道。头条既有基于体育比赛数据去生成报道,也有基于体育赛事的文字直播去生成报道。宏观上来说,从数据到文本的生成框架是类似的,但具体到每个步骤却是不同的,需要的数据分析就是不一样的,例如分析火车票的余票与分析天气预报是不一样的,最后的语言表达也是不一样的。具体做起来,每个领域要重新花很多力气,没办法一套东西又可以做天气,又可以做体育。
雷锋网:目前今日头条和南方都市报在运营写稿机器人过程中有什么反馈?他们是否达成了节省人力提升效率的目标?
万小军:今日头条写稿的量比较大,确实节省了很多人力。南方都市报的量要小一些,更多的是一种实验性、探索性的目的。南都的优势还是在于比较传统的深度报道,目前写稿机器人还是很难替代深度报道的。但是他们需要关注这样的技术趋势,积极去探索,这样才能更好地把握未来。每家媒体对于写稿机器人与记者如何协同分工都是不一样的,但是目前的新媒体平台很需要写稿机器人来及时快速地进行内容创作与发布。
以技术研究为驱动,落地是缘分
雷锋网:您目前与企业的合作可以被看作是产学研结合的模式,这种模式有什么优劣势?
万小军:优势是你会有一定经费支持做研究,通过应用可以扩大影响力,让更多的人知道机器写稿,获得业界和大众的关注,要是只是自己发论文就只能在小圈子里。但是做应用还是会耗费不少做研究的时间和精力,毕竟做应用跟做研究还是有很大差别的。做研究的时候,你把性能从71%提升到72%,有新的方法论就是好的研究成果。但是做应用的时候,71%到72%是没有用的,你得到85%以上才行,对效果要求比方法要求高。你方法再笨,怎么实现都无所谓,只要能做出来。而研究要求你有创新。要是你的方法又创新又能直接应用,那当然是最好的。95%以上的研究论文都离实用差得很远。
雷锋网:自然语言处理在很大程度上依赖数据,在数据上面您有遇到难题吗?
万小军:我们做自然语言处理研究用的数据是人工标注过的数据,产业界的数据量很大,但是很多都没有标注。很多新闻没有标出时间、地名、人名、事件,这样的数据用处也没有那么大。学术界会经常共享人工标注的数据,产业界也会提供一些数据。比如说我们今年依托NLPCC会议跟今日头条合作举办了一个“单文档摘要”的评测任务,用了今日头条大概十万条的标注数据。目前遇到的问题是,比如我们要做“多文档摘要”,基于多篇文章去得到一个高度总结,这样的数据学术界只有一两百条左右。但这样规模的数据要深度学习的话是没法做的,深度学习做摘要生成要几十万条数据。多文档数据产业界也没有,他们也没有做人工的标注。学术界还是很缺乏数据。
雷锋网:您对新闻写稿的下一步规划?
万小军:准备做的一个是文本复述。因为现在做摘要也好,综述也好,主要还是直接把句子挑选出来,对句子没有改动,下一步希望对句子做很大的改动,保持语义不变,这就是复述。我们期望做到语言风格的转换,例如古龙的风格还是金庸的风格。另一个是在写稿中加入态度和立场,让稿件更加生动和具有人性。
雷锋网(公众号:雷锋网):您是认为新闻行业对写稿,文本复述有需求才做的吗?
万小军:我们是技术驱动的,我没有去跟公司聊他们的需求,这是我自己想做的一个事情。但是我相信这项技术会很有用,自动复述可以实现个性化稿件的生成。研究某项技术的时候并不完全是因为它有实用价值我才考虑去做。
所谓机器人就是代码
雷锋网:请问您如何评估写稿机器人的稿件质量?
万小军:有一个客观的评价,让几个人分别写出不同的稿件,把这些稿件作为答案,把系统生成的稿件和人写的稿件做一个匹配,看重合度有多高。进一步的就是人工去打分,这个稿件从内容覆盖性、可读性等方面进行打分。我们目前并没有直接将写稿机器人与人类进行PK,因为跟不同的人去PK可能会得到不同的比较结果。你跟写稿专家去比,还是跟初中生小学生去比。每个人的写作水平差距很大,因此就不太好比。跟记者比深度报道写稿机器人会输,要是比数据新闻,机器当然更快更精准。从今日头条的用户反馈来看,很多人没有区别机器人的稿子和记者的稿子。
雷锋网:自然语言处理领域有什么前沿的新技术吗?
万小军:基于深度学习进行自然语言处理研究是一个趋势,但其实整个自然语言处理并没有因为采用了深度学习技术而得到一个突飞猛进的进展。深度学习的应用对视觉和语音等领域取得了显著的推动作用,但是自然语言处理很多任务并没有获得实质性的性能提升。深度学习能够从图像和语音信号中获得有意义的抽象特征,但是对文本来讲,以前用的特征就是词,这已经是有意义的特征了,用深度学习去做的时候是否能学到比词更有意义的特征。此外,语言的动态变化,语义的模糊性也导致了自然语言处理是非常困难的。
雷锋网:能谈谈您认为自然语言处理要实现的目标吗?
万小军:自然语言处理是很复杂的事情,要做到完全的理解是很难的,我不敢拍胸脯说在多少年以后一定能实现语言理解。但是在特定的应用上可以做的很好,做这些应用不需要做到理解,例如机器翻译,系统不需要完全理解输入的文本之后再去翻译。做很多应用的时候可以不用考虑理解,虽然有些厂商号称自己是理解之后再去做的。人机对话也主要是一个搜索与匹配问题,你不要问机器到底有没有理解人类的问话以及它自己生成的答复。
雷锋网:能分享一些您在创造写稿机器人过程中的趣事或者感悟吗?您怎么看待自己的写稿机器人?
万小军:平时还是挫败感比较多,有趣的比较少。很多时候想到一个办法,但是就是结果调不出来。其实将“Xiaomingbot”、“小南”称之为机器人并不是特别契合,因为它们其实就是软件,你给它一个输入,得到输出,他没有人性化。我们自己做出的软件,一分解之后就是一行行代码而已。我们自己知道它其实没有那么聪明。
在交流过程中,雷锋网编辑发现万小军老师是严谨而实诚的研究者,他没有用大概念,大方向来解说自己的项目,而是真切地分析每一个问题。时间有限的采访里我们得到了很多实在的观点:
自然语言处理有多种应用场景,万小军选择新闻领域是因为新闻文本具备最大的规范性,从简到难,新闻领域的写稿机器人的算法也可以逐步应用到其他领域;
摘要与文本生成技术的开端很早,近年才火起来是由于新媒体时代的到来,我们的信息生产、传达和接收方式都发生了改变,写稿机器人具备的快速、精准、大量的特点使其在新媒体时代大放光彩,这项技术也是传统媒体渴望转型或者跟上时代所需关注的;
学术的研究要落地应用是很难的,研究和行业应用是两回事,产学研合作的模式能提供一些有利资源,但是万小军还是更希望以技术驱动来进行研究,而不是以市场需求来进行研究;
自然语言处理领域要取得突破很困难,很难说什么时候机器能实现真正的理解。但是一步一步做起,先解决简单的事情再考虑复杂的,如果一开始就思考复杂的或者终极的问题是无法做成的。
更多精彩内容,请继续关注雷锋网后续报道。