专栏名称: 腾讯研究院
【腾讯研究院 ★ Tencent Research Institute】 网聚智慧,连接世界!网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。
目录
相关文章推荐
新浪科技  ·  #蔚来2024年交付量创历史新高# ... ·  昨天  
新浪科技  ·  【广发证券澄清:#iPhone18将搭载2纳 ... ·  昨天  
新浪科技  ·  【#拼多多2024年营收3938亿##拼多多 ... ·  2 天前  
51好读  ›  专栏  ›  腾讯研究院

真正能和人交流的机器人离我们有多远?

腾讯研究院  · 公众号  · 科技媒体  · 2017-01-23 18:02

正文




经济学人》近日刊登文章,称计算机在翻译、语音识别和语音合成上都获得了很大的进步,但它们仍然不了解语言的含义。以下是原文内容:


“对不起,戴夫,恐怕我不能这样做。”电影《2001:太空遨游》里,电脑“哈尔9000”冷冰冰地说。它拒绝给冒险出舱的宇航员戴夫•鲍曼开门,这个情节反应了人们对智能计算机的担忧。


1968年该片上映时,可以与人类交流自如的计算机似乎就像人类登上木星那样遥不可及。在那之后,我们已经取得了巨大进步,制造出了可以和人交谈的机器,这些机器可以做出接近于自然语言的回应。即便如此,沟通也仍然存在困难。如果《2001:太空遨游》使用的是当前的语言技术,那么对话就会是这样:“打开舱门,哈尔。”“我很抱歉,戴夫。我听不懂你说的话。”“打开舱门,哈尔。”“戴夫,我在eBay上搜索了‘舱门’,结果如下……”


可以处理突发事件、具有创意,能真正进行交谈的计算机仍然距离我们很遥远。当被问及哈尔、终结者这种机器人会带来怎样的影响时,人工智能(AI)研究者只会付之一笑。虽然除了少数套话式的任务之外,当前的语言技术还远远不能取代人类,但最终它们也会变得比较好用,为人类提供一些帮助,这样我们可以把更多的时间放在自己觉得有趣的事情上了。在之前60年里,大多数这类项目的成果都很令人失望,但在过去几年里,我们取得的进展开始比较接近早期开拓者的期望了。


语音识别取得了显著进步。机器翻译也从“效果滑稽”变得“很有希望”,可能不久之后,机器翻译的结果只需要人类进行少量的编辑就可以达到不错的水平。电脑个人助理,比如苹果Siri、亚马逊Alexa、谷歌Now和微软小娜,它们可以理解各种各样的问题,并且以一种自然的方式提供准确而有用的回答。 Alexa甚至可以回复“给我讲个笑话”这样的问题,但它必须要调用一个笑话数据库才行。计算机是没有幽默感的。


苹果在2011年推出Siri的时候,这个语音助理的效果令人失望,所以很多人都没有使用它。咨询公司Creative Strategies表示,即使有95%的智能手机用户尝试过使用个人助理,但只有约三分之一的智能手机用户会定期使用它。很多用户可能不知道Siri已经获得了多大的改善。


1966年,约翰•皮尔斯(John Pierce)在美国的贝尔实验室工作,他引领团队研发了第一个晶体和第一颗通信卫星之后,获得了极高的声誉,因此被分派了一个任务:审查美国科学院的自动语言处理技术。在那之前的一段时间里,学者们信誓旦旦地说,要不了几年就可以实现自动语言翻译。


但皮尔斯的报告给他们泼了一盆凉水。该报告回顾了过去十年里机器翻译和自动语音识别的进展,然后总结说,语言技术研究的成果被夸大了,专家的信誓旦旦并不可靠。皮尔斯在1969年写道,资助者和研究人员经常自欺欺人,“并没有获得简单、清楚、确实的成果”。在那之后,美国政府在这个领域投入的资金大大缩水,语言技术研究进入了二十年的冬眠期。


宾夕法尼亚大学语言学教授、语言数据联盟(Linguistic Data Consortium,拥有海量人类语言文本和录音)负责人马克•利博曼(Mark Liberman)说,从冬眠中苏醒是正常的。利博曼对语言技术的历史非常了解。以前,研究人员对自己的研究方法守口如瓶,并且会用一些难以评估的方式来描述研究成果。但从20世纪80年代开始,美国国防高级研究计划局的查尔斯•韦恩(Charles Wayne)鼓励他们尝试“共同作业”。


逐步发展

研究人员会对一套做法达成了共识,无论是让计算机进行语音识别,辨别说话者的身份,对文本进行情绪分析,还是开展语法分解、语言识别、手写识别或是其他各种任务。他们需要列出一些需要改进的指标,并且要共享用来训练软件的数据集,让外部人员来测试他们得出的结果。这样一来,整个过程就变得更加透明了。资金再次涌来,语言技术开始逐步获得改善,虽然进展比较缓慢。


语言技术的很多早期方法(特别是翻译)陷入了一个概念性的死胡同——基于规则的方法。在翻译中,这意味着尝试编写规则来分析源语言的句子文本,将其分解成一种抽象的“语言”,并根据目标语言的规则来重建它。这些方法最初看起来很有前景。但是语言中模糊和不规则的东西太多,所以这种翻译系统就变得非常复杂,而且效果也不如人意。但是在应用了统计方法(通常被称为“蛮力”方法)之后,几乎所有的语言技术都获得了很大的提升。


这种方法需要软件搜索大量的数据、寻找模式,并从先例中学习。例如,在解析语言(将其分解为语法组件)的时候,软件需要学习人类已经解析完成的大量文本,然后利用学到的东西,对以前没有见过的文本如何解析做出最佳猜测。在机器翻译中,软件学习人类已经翻译过的数以百万的例句,然后寻找模式。在语音识别中,软件从人类的语音录音和相应的文字转录结果中进行学习。由于处理器的性能不断提高,存储数据的成本下降,以及可用的数据出现了爆炸性增长,这种方法最终产生了效果。


数几十前就已经问世的数学技术开始大显身手,掌握了大量数据的大公司必然可以从中受益。BabelFish这样的在线工具给出的翻译结果常常滑稽可笑,令人失望,但谷歌翻译的让人觉得很有信心,苹果也说服了数以百万计的iPhone用户在手机上和Siri对话。最大的进步是从大约五年前,由数字神经网络(DNN)加持的深度学习出现的时候开始的。


DNN经常被说成具有和人类大脑类似的特质,是在软件中相互连接的“神经元”,在学习过程,不同的连接可以变得更强或者更弱。但是语言技术公司Nuance的研究主管尼尔斯•兰科(Nils Lenke)认为,“DNN实际上不过是一种数学模型”,业界在几十年前就已经理解它的基本原理了。真正改变的因素是硬件。几乎是在一种偶然的情况下,DNN研究人员发现,用图形处理单元(GPU,视频游戏中流畅地渲染图形靠的就是它)来处理神经网络效果极佳。


在计算机图像中,基本的小形状根据相当简单的规则移动,但是形状和规则的数量都很多,需要进行大量的简单计算。DNN搜索数据进行学习的时候,GPU就被用来微调分配给DNN中“神经元”的权重。这种技术已经为各种深度学习的质量带来了巨大飞跃,包括手写识别、面部识别和图像分类。现在研究者用它们来改进各种语言技术,通常会出现高达30%的效果提升。在这种情况下,语言技术已经从“能用”变得“比较好用”。但是到目前为止,没有人知道它要怎样才能从“还不错”变得“一直很出色”。


能说话的机器

电影《机器人总动员》(WALL-E)描写了在未来,所有的人类都生活在一架太空飞船里,那时候,由于环境恶化,地球已被遗弃。人类的种种需要都由机器来照顾,人类只需要躺在智能悬浮椅子享受就可以了,所以所有人都变得肥头大耳。即使是船长也不是真的在指挥飞船,真正的飞行员是一个智能机器人,名叫Auto,它说话很尖刻。就像很多科幻小说的情节一样,Auto最终也篡了权。







请到「今天看啥」查看全文