专栏名称: 腾讯研究院

【腾讯研究院 ★ Tencent Research Institute】网聚智慧，连接世界！网罗互联网前沿理念、传递互联网发展声音、汇集互联网研究成果、推动互联网法治进程。

真正能和人交流的机器人离我们有多远？

腾讯研究院 · 公众号 · 科技媒体 · 2017-01-23 18:02

正文

经济学人》近日刊登文章，称计算机在翻译、语音识别和语音合成上都获得了很大的进步，但它们仍然不了解语言的含义。以下是原文内容：

“对不起，戴夫，恐怕我不能这样做。”电影《2001：太空遨游》里，电脑“哈尔9000”冷冰冰地说。它拒绝给冒险出舱的宇航员戴夫•鲍曼开门，这个情节反应了人们对智能计算机的担忧。

1968年该片上映时，可以与人类交流自如的计算机似乎就像人类登上木星那样遥不可及。在那之后，我们已经取得了巨大进步，制造出了可以和人交谈的机器，这些机器可以做出接近于自然语言的回应。即便如此，沟通也仍然存在困难。如果《2001：太空遨游》使用的是当前的语言技术，那么对话就会是这样：“打开舱门，哈尔。”“我很抱歉，戴夫。我听不懂你说的话。”“打开舱门，哈尔。”“戴夫，我在eBay上搜索了‘舱门’，结果如下……”

可以处理突发事件、具有创意，能真正进行交谈的计算机仍然距离我们很遥远。当被问及哈尔、终结者这种机器人会带来怎样的影响时，人工智能（AI）研究者只会付之一笑。虽然除了少数套话式的任务之外，当前的语言技术还远远不能取代人类，但最终它们也会变得比较好用，为人类提供一些帮助，这样我们可以把更多的时间放在自己觉得有趣的事情上了。在之前60年里，大多数这类项目的成果都很令人失望，但在过去几年里，我们取得的进展开始比较接近早期开拓者的期望了。

语音识别取得了显著进步。机器翻译也从“效果滑稽”变得“很有希望”，可能不久之后，机器翻译的结果只需要人类进行少量的编辑就可以达到不错的水平。电脑个人助理，比如苹果Siri、亚马逊Alexa、谷歌Now和微软小娜，它们可以理解各种各样的问题，并且以一种自然的方式提供准确而有用的回答。 Alexa甚至可以回复“给我讲个笑话”这样的问题，但它必须要调用一个笑话数据库才行。计算机是没有幽默感的。

苹果在2011年推出Siri的时候，这个语音助理的效果令人失望，所以很多人都没有使用它。咨询公司Creative Strategies表示，即使有95%的智能手机用户尝试过使用个人助理，但只有约三分之一的智能手机用户会定期使用它。很多用户可能不知道Siri已经获得了多大的改善。

1966年，约翰•皮尔斯（John Pierce）在美国的贝尔实验室工作，他引领团队研发了第一个晶体和第一颗通信卫星之后，获得了极高的声誉，因此被分派了一个任务：审查美国科学院的自动语言处理技术。在那之前的一段时间里，学者们信誓旦旦地说，要不了几年就可以实现自动语言翻译。

但皮尔斯的报告给他们泼了一盆凉水。该报告回顾了过去十年里机器翻译和自动语音识别的进展，然后总结说，语言技术研究的成果被夸大了，专家的信誓旦旦并不可靠。皮尔斯在1969年写道，资助者和研究人员经常自欺欺人，“并没有获得简单、清楚、确实的成果”。在那之后，美国政府在这个领域投入的资金大大缩水，语言技术研究进入了二十年的冬眠期。

宾夕法尼亚大学语言学教授、语言数据联盟（Linguistic Data Consortium，拥有海量人类语言文本和录音）负责人马克•利博曼（Mark Liberman）说，从冬眠中苏醒是正常的。利博曼对语言技术的历史非常了解。以前，研究人员对自己的研究方法守口如瓶，并且会用一些难以评估的方式来描述研究成果。但从20世纪80年代开始，美国国防高级研究计划局的查尔斯•韦恩（Charles Wayne）鼓励他们尝试“共同作业”。

逐步发展

研究人员会对一套做法达成了共识，无论是让计算机进行语音识别，辨别说话者的身份，对文本进行情绪分析，还是开展语法分解、语言识别、手写识别或是其他各种任务。他们需要列出一些需要改进的指标，并且要共享用来训练软件的数据集，让外部人员来测试他们得出的结果。这样一来，整个过程就变得更加透明了。资金再次涌来，语言技术开始逐步获得改善，虽然进展比较缓慢。

语言技术的很多早期方法（特别是翻译）陷入了一个概念性的死胡同——基于规则的方法。在翻译中，这意味着尝试编写规则来分析源语言的句子文本，将其分解成一种抽象的“语言”，并根据目标语言的规则来重建它。这些方法最初看起来很有前景。但是语言中模糊和不规则的东西太多，所以这种翻译系统就变得非常复杂，而且效果也不如人意。但是在应用了统计方法（通常被称为“蛮力”方法）之后，几乎所有的语言技术都获得了很大的提升。

这种方法需要软件搜索大量的数据、寻找模式，并从先例中学习。例如，在解析语言（将其分解为语法组件）的时候，软件需要学习人类已经解析完成的大量文本，然后利用学到的东西，对以前没有见过的文本如何解析做出最佳猜测。在机器翻译中，软件学习人类已经翻译过的数以百万的例句，然后寻找模式。在语音识别中，软件从人类的语音录音和相应的文字转录结果中进行学习。由于处理器的性能不断提高，存储数据的成本下降，以及可用的数据出现了爆炸性增长，这种方法最终产生了效果。

数几十前就已经问世的数学技术开始大显身手，掌握了大量数据的大公司必然可以从中受益。BabelFish这样的在线工具给出的翻译结果常常滑稽可笑，令人失望，但谷歌翻译的让人觉得很有信心，苹果也说服了数以百万计的iPhone用户在手机上和Siri对话。最大的进步是从大约五年前，由数字神经网络（DNN）加持的深度学习出现的时候开始的。

DNN经常被说成具有和人类大脑类似的特质，是在软件中相互连接的“神经元”，在学习过程，不同的连接可以变得更强或者更弱。但是语言技术公司Nuance的研究主管尼尔斯•兰科（Nils Lenke）认为，“DNN实际上不过是一种数学模型”，业界在几十年前就已经理解它的基本原理了。真正改变的因素是硬件。几乎是在一种偶然的情况下，DNN研究人员发现，用图形处理单元（GPU，视频游戏中流畅地渲染图形靠的就是它）来处理神经网络效果极佳。

在计算机图像中，基本的小形状根据相当简单的规则移动，但是形状和规则的数量都很多，需要进行大量的简单计算。DNN搜索数据进行学习的时候，GPU就被用来微调分配给DNN中“神经元”的权重。这种技术已经为各种深度学习的质量带来了巨大飞跃，包括手写识别、面部识别和图像分类。现在研究者用它们来改进各种语言技术，通常会出现高达30%的效果提升。在这种情况下，语言技术已经从“能用”变得“比较好用”。但是到目前为止，没有人知道它要怎样才能从“还不错”变得“一直很出色”。

能说话的机器

电影《机器人总动员》（WALL-E）描写了在未来，所有的人类都生活在一架太空飞船里，那时候，由于环境恶化，地球已被遗弃。人类的种种需要都由机器来照顾，人类只需要躺在智能悬浮椅子享受就可以了，所以所有人都变得肥头大耳。即使是船长也不是真的在指挥飞船，真正的飞行员是一个智能机器人，名叫Auto，它说话很尖刻。就像很多科幻小说的情节一样，Auto最终也篡了权。

真正能和人交流的机器人离我们有多远？

正文

请到「今天看啥」查看全文