专栏名称: 机器人网

机器人网 ( roboticschina.com) 为中国的机器人系统研发、设计与制造工程师社群提供最新产业和技术趋势，以及配套产业的技术方案与信息，涵盖工业自动化、教育、医疗和健康、农业/矿业/林业、家用和娱乐、探测和检测等六大应用领域。

真正能和人交流的机器人离我们有多远？

机器人网 · 公众号 · 机器人 · 2017-01-23 22:53

正文

《经济学人》近日刊登文章，称计算机在翻译、语音识别和语音合成上都获得了很大的进步，但它们仍然不了解语言的含义。以下是原文内容：

“对不起，戴夫，恐怕我不能这样做。”电影《2001：太空遨游》里，电脑“哈尔9000”冷冰冰地说。它拒绝给冒险出舱的宇航员戴夫?鲍曼开门，这个情节反应了人们对智能计算机的担忧。

1968年该片上映时，可以与人类交流自如的计算机似乎就像人类登上木星那样遥不可及。在那之后，我们已经取得了巨大进步，制造出了可以和人交谈的机器，这些机器可以做出接近于自然语言的回应。即便如此，沟通也仍然存在困难。如果《2001：太空遨游》使用的是当前的语言技术，那么对话就会是这样：“打开舱门，哈尔。”“我很抱歉，戴夫。我听不懂你说的话。”“打开舱门，哈尔。”“戴夫，我在eBay上搜索了‘舱门’，结果如下……”

可以处理突发事件、具有创意，能真正进行交谈的计算机仍然距离我们很遥远。当被问及哈尔、终结者这种机器人会带来怎样的影响时，人工智能（AI）研究者只会付之一笑。虽然除了少数套话式的任务之外，当前的语言技术还远远不能取代人类，但最终它们也会变得比较好用，为人类提供一些帮助，这样我们可以把更多的时间放在自己觉得有趣的事情上了。在之前60年里，大多数这类项目的成果都很令人失望，但在过去几年里，我们取得的进展开始比较接近早期开拓者的期望了。

语音识别取得了显著进步。机器翻译也从“效果滑稽”变得“很有希望”，可能不久之后，机器翻译的结果只需要人类进行少量的编辑就可以达到不错的水平。电脑个人助理，比如苹果Siri、亚马逊Alexa、谷歌Now和微软小娜，它们可以理解各种各样的问题，并且以一种自然的方式提供准确而有用的回答。 Alexa甚至可以回复“给我讲个笑话”这样的问题，但它必须要调用一个笑话数据库才行。计算机是没有幽默感的。

苹果在2011年推出Siri的时候，这个语音助理的效果令人失望，所以很多人都没有使用它。咨询公司Creative Strategies表示，即使有95%的智能手机用户尝试过使用个人助理，但只有约三分之一的智能手机用户会定期使用它。很多用户可能不知道Siri已经获得了多大的改善。

1966年，约翰?皮尔斯（John Pierce）在美国的贝尔实验室工作，他引领团队研发了第一个晶体和第一颗通信卫星之后，获得了极高的声誉，因此被分派了一个任务：审查美国科学院的自动语言处理技术。在那之前的一段时间里，学者们信誓旦旦地说，要不了几年就可以实现自动语言翻译。

但皮尔斯的报告给他们泼了一盆凉水。该报告回顾了过去十年里机器翻译和自动语音识别的进展，然后总结说，语言技术研究的成果被夸大了，专家的信誓旦旦并不可靠。皮尔斯在1969年写道，资助者和研究人员经常自欺欺人，“并没有获得简单、清楚、确实的成果”。在那之后，美国政府在这个领域投入的资金大大缩水，语言技术研究进入了二十年的冬眠期。

宾夕法尼亚大学语言学教授、语言数据联盟（Linguistic Data Consortium，拥有海量人类语言文本和录音）负责人马克?利博曼（Mark Liberman）说，从冬眠中苏醒是正常的。利博曼对语言技术的历史非常了解。以前，研究人员对自己的研究方法守口如瓶，并且会用一些难以评估的方式来描述研究成果。但从20世纪80年代开始，美国国防高级研究计划局的查尔斯?韦恩（Charles Wayne）鼓励他们尝试“共同作业”。

逐步发展

研究人员会对一套做法达成了共识，无论是让计算机进行语音识别，辨别说话者的身份，对文本进行情绪分析，还是开展语法分解、语言识别、手写识别或是其他各种任务。他们需要列出一些需要改进的指标，并且要共享用来训练软件的数据集，让外部人员来测试他们得出的结果。这样一来，整个过程就变得更加透明了。资金再次涌来，语言技术开始逐步获得改善，虽然进展比较缓慢。

语言技术的很多早期方法（特别是翻译）陷入了一个概念性的死胡同——基于规则的方法。在翻译中，这意味着尝试编写规则来分析源语言的句子文本，将其分解成一种抽象的“语言”，并根据目标语言的规则来重建它。这些方法最初看起来很有前景。但是语言中模糊和不规则的东西太多，所以这种翻译系统就变得非常复杂，而且效果也不如人意。但是在应用了统计方法（通常被称为“蛮力”方法）之后，几乎所有的语言技术都获得了很大的提升。

这种方法需要软件搜索大量的数据、寻找模式，并从先例中学习。例如，在解析语言（将其分解为语法组件）的时候，软件需要学习人类已经解析完成的大量文本，然后利用学到的东西，对以前没有见过的文本如何解析做出最佳猜测。在机器翻译中，软件学习人类已经翻译过的数以百万的例句，然后寻找模式。在语音识别中，软件从人类的语音录音和相应的文字转录结果中进行学习。由于处理器的性能不断提高，存储数据的成本下降，以及可用的数据出现了爆炸性增长，这种方法最终产生了效果。

数几十前就已经问世的数学技术开始大显身手，掌握了大量数据的大公司必然可以从中受益。BabelFish这样的在线工具给出的翻译结果常常滑稽可笑，令人失望，但谷歌翻译的让人觉得很有信心，苹果也说服了数以百万计的iPhone用户在手机上和Siri对话。最大的进步是从大约五年前，由数字神经网络（DNN）加持的深度学习出现的时候开始的。

DNN经常被说成具有和人类大脑类似的特质，是在软件中相互连接的“神经元”，在学习过程，不同的连接可以变得更强或者更弱。但是语言技术公司Nuance的研究主管尼尔斯?兰科（Nils Lenke）认为，“DNN实际上不过是一种数学模型”，业界在几十年前就已经理解它的基本原理了。真正改变的因素是硬件。几乎是在一种偶然的情况下，DNN研究人员发现，用图形处理单元（GPU，视频游戏中流畅地渲染图形靠的就是它）来处理神经网络效果极佳。

在计算机图像中，基本的小形状根据相当简单的规则移动，但是形状和规则的数量都很多，需要进行大量的简单计算。DNN搜索数据进行学习的时候，GPU就被用来微调分配给DNN中“神经元”的权重。这种技术已经为各种深度学习的质量带来了巨大飞跃，包括手写识别、面部识别和图像分类。现在研究者用它们来改进各种语言技术，通常会出现高达30%的效果提升。在这种情况下，语言技术已经从“能用”变得“比较好用”。但是到目前为止，没有人知道它要怎样才能从“还不错”变得“一直很出色”。

能说话的机器

电影《机器人总动员》（WALL-E）描写了在未来，所有的人类都生活在一架太空飞船里，那时候，由于环境恶化，地球已被遗弃。人类的种种需要都由机器来照顾，人类只需要躺在智能悬浮椅子享受就可以了，所以所有人都变得肥头大耳。即使是船长也不是真的在指挥飞船，真正的飞行员是一个智能机器人，名叫Auto，它说话很尖刻。就像很多科幻小说的情节一样，Auto最终也篡了权。

说话是人类的显著特征之一，所以你很难想象机器可以像人类一样真正交谈，除非把它们设想为超级智能。但如果它们超级聪明，没有人类的缺陷，那又很难想象它们不会接管一切权力了——这样似乎不仅对它们好，而且对人类也好。即使是在一个相当美好的未来中，比如《机器人总动员》中的未来，所有的工作都交给机器来做，你也很容易看到，如果生活太缺乏挑战，这对人类也是没什么好处的。

幸运的是，可以说话的机器可以帮助人们完成很多枯燥的任务。机器变得越来越善于处理那些例行公事型的麻烦事情。很快，用户就可以使用语调自然的语音命令来让机器办理事情了。曾经一段时间，在一户家庭中，只有一个人知道怎么用计算机或者录像机。后来，图形界面（图标和鼠标）和触摸屏使这样的技术让科技产品的使用变得很简单。风险投资公司Andreessen Horowitz的Frank Chen认为，人与机器之间的自然语言接口，是向所有人提供信息和服务的一个新进展。他说，硅谷正在进入人工智能技术的黄金时代。20世纪90年代，早期技术公司建立网站的时候，它们并不知道为什么要这么做，只是觉得应该这么做。同样，现在每家公司都在努力发展自然语言技术。然而他也说，“从语音领域角度来看，我们好像是在1994年。”

而1995年即将到来。这并不意味着人们以后仅仅通过交谈的方式与电脑沟通。网站并没有让电话变得过时，移动设备也没有让台式电脑变得过时。所以，当人们可以和机器进行语音交互的时候，有时候还是会继续使用文本交互方式。

不是所有人都会选择语音交互。例如在日本，人们会避免在公众场合进行语音交谈，因此Siri在上班时间使用率较低，但在晚上和周末比较高。语音技术的发展是件好事，用户不用打字就可以写作，老年人可能也会发现用语音输入比在小键盘上打字更加容易一些。而不会打字的幼儿现在也可以和机器说话了。

打字困难的残障人士也将从中受益。微软的一款新设备可以帮助肌萎缩性侧索硬化（ALS，病人身体几乎不能动，但头脑正常）患者用他们的眼睛在屏幕上选择字母的方式“说话”。其中的关键是预测文本、学习用户的习惯，并且改进预测方式。有经验的用户每分钟可以说大约15个单词。

人们甚至会寻求机器的陪伴。微软在中国推出的聊天机器人小冰学会了如何回话可以让交谈持续得更久。没有人会认为小冰是人类，但它确实能让用户变得比较“畅所欲言”。

另一个可能从该技术中受益的是规模较小的语言社群。计算机网络可能会出现一种“赢家通吃”的效应：如果有很多好的软件都是英语或者中文的，那么较小的语言在网上就变得价值很小。因而这些语言的生存可能会受到威胁。但濒危语言联盟的罗斯?佩林（Ross Perlin）指出，有了新软件，研究人员可以用更快的速度把小语种记录下来。而足够多的数据为小语种资源的开发带来了可能性。硅谷巨头已经对自己的软件进行了几十种语言的本地化；在神经网络的帮助下，制作的新版本的速度提高了。

自然语言技术的兴起存在两个重大问题：一是影响隐私，二是会颠覆很多工种。

越来越多的设备总是处在“聆听”状态。数字助理（比如Alexa、小娜、Siri和谷歌助理）会被默认设置为等待提示状态，你说“Hey，Siri”或“OK，谷歌”，就可以激活它们。但是，衣服口袋里有这样一个永远在线的麦克风，不免会让注重隐私的人感到困扰。而用具体某个用户的语音、词汇、书面文档和习惯来训练语言软件，改进它的效果，也存在着类似的问题。

每家大公司的位置服务——就连手机中检测微小位置变化的加速度计——都在不断改进它们猜测“用户的需求是什么”的准确性。如果一个数字助理的行为让人感到惊讶（“药剂师就在附近——你想买更多的痔疮膏吗，史蒂夫？”）可能很多人都想要重新思考一下，是新服务的方便性更可取呢，还是保护隐私更重要。科技公司可以在这方面发挥一些作用，为用户提供更多的选择；最新的iPhone面朝下放在桌子上的时候，语音助理就不会被激活。但是黑客肯定也会找到一些方法来突破这类关卡。

另一个大问题是工作岗位。只要一个工作是例行性的，它就会有可能被自动化。一个很好的例子是客户支持服务。当人们联系公司，寻求帮助的时候，最初的对话常常都是一些例行问答。员工需要验证客户的身份，然后按照既定程序处理问题。而语言技术现在已经足够成熟，可以承担大量这样的任务。

在一段很长的过渡时期中，仍然是需要人类参与这些工作的，但他们所做的事情不再是例行公事。 Nuance是一家销售自动化网上/电话帮助系统的公司，它对语音生物识别技术（客户说一句“我的声音就是我的密码”就能识别身份）非常看好。该公司的高级经理布雷特?博兰尼克（Brett Beranek）说，这种系统使用约200个参数来识别说话者身份，可能比指纹识别系统更安全。它也不像客户和支持人员使用PIN、密码和安全问题进行多步骤识别那么乏味。英国银行巴克莱向常客推出了这种客户支持服务后，五个月内的注册率达到了84%。

Datalingvo公司道德尼基塔?伊万诺夫（Nikita Ivanov）说，智能手机上的数字助理犯一些错误无伤大雅，但商业应用对错误的容忍度接近于零。Datalingvo是一家硅谷初创公司，可以回答和企业业务数据有关的、使用自然语言提出的问题。如果用户想要知道在加利福尼亚州上个月的哪些在线广告销售量最大，该软件则会自动将转换为数据库查询。但在幕后，Datalingvo的工作人员会进行人工审查，以确保这个查询是正确的。因为这种技术在早期确实会犯下错误，得出一些不准确的数据，而用户可能会因此做出错误的决策，所以需要人工进行审查。

这个过程也可以反向工作：不是用自然语言输入来产生数据，而是用数据来产生语言。 Arria是一家总部位于伦敦的公司，它制造的软件可以将电子表格中的数据自动转换为书面描述，并且提供趋势报告。该公司首席战略官马特?格劳德（Matt Gould）认为，首席财务官员可以用它来给董事会撰写常规性的分析报告，把时间节约下来做更具创意的事情。

牛津大学经济学家卡尔?贝尼迪克特?弗雷（Carl Benedikt Frey）研究了人工智能可能对劳动力市场的影响，他得出结论说，受冲击最小的工作是那些在复杂的社交互动中对创造力和技能要求更高的工作。但不是每个人都有这些特质。呼叫中心需要的人数会减少，因为更多的日常工作将由自动化系统来完成，不过那些棘手的查询工作仍然会由人类来处理。

以前也出现过类似的事情。谷歌搜索最初诞生的时候，几秒钟就会返回搜索结果。如果人工进行搜索，可能需要几个小时、几天或几年的时间。谷歌搜索帮了研究员、图书馆员或记者的大忙。这样的创新并没有摧毁这些工作岗位，只是改变了它们。

机器可以帮人们做一些苦差事，让大家有时间和精力去做更有趣的事情，不仅如此，它们甚至可以创造一些额外的工作机会。但是，对于不能适应这种变化的人来说，这也是非常痛苦的过渡。社会变革（妇女解放，劳动力市场的全球化等）带来了动荡，一些人因此陷入了困境。当催生这些变化时的是机器时，而且当这些机器看起来越来越像人类的时候，事情也会变得越发艰难。人们对待没有生命的东西已经很拟人化了：你肯定看到过一些人对着电脑大喊大叫。机器说得越多，它们就越是给人一种善解人意的感觉，用户就越容易将把它们当作人来看待。

这提出了一个深层次问题：语言被广泛视为人类最独特的特征之一，人工智能研究人员坚持说智能机器的思维方式和人不一样，但如果它们能像人一样倾听和谈话，那么它们算是什么呢？当人类教会机器使用语言的时候，人和机器之间曾经明显的界限就会变得模糊。

阅读原文，更多热门；扫码识别，关注“机器人网”