专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

【新智元百人会】七高手纵论人机交互与终端智慧化现状与痛点

新智元 · 公众号 · AI · 2017-07-24 13:32

正文

【新智元招聘】 AI 盛夏，星舰启航。 《新一代人工智能发展规划》发布之际，新智元也正式入驻融科资讯中心 B 座，整装待发。天时地利，星辰大海，我们召唤你——新船员的加入！ COO、总编、主笔、内容运营、客户总监、客户经理、视觉总监（兼职） 7 大职位招聘全新启动 。点击文末 阅读原文

查看详情。

简历投递：[email protected] HR 微信：Dr-wly

1 新智元整理

整理：张易舒畅

【新智元导读】 新一代人机交互技术在终端智慧化中扮演什么角色？语义交互技术、智能音箱技术挑战何在？近期中国能否推出一种在市场上能够形成主导地位的、或者至少被消费者所广泛接受的音箱？在新智元和安卓绿色联盟、中科院自动化所合办的 6 月百人会闭门论坛上，多位学术和产业界专家的深刻讲解和思维碰撞，也许能为你带来一定启示。

智能终端与哪些技术息息相关？新一代的人机交互技术在其中扮演什么角色？语音交互技术的挑战何在？人工智能下一阶段的发展趋势如何？智能家居中控应该给用户提供什么价值？把语音识别、麦克风阵列等各家的技术串在一起，就能做出理想的智能音箱了吗？近期中国能否推出一种在市场上能够形成主导地位的、或者至少被消费者所广泛接受的音箱？

为了尝试解答这些问题，新智元在和 安卓绿色联盟 、 中科院自动化 所合办的 6 月百人会闭门论坛上，邀请了多位学术和产业界专家，从技术、应用、难点、价值、商业模式、前景展望等多方面就人机交互与终端智慧化议题展开探讨，力求使与会者对新一代人机交互的发展脉络和趋势有一个全方位的把握，并获得一定启发。

参与讨论的专家包括（ 按专家发言顺序排序，下文同 ）：

张宝峰，华为 CBG 软件工程部 VP，终端智慧工程部部长

陶建华，中科院自动化所模式识别国家重点实验室副主任

赵峰，海尔家电产业集团副总裁兼 CTO

孙富春，清华大学智能技术与系统国家重点实验室副主任

黄伟，云知声联合创始人兼 CEO

丁衣，物灵联合创始人

程骉，微软亚太研发集团创新孵化总监

百人会由新智元创始人杨静女士担任主持人。

杨静女士曾任法国阳狮集团实力传播 (Zenith Media)媒体购买及咨询副总监（2002-2010）、中国经济网经营顾问（2010-2014）。2014年策划主持了“奇点临近”、“算法帝国”、“大数据时代的社会人与机器人”等系列人工智能、大数据主题研讨会。2015年3月与机械工业出版社联合主办“新智能时代论坛”，受邀担任2015年5月中国科协年会智能社会科技专家论坛、2015年机器人世界杯产业峰会、世界机器人大会“人工智能开启机器人新纪元”分论坛主持人。2015年9月创办新智元，2016年3月出版专著《新智元机器+人类=超智能时代》，2016年10月联合主办世界人工智能大会，并出版《中国人工智能产业发展报告》。

在杨静女士致欢迎辞后，华为 CBG 软件工程部三方测试部部长、安卓绿色联盟代表赵虹也致了热情洋溢的欢迎辞。

张宝峰：AI 吓尿指数与终端智慧化未来的三大痛点

张宝峰，华为 CBG 软件工程部 VP，终端智慧工程部部长，负责终端AI软件的开发和交付。曾担任华为诺亚方舟实验室副主任，负责数据科学领域的中长期技术研究工作，研究方向为数据挖掘、机器学习和人工智能。中国核高基专家组成员和中国 CCF 大数据专家委员会成员。

张宝峰 1998 年加入华为，在信息科技领域有超18年的工作经验，有丰富的国际/国家标准组织活动经验，曾任国际电信联盟13研究组固定移动融合课题的报告人，中国通信标准化协会网络与交换技术工作委员会副组长。

在 6 月百人会上，张宝峰详解了终端智慧化未来的三大需求——理解用户，主动服务，终生学习，以及三大痛点——端侧智能，产品线实测，深度学习。他说：“对于手机终端智慧化的未来，我谈谈我的认知和理解，大家可以看看，哪些东西是对的，哪些是错的。”也许，他的认知和理解，正是理解终端智慧化产业方向的一把钥匙。这篇讲话 + PPT 分享，可以点击《 AI 吓尿指数与终端智慧化未来的三大痛点》查看。

陶建华：语音交互技术会是移动终端很重要的接入手段之一

陶建华，博士，研究员，博士生导师。国家杰出青年基金获得者。现任中科院自动化所模式识别国家重点实验室副主任。1993年和1996年分别获得南京大学电子系学士和硕士学位，2001年获清华大学计算机系博士学位。他目前还担任IEEE Trans. on Affective Computing Steering Committee Member、ISCA SIG-CSLP副主席、HUMAINE学会执行理事、中国计算机学会常务理事、中国人工智能学会理事、中国中文信息学会理事、中国声学学会理事、中重中文信息学会语言资源建设与管理工作委员会秘书长等职务。先后负责和参与国家级项目（863重点、国家自然科学基金、发改委、科技部国际合作）20余项，多次担任国家自然科学基金和863等国家项目会评专家。在SCI或EI期刊或会议上发表论文150余篇，申请国内发明专利15项，国际专利1项，编著学术著作2部。研究成果多次在国内外重要学术会议上获奖，两次获得北京市科技进步二等奖。在国内外著名的学术会议上担任程序委员会委员或主席，包括ICPR，ACII，ICMI，IUS，ISCSLP，NCMMSC等等。他目前还担任Journal on Multimodal User Interface 和International Journal on Synthetic Emotions编委。

人工智能 2.0 五大核心技术

在人工智能这个大概念下，还有很多方向可以探索。

简单回顾一下人工智能的发展历史，人工智能技术历史有过几次高潮，也有过几次低谷。2010 年以后，人工智能技术跟深度神经网络结合，确实给我们带来很大的机遇。尤其是近几年，业内提的人工智能 2.0 包含什么样的内涵？人工智能 2.0 是基于重大变化的信息新环境和发展新目标的新一代人工智能，包括新环境、新目标、可升级的新技术，研究对象也发生了很多变化。这里面最重要的一点， 大数据智能、跨媒体智能、自主智能、人机混合增强智能、群体智能，是未来发展很重要的工作，这些构成了人工智能 2.0 五大核心技术。 ”

注意力机制、记忆能力、迁移学习、强化学习、半监督无监督学习是未来人工智能技术发展的主要关注方向 。现在我们主要看到的都是深度神经网络方法。我们认为在人工智能技术未来的发展过程当中，很多新型的学习方法依然会得到很多关注， 比如通用人工智能技术，现在过去想都不敢想，现在可以初步进行一些探索。 在有限的短时间内解决这个问题是很难的，但是可以进行初步的探索。

把问题展开来看，针对 大数据的智能 ，是目前大家普遍比较关注的。尤其是在国家的战略布局当中，把云计算和大数据都作为一个独立的方向来进行布局。这个相关工作很容易理解，尤其支撑着像智慧交通、智慧城市一系列的应用。

跨媒体智能 是人工智能技术方面新的研究内容。现在互联网多媒体的数据越来越多。终端和云端之间，很难说具体的界限在哪里，越来越做更深层次的融合。文本、图象、语音、视频交互属性将紧密混合在一起，构成跨媒体的特性。 如何用语义相通的内容，把这个人不同的跨媒体信息更紧密地融合，这个是未来人工智能当中需要着重解决的跨媒体智能的问题。 这在互联网应用，以及很多安全领域当中，都有很多的应用。

还有 人机混合增强智能 。未来人机之间的界限慢慢开始出现模糊。 人机混合增强智能，一方可以增强人的本身能力，另一方面可以让人和机器之间通过紧密配合实现更为高级的智能体。

群体智能 方面，多种不同的智能体混合在一起，构建更高层面的群体智能，这方面将会成为新的关注点。

自主智能 系统涉及到智能技术，有很多的工作需要去做。

从三大层面看人工智能 2.0 大体的发展脉络

人工智能技术在人工智能 2.0 中大体的发展脉络，我们分成三个大的层面来看， 一个是基础支撑层面，第二是关键技术层面，第三是应用场景层面。

在 基础知识层面 ，包括构建的一切跟人工智能技术相关的智能传感器、芯片，包括人工智能方面，无论是深度学习的加速芯片，还是感知芯片——感知芯片是把常见的感知算法固化到芯片里面去，还有数据的资源以及软件支撑的平台软件系统构成的基础支撑体系。

关键技术 包括机器学习，机器学习里面包括深度学习，我们现在认为深度学习已经是传统的方法了。同时这里面还包括了强化学习、对抗学习等等一切工作，还包括其它像视觉、语音、图像、人机交互、大数据、云计算等等关键技术的支撑。

在 应用领域 ，可以看到，人工智能不断向不同的领域进行渗透，它的应用包括机器人、智能驾驶、无人机还有一系列可穿戴式设备的智能终端，最近普遍比较关注的是智慧医疗、智慧安防、智能金融、智能工业等等，人工智能技术有可能会产生一些比较大的或者突破性的应用点。

智能终端相关技术——增强现实技术、三维声场技术、语音交互技术

智能终端体现的形式非常多样性，过去几年时间，我们除了常见的、随身携带的手机、PAD 之外，还有头盔或者智能眼镜。智能终端过去一段时间里面国内外出货量非常之大，市场非常大。从整个智能终端看，这几年随着智能技术的发展，已经呈现出爆发性的发展趋势。新型的穿戴式智能终端正在快速发展，并且改变人们的生活。

增强现实技术

在智能终端里面，有一些蛮有意思的应用，比如增强现实技术。目前我们认为，它在智能终端里面，可能会成为重要应用之一。这个目的是什么？我通过不同的穿戴式智能终端或者手机的智能终端，通过摄像头的方式或者通过语音的方式，采集到周围场景，叠加相应的信息。相应的信息构成对周围场景不同的解释，更有甚者可能利用这样的场景图片信息进行定位。大家觉得定位需要图片信息吗？通过 GPS 就可以了。其实可以在室内或者 GPS 不能覆盖的地方，同样可以通过图片的方式进行定位。增强现实技术未来在终端里面有很大的发展空间。

三维声场生成技术

还有一个有意思的针对移动终端的工作，叫做三维声场生成技术。我们过去用终端，经常有很多人骑自行车或走路时塞个耳机，听的音乐都是立体声，但是实际上说的立体声并不是真正意义上的立体声，只是左耳和右耳通过音量大小的控制来协调音效的表达，我们也把这种叫做立体声，实际上它只是解决了一个平面声场的问题。有没有可能在听音乐或者看影视节目的时候能够产生真正的三维声场，而且用一副耳机而不是环绕立体声系统。环绕立体声系统是在一个环境里面布置了很多扬声器，能够产生这样的效果，我就用一副耳机能否实现这样的效果？这个也是蛮有意思的工作，这个工作我们已经做了相当不错的 demo，可以把音乐、人声根据人的360度范围、包括上下左右前后都有比较好的区分，听者感觉起来，是前面就在前面，是后面就在后面，跟普通的立体声感觉很不一样。

语音交互技术

过去我们一直都说，语音交互技术会是移动终端很重要的接入手段之一，我们现在主流的交互手段无外乎几种方式，触摸、键盘输入、手写、语音。语音交互这几年发生了很多技术上的变化，语音技术无论从它的识别率还是周围环境声场对降噪的性能上，都达到非常好的能力，语音技术的接入越来越市场化。过去大家做语音降噪的时候，比较好的做法是，手机当中经常用多麦克风系统，能够达到比较有效的硬件降噪。现在用深度学习的方法，完全可以用单麦克风就可以做到比较好的声音降噪，人工智能技术的发展解决了过去很多的问题，使得语音交互的技术变得越来越鲁棒。

即便如此，我们还是有很多的工作没有进一步去完成，今天提出来供大家思考。最典型的是三维声场问题，三维声场模拟人的耳朵，人的耳朵都是有耳廓的，耳廓绝对不是摆设，正是因为耳廓的存在才知道这个声音是从前面来还是从后面来。三维声场通过耳机构建了耳廓的模型，因人而异，每个人不一样，个性化没有得到很好的解决。

另外，在语音交互方面，刚才已经提到了，语音识别合成技术使得语音交互性能获得很大的提高，仔细来看，这里面还是有很多工作。说话人的声音不能太自由，现在已经比过去稍微强了一点。虽然目前的语音识别系统能做到不错的程度，但是被识别的声音不能过于口语化；第二，个性化处理依然不够强。多语言混合的语音识别也是一个很重要的难点。

从移动终端和人工智能技术相结合角度的侧面来看，人工智能和移动终端实际包含的方面比较多。在这里面，我们做了一定的初步探索，新的工作完全结合了深度学习以及大语料库相结合的技术，才能把人机交互过程当中，人的更深层次的参数信息表征出来或者生成出来，这里面还有很多工作需要进一步去努力。

时间原因，不一一展开，今天的报告就到这里。移动终端所做的工作，无论是增强现实、个性化三维声场、情感语音交互，还是精确三维视觉交互融合在一起，都是未来移动终端发展蛮有意思的应用场景，不能说移动终端都必须具备这样一些技术，但这的确是蛮有意思的应用场景。这里面包括很多的工作，比如数据接口方面的工作。移动的终端，利用刚才所提到的语音交互、视觉交互，可以在智能家居和移动办公场景方面产生很多用途。

孙富春：人工智能是不是改变世界的“第三个苹果”？

孙富春，清华大学计算机科学与技术系教授，博士生导师，清华大学校学术委员会委员，计算机科学与技术系学术委员会主任，智能技术与系统国家重点实验室常务副主任。兼任担任国家863计划专家组成员，国家自然基金委重大研究计划“视听觉信息的认知计算”指导专家组成员，中国人工智能学会认知系统与信息处理专业委员会主任，中国自动化学会认知计算与系统专业委员会主任，国际刊物《IEEE Trans. on Fuzzy Systems》，《IEEE Trans. on Systems, Man and Cybernetics: Systems》《Mechatronics》和《International Journal of Control, Automation, and Systems (IJCAS)》副主编或领域主编，国际刊物《Robotics and Autonumous Systems》和《International Journal of Computational Intelligence Systems》编委，国内刊物《中国科学：F辑》和《自动化学报》编委。

人工智能是不是改变世界的“第三个苹果”？

尊敬的各位嘉宾，大家好！很感谢新智元给我这个交流机会，今天的题目是认知时代的人工智能和机器人。大家将 2015 年定义成机器人的元年，后来我们又看到，有人说人工智能的元年是 2016 年，这里面 IBM 公司提出 2016 年是认知时代的开始。

未来五年里面，影响人类社会最显著的五个技术是什么？ 2016 年是 视觉、触觉、嗅觉、味觉和听觉 。我们清华从六年前开始做视觉处理和听觉方面的工作了。前几天华为提出触感时代。触感是非常重要的，尤其在机器人的操作过程里。

网上购物时，物品的照片总有一个角度看是最好的。东西拿到手，发现它质地等各方面并不是太好，这就需要触觉帮助。我们需要视觉来说话，更多是语义的理解。前面讲到的可解释，视觉是最重要的部分，人就是视觉的大脑。另外，还有听觉和味觉。母亲如何在小孩的声音中听出小孩的诉求？不到1 岁的小孩还不会讲话，他语言表达的意思是如何被母亲理解的？另外还有嗅觉，能够闻出疾病等等方面。

过去人和家用电器也好，和物品之间是一个单向关系，好用不好用我自己试，加了智能化以后，形成智能机器，本身就具有认知能力，可以跟你交互，不光人理解机器，机器也要理解人。

昨天在天津电视台采访龚克校长，我点评了一下，说 认知时代的教育是双向的，过去都是单向的 ，教育部制定大纲，如何学生考试不合格就不能毕业。智能化时代，大纲定的怎么样，几十万乃至几百万的学生学的情况的大数据分析可以评判出这个大纲定的对不对、好不好？认知时代的很多东西开始具有了智能，现在可以触手可及，过去到餐厅吃饭停不了车，那你得在车里等着，现在不用了，车就放在那儿，车载电子系统可以自动检测到哪里有车位，泊车自动过去。美女看到别人提的非常漂亮的包，可以打开网上搜索查找，这个包是哪儿的，质量怎么样。特别重要的一点，我去年在澳大利亚国立大学访学，他们在盲人身上做了第一个人造视网膜实验，盲人通过人造视网膜技术看到了物体的黑影。还有安防领域，每一个人从离开家到单位，进入北京地区的一类和二类摄像机，基本都会记录在案，北京已经做到了车牌识别，你的车开到什么地方天网系统应该都能检测到的。前几年，我们承担了日本一家公司的多摄像机跟踪课题，研制的系统可以跟踪公司的员工，甚至把他们一年当中在大楼里的运动轨迹记录下来，作为评判他的工作表现的一个指标。

为了战争很重要的是一个特点就是平台具有认知能力。如美国的蜂群无人机，他们使用的是非常小型化无人机，小型无人机的集结需要很强的通信和识别技术。

美国做的下一代新概念作战武器，有非常强的认知能力。 美国人工智能主要是大公司在推动。其实“智能”这个词是中国最早提出来的，荀子讲“能有所合、谓之能，”认知能力是人固有的；“知有所合，谓之智”通过社会实践，产生智慧，创新也是人固有的本能，人有所合，在社会实践中产生才华，用认知能力去改造变革社会，这就是智能。

人工智能的思想基础很重要。怎么判别机器有智能，我不多说了。第二个重要的是物质基础，一个是计算机，一个是网络。最近 5G 的推出也为人工智能下一步的发展奠定非常重要的基础，人的记忆，特别是基于经验的云端学习没有网络是不行的，包括美国的无人机之间的高速通信技术。如果按照一千美元的计算能力来讲，那么2040 年计算机超过人类。如果按照生物产品，每个记忆单元里面所提供的浮点运算能力来讲，机器很快就会超过人类。

人工智能是不是改变世界的“第三个苹果”？ 亚当和夏娃是改变世界的第一个苹果，砸在牛顿头上的苹果是改变世界的第二个苹果，图灵桌子上的苹果是改变社会的第三个苹果。未来时代显著的特点是人和机器共存，机器有智能，有认知能力，可以跟你交互，只有到这个时代，第三个苹果的时代，人和机器的关系才是双向的，过去都是单向的。

人工智能下一阶段的发展是是神经机制驱动的脑认知

人工智能下一阶段的发展是是神经机制驱动的脑认知。人是视觉大脑，从眼睛感知到最后 V1 区，直到 V4 区。

现在深度学习都是一层一层的，层与层之间没有 反向连接 ， 视皮层里面，同层之间有反向连接，利用这个机理改造深度学习网络就会出现大家意想不到的东西 。我们实验室的相关工作在四个数据集上做出比较好的结果。

强化学习 。谷歌收购了 DeepMind，后来做了 AlphaGo，用的是深度学习和强化学习的原理估值采用的单次评判和估值网络的综合评分。

另外，脑科学研究离不开仪器，美国哈佛大学使用的电子显微镜能做30纳米的切片成像，老鼠在做游戏的时候，通过扫描可以把切片做出来，看到神经元的放电，识别它的编码。这些仪器对脑科学乃至未来人工智能发展很重要。

最近这两天 超限学习 比较热。我做博士论文的时候，普遍认为神经网络是多层的，神经元的隐层参数是要学的。2013 年和 2015 年解剖学发现，这些隐层参数是人和动物与生俱来的，不用学。后来黄广斌教授等人在这个基础上，通过随机产生的办法设置隐层参数，提出了超限学习机方法，就是超限学习。这两年这个工作在和多核学习、深度学习结合。

机器人的发展。过去机器人更多的是研究机器人的骨骼，现在的机器人不光要研究骨骼，还要有传感，肌肉驱动，以及有像人一样的大脑，这样的机器人称为认知机器人，不光需要研究它的运动学、动力学的关系，还要研究感知信息怎么传感的，多模态信息如何表征与融合，如何让肌肉运动产生各种复杂的操作。

人和机器的结合，类生命体机器人是很重要的概念，在细胞分子层面来研究类生命体材料，将来可能是癌症的克星，将来可能在血管里面攻克癌症。

2016 年 4 月份，机器人伴侣推出，引发了很多问题。

我们课题组也在做 脑控机器人 ，通过脑控制的机器人可以在场外运动。

这是我们做的第三代皮肤状态机器手。在今年的新加坡国际机器人与自动化大会上做了大会特邀报告，我们现在对人工皮肤的理解不是做一块皮贴到受伤。而是像人手的手指一样有表皮，还有真皮。表皮是电子式的，可以测量纹理、滑觉，真皮测量正压力。在视触觉编码，包括他们的融合方面，也做了很多工作。

机器人发展依赖人工智能的发展，人工智能离不开生命科学和脑科学的发展，这三个之间已经形成了一个闭环。

机器人恰恰是展示人工智能的载体，堪称是黄金搭档。情感和思考的能力，下一代机器人上都会有所体现，而推动它的就是人工智能。过去有一个机器三原则，人工智能发展到今天的时候，已经产生了某种恐惧，去年美国一百多名科学家在一起讨论人工智能未来发展，其中有一条很重要，人工智能将来是不是会伤害人类？人工智能必须有一个目标函数，要同人类社会的发展一起进化。

IBM 公司提出了人工智能三原则：第一，和人工智能系统建立互信关系，它要信任人；第二，透明度，了解人工智能系统由什么组成，究竟用什么样的参数学习；第三，人工智能平台与行业内人员合作。这是未来很重要的方面。

人工智能发展过程里，最可怕的是机器人产生自我意识，对意识的理解现在有各种各样的观点如记忆、量子纠缠和感知包。

人工智能应该是机器人的灵魂，机器人是机器+人，人用什么体现？人工智能。随着人工智能的发展，机器也在不断发展。人和机器人是两个系统，人是生命系统，机器人叫人工系统，人工系统和生命系统在发展过程里面总是在互相借鉴。人工系统是一个重要的实验平台。两个系统不断发展，互相借鉴，总有一天会交互，交会的地方也许机器产生以我意识的时候。

【新智元百人会】七高手纵论人机交互与终端智慧化现状与痛点

正文

请到「今天看啥」查看全文