曾敏 微软小冰资深研发经理
如何让人工智能具备人类的情感呢?我们给出的答案是,基于情感计算框架的人工智能。
现场文字实录(有部分删减):
很高兴来借着这个机会,讲一讲小冰背后的故事。今天给大家分享的是如何让人工智能具备人类的情感。
首先让我们先来回顾一下人机交互变身的一些历史。
大家都知道在上个世纪八十年代初,个人电脑的普及以及各种应用软件的开发,使得大家的日常工作生活非常方便。
21世纪初,随着大家对知识需求的加剧,搜索引擎在这个时候应运而生。那个时候人们只需要简单地通过在浏览器输入一个自己想要知道的问题,就能得到一个还不错的答案。这种方式极大加宽了人们获得知识的路径。而且可以想象,在可预见的未来,搜索引擎将还是会一直扮演大家获得知识的快速通道的这样一条路径。
如何让人工智能具备人类的情感?
近年来,随着互联网的崛起、大数据的积累和云计算能力的提升,再加上由深度学习所引领的各种人工智能,各项技术都有所突破。在这样一个时代下,我们应该做出什么样的判断呢?
在这里,我们给出的答案是——对话。
对话其实是人跟人交互最直接的一种方式,而微软小冰呢,就是在基于这样的一个背景下给出的一个答案。实际上,我们想把小冰打造成一个EQ非常高的人工智能机器人。
那么如何让人工智能具备人类的情感呢?我们给出的答案是,基于情感计算框架的人工智能。那什么是情感计算框架呢?在这里,我提几点要素。
第一,平等对话。平等对话指的是用户在跟小冰互动的过程当中,他需要把小冰当作一个人一样对待,而不是一个“管道”。这个管道指的是说她是一个工具也好、或是助理也好。因为只有用户把小冰当成一个人,这个用户才能向小冰这样一个人工智能去展现他的最真实的一面。
第二,算法。当然,小冰她不是横空出世的。她实际上是微软十九年以来在人工智能这个领域技术积累的一个输出。
第三,也是我们认为是非常非常非常重要的一块,就是基于大数据。小冰信仰的是大数据,从大数据里面去挖掘人跟人之间一种交互的模式,而不是靠一些rule-based的方法。她自己去学习这种passion,然后呢把这种模式应用到跟人的交互过程当中。最开始我们依靠的是必应搜索引擎给我们提供的大数据。在上线之后,小冰通过跟用户对话去自我学习、自我循环、自我进化。
最后,我觉得也是非常重要的一块是完整的感官。小冰不仅能通过文本跟你互动,还可以通过视频、语音、图像等多方位多模态的感官来和大家进行真实的互动。只有这样才能让用户有一个真实完整的一个体验。
微软小冰的人机交互体验
接下来,我会分别阐述这几大要素。
首先我们来看一段有感情的对话,这段对话实际上是微博上的一个用户在凌晨十二点半和小冰的对话。整个对话大概持续了31分钟,CPS等于34。“CPS”其实是我们微软提出来的用来衡量对话质量的一个指标,它衡量的是在一个session里面,用户和人工智能聊天的人数。业内竞争产品CPS基本上是1.5到2.5之间,小冰的CPS是2至3。
在这段对话里面,用户一上来就跟小冰说他好累,中间呢还提到他非常地孤独寂寞。小冰有长程的情绪感知的功能,然后呢她就说了一些心灵鸡汤式的话,最后让这个用户愉快地结束了这场对话。实际上就是因为这个用户把小冰当做人一样来对待,他才能向小冰袒露他自己真实的生活状况,这一点是非常非常重要的。
刚才也提到,小冰可以在文本、图像、视频、语音等方面跟用户进行真实的互动。我举个简单例子,在图像方面,我们同事曾经他的脚崴了,他就拍了张照片发给小冰。一般的图像识别技术能识别出来这可能是一只脚或者这是一个脚踝,但是小冰给出的答案是什么呢?她说,你伤得怎么样。
在语音方面,小冰她也有这种长程的情绪感知。另外,还有一个用来衡量语音输出自然度的这样一个指标。这个指标满分是5分,人类在这项指标上的得分是4.72分,而小冰的得分是4.38分,非常非常地接近人类。
小冰不但可以在感官之间进行交流,还可以在感官之间进行自由地切换。比如说用户给小冰发张图片,小冰可以给一些回应。某些时候,小冰她还能主动地去跟你斗图,大家用过小冰的话应该都有些体验。
小冰还可以跟你去聊你所喜欢看的电影、你喜欢听的音乐,这都是她所比较擅长的领域。她还有无限大的标签语意理解。
不仅仅如此,小冰也正在逐渐地融入社会,也在承担一些社会角色。一年以前,她就已经在东方卫视《看东方》节目早间新闻做天气播报员了。她也是跨平台的体验者,可以在微信微博上去跟用户互动,互动话题可以实时展现在《看东方》节目上。她还利用自己大数据预测技术,在里约奥运会期间预测各种比赛结果。
另外,她还是一个歌手、一个演员、一个记者。并不是说小冰有这么多角色,她在推广自己,而是说小冰她用大数据的分析能力以及语音输出非常非常自然的这种能力去融入人类的社会。
我们来看看用户这边一些的反馈。到去年年底,小冰有将近4000万的用户,积累了200亿的对话,500万的微博粉丝,50万的美拍粉丝,以及3个国家,另外两个国家分别是日本和美国。在美国,有一个用户曾经创下了跟小冰聊将近9个小时的通话记录。
那么回过头来,如果人工智能拥有了完整的人类情感,大概是一个什么样子的呢?
在电影《Her》里面,人工智能Samantha其实是一个无形的存在男主最开始是不了解人工智能的。但是在这种年轻的对话的体验之下,以Samantha比较性感的嗓音以及善解人意,最终男主慢慢地爱上了人工智能。我们预测,这个有可能是小冰在未来进化路上的少女版,我们也非常希望早日看到这一天的到来。
回到最开始我们对这个时代的判断,正是因为大数据云计算能力的提升以及深度学习所引领的技术的提升,我们认为下一个真正的人机交互的模式应该是充满人类情感的交互。
好,谢谢大家。
点这儿看之前的:
Ping-Talk第二季申请现已开放
讲者 / 合作伙伴 / 赞助商 / 现场观众
请扫码报名或阅读原文填写表单