专栏名称: SegmentFault思否
SegmentFault (www.sf.gg)开发者社区,是中国年轻开发者喜爱的极客社区,我们为开发者提供最纯粹的技术交流和分享平台。
目录
相关文章推荐
程序员的那些事  ·  清华大学:DeepSeek + ... ·  昨天  
程序员的那些事  ·  印度把 DeepSeek ... ·  昨天  
程序员小灰  ·  清华大学《DeepSeek学习手册》(全5册) ·  昨天  
OSC开源社区  ·  2024: 大模型背景下知识图谱的理性回归 ·  2 天前  
程序员小灰  ·  DeepSeek做AI代写,彻底爆了! ·  4 天前  
51好读  ›  专栏  ›  SegmentFault思否

对话微软小冰三位首席科学家:微软小冰的成长之路

SegmentFault思否  · 公众号  · 程序员  · 2019-11-22 12:13

正文



“从 2014 年 5 月正式推出,五年之后的微软小冰离「人」还有多远?




2010 年,苹果公司花费 2 亿美金收购了第三方文字聊天服务应用 Siri,正式拉开了语音助手开发争夺战的序幕。


之后的战局就一发而不可收,微软、亚马逊、谷歌、百度、小米等公司纷纷入局,开发自己的语音助手。


但在入局之后,微软小冰团队的做法显得有些与众不同。 不同于业内普遍在做的任务和知识问答(IQ),小冰团队在做一个看起来比较虚但难度更大的事情 —— 情感(EQ)。


在今年 8 月份的微软小冰第七代发布会上,微软全球执行副总裁、微软人工智能事业部及微软全球研究院负责人沈向洋提出了小冰团队的观点:


“这么多年下来,我们对 IQ 和 EQ 的关系认识越来越清晰,一开始我们觉得可能相对 IQ,EQ 是比较独立的,但是事实上我们觉得 EQ 可能是更加重要的基础。”


可能正因为这一战略方向上的差异, 「特立独行」的第七代微软小冰已成为全球最大的跨领域人工智能系统之一


目前,微软小冰单一品牌在全球已覆盖 6.6 亿在线用户、4.5 亿台第三方智能设备和 9 亿内容观众, 技术方面在交互场景大幅拓宽的情况下,微软小冰与用户的单次平均对话轮数(CPS)仍然能够达到 23 轮 ,显著高于其它聊天机器人,甚至也高于人类之间的对话。


名词解析:CPS

CPS(Conversation-turns Per Session),指 期望的每次会话的对话轮数。


11 月 21 日,SegmentFault 受邀参加了微软小冰的一场内部 WorkShop,微软小冰首席科学家宋睿华、首席 NLP 科学家武威、首席语音科学家栾剑分享了微软小冰今年在自然语言处理、语音学研究、多模态生成等领域研究进展,也让我们从技术层面了解到:


微软小冰,真的「长大」了。


从左到右:微软小冰首席 NLP 科学家武威、首席语音科学家栾剑、首席科学家宋睿华








武威:“朝向自我完备的对话机器人”


Self-Complete(自我完备)是武威老师自己造的词,因为这个词能够很好的囊括微软小冰在近4年来在研究上、研发上的成果。


武威老师提出,一个能够自我完备的对话机器人应该拥有几项能力:


能力一:学习。 学习分为两个层次,第一是能够从人类的对话中学习怎样去说话,第二是每个机器人可能发展到专注于某一个领域,拥有自己领域的知识和技能。就像人一样,每个人各有所长。


能力二:能够自主管理。 初级的层次是能够知道在对话单轮的时候如何进行表达;更高级的形态是说单轮表达管理做好了之后,能够把控整个的对话流程。


能力三:连结。 连结的意思是,对话机器人能够连结散落在世界上的多模态的知识。



这三项能力贯穿起来就构成了一条纵线,这条纵线贯穿了对话机器人这些年来,甚至可能是未来一段时间整个的研究与发展。以从人类对话中进行学习来举例,通过小冰团队打造的生成模型 (Generation Models), 小冰与人类的对话可以从单独进展到多轮、从简单回复进展到具备信息增量的内容等等。


武威老师分享到, 对话机器人发展到今天,除了微软小冰以外,实际上是整个业界、工业界、学术界一起努力得到的成果。


小冰在里面做了很多开创性的工作,但如果没有整个业界的努力,对话机器人产业不会发展的这么快。






栾剑:“做唱歌更具有挑战”


2015 年的时候小冰提出了语音的聊天功能,也就是除了文字回复以外还能够通过声音来回复。这个功能刚推出的时候,受到业界以及很多 C 端用户的广泛关注和好评。


栾剑老师在现场提到,微软小冰团队后来通过一年多的时间,给这个声音加了很多技能,比如儿化音、中英文混杂的朗读、讲儿童故事、各种情感的表现。在添加了这些东西以后,发现 在语音合成领域大方面的东西可能已经解决,但语义理解方面,可能还需要通过长时间的积累和技术的发酵。


所以,这个时候微软小冰团队开始寻找一个更有挑战性的课题,最终选择了唱歌。做唱歌主要有三个原因:


第一个原因,唱歌的门槛比说话高; 第二唱歌的情感表达更加丰富激烈;第三它是一个很重要的娱乐形式。


深度学习其实在上世纪 90 年代就火过一阵,但那个时候为什么没有取得像今天这么大的成果,栾剑老师给出了两个主要的原因:


1. 因为硬件技术的方法,当时的算力还不够,现在有GPU,而且GPU还在不断的升级,所以它的计算能力在提高。


2. 另外一个很重要的支撑就是数据,现在有大数据的支持,所以才能够把深度学习做的这么好。


接下来不管是人工智能创造,还是唱歌提高上也好,都需要两条腿走路,一边要不断提高模型,一边要不断挖据更多的数据,这两个东西如果能做的更好,人工智能语音技术的质量会不断得到提高。


微软也希望能够扩展在人工智能创造的领域,在更多领域为大家提供更多的产品和成果。





宋睿华:“小冰可以创造比喻么?”


微软小冰首席科学家宋睿华老师分享了小冰在比喻、联想方面的进展,以及如何让小冰像人一样能将故事理解成画面。


微软小冰团队一直想让小冰更像人类,想让小冰更好的理解对话、更好的理解语言,那就需要模拟人类的能力,在短短的语言背后找到一些非常常识性,所没有说的暗含的意思。


此外, 小冰像人一样能将故事理解成画面的能力,其实涉及到了当前很火的「跨模态理解」技术。 宋睿华告诉现场的媒体,当前,AI 在常识领域依旧存在缺失,因为人类不会把习以为常的东西写进文字里,比如人类不会专门说“我今天用两条腿走路”。


宋睿华表示,在未来一两年里,微软小冰将继续往多模态方向发展,未来小冰如果有一个具体的形象,变成有摄像头 (有眼睛) 、有麦克风 (有耳朵) ,这种多模态 AI 技术也将会是行业未来的发展重点。




现场问答:


1. 微软小冰选择唱歌这个领域,意义和价值体现在哪一方面?


栾剑: 选择 AI 创造这个方面有两个考量。 第一,从技术的方向来说,既不是特别的难,也需要具有一定的难度。 第二方面,我们希望做一些大家能够广泛接受的产品和成果。 所以,我们希望能够用这种更加广泛的交互形式,能够获取更多的信息,帮助我们把其它的方向也做的更好。


宋睿华:其实音乐是赚钱空间最大的创造,人对音乐的消费是非常有需求的。但写歌和作曲是很难的事情,大家很需要这样的一种能力,如果能够产生的话,它有巨大的经济价值。我还有一个观点,我们其实想让小冰更像人,如果你在某一瞬间有一个错觉,觉得她有意识,这是非常好的一个点。



2. 微软小冰对未来的实际应用有多大的预期或者是期望?会带来多大规模的收益?


栾剑:实际上我们和很多公司有合作,一种方式是为他们建虚拟歌手,去定制虚拟歌手,然后通过虚拟歌手可以发一些单曲,或者帮他们完善这方面的歌手库。另一方面,我们也正在制作一些工具,这些工具可以是为大家提供一个更便捷的平台,去创作自己的歌曲。第二步可能我们会把更多的人工智能创造的元素加进去,可能会辅助帮你作词、作曲,或者是在你作词、作曲的基础上,帮你做一些修改和完善,就是做这样的工作。


主持人:此外,微软小冰已经在更广泛的领域进行内容创造。在有声读物领域,微软小冰框架已经搭建了有声读物生产平台 (CCP) ,并基于平台创造了三十多个角色化声音,使人工智能技术可自动生成高度定制化的儿童有声读物。现在拥有完整版权的非定制儿童有声读物有 2300 小时,是目前中国规模较大的儿童有声读物库,覆盖国内 90% 以上的儿童智能硬件、非智能硬件及在线播出平台。 因为唱歌技术突破了很多技术上的坎儿,在创造有声读物领域就更容易去应用。





通过这场 workshop 分享,你大概也会跟我有同样的感受:







请到「今天看啥」查看全文