目前业界存在着几个很难回答的问题:
从产品表象看起来,目前的对话机器人都缺乏「常识」跟「自学能力」。所谓的常识,就是人类都能回答的一些东西,比如,明天我要不要带伞?这个问题的隐含常识是,用户是在问明天是不是要下雨。
但是这种常识是没有办法在现在整体框架下,非常优雅的把它纳入进来。在一些场景下我们可以把问题拆分成足够小的,尝试用规则的方式把「常识」纳入进来,但这是不足够「优雅」的。而且难以规则复用。如果每个开发者总是以这样的规则做产品的话,最终结果一定是一个巨大规则库,也就是会遗留下一个史前的代码库,最后这个代码库没有人敢去碰,所有人只能往里面加东西,没人敢删东西。最后这个东西就变成一个巨大的无用的东西,成为某些人的政治遗产,成为一个历史包袱。
这种惨痛的教训,只有经历过的人才懂。
但无论如何就目前看起来的表现而言,对话机器人缺乏这种常识的能力,缺乏这种自学的能力,也就是缺乏自我,有些事你跟对话机器人说了,但它没接触过,或者说它根本不知道你要说的是什么事情,你下次问所有的问题还是得从头开始。
我尝试从技术的角度来去解释它的原因,根本问题就在于计算机的世界里,我们在技术上缺乏「语言」和「知识」的好的表示方式。
什么是好的表达方式?
在计算机里,声音和图像的表达方式,跟我们人脑是类似的。计算机上的图像的像素位置,跟我们眼睛看物体的表现方式是一样的,像素代表着颜色,像素之间的位置代表它们之间的组成形状。此外计算机还有一系列比人脑更厉害的手段去处理图像,做各种滤波,做各种 CNN 等一系列技术手段去解决它。但是人类语言的表达方式跟计算机是不一样的。计算机是用字符来表示的,每个字符在计算机里是没有意义的。而字符在人脑里中是有意义的,一系列字符联系起来会形成语境。计算机里的字符表达方式是没办法去表达语义的。
这让我们都很痛苦,很多同事以及历史上的科学家都在尝试用各种方式去解决这个问题。比如说用 Embedding的方式,把语句映射到低维的向量空间,然后用电脑中的各种运算去表达一种语义。但这还不能说是最好的方式。
这意味着对话机器人从业者的挑战是,在没有非常好的解决语言和知识表示的这个前提下,我们怎么去做产品跟市场的适配。这意味着产品经理的一个重要工作,要去找在当前技术水平下,找到合适的对话机器人应用场景。
CUI :一种新的交互模式
说到 CUI 对话式交互和 GUI 图形式交互,首先明确一点,CUI 肯定不是去替代 GUI 的。两者互相之间不是替代关系,而是各有擅长的关系的。
从效率的角度来看,GUI 的一个界面上可以展示非常多的内容,所以更适合做广度展示。而 CUI 更适合做深度展示。对话本身就可以多轮次的。如果对话是理顺的,用户可以跟机器人进行 10、20 轮对话。但在 GUI 的情况下,完成一项任务需要点击十次二十次鼠标,需要十到二十个页面才能完成这项工作的话,你会觉得这个设计过于繁琐。顺着这个逻辑去预测两种交互方式的应用场景:如果是个浅的场景,需要广度的展示,那 GUI 是合适的;如果场景需要一个深度的、若干次的沟通,有可能 CUI 是更合适。
从用户体验上来讲,GUI 会更强调空间感,CUI 更强调时间感。展开来说就是,当用户在面对一个GUI界面的时候,用户更在意的是什么功能在什么位置,重要位置的功能会得到更多的感知,并且对某些固定的位置用户会有预期的,潜意识认定某个功能的 Button 应该放在什么位置。所以在做GUI设计的时候,设计空间感是最重要。
CUI 对话式交互并不是发生在一个空间的场景里的,它是发生在一个时间的场景里的。所以用户会对时间流失有感受,会对哪个内容在先,哪个内容在后上有感受。所以说在做 CUI 设计的时候,或者说你在寻找什么内容适合 CUI 场景的时候,需要找到那些对时间感非常敏感,或者说随着时间的流逝会发生变化的东西。
其次,从预期 (Anticipation) 的角度来看,人们对 GUI 的感受是公共的。我过去有八年时间,在 GUI 上做个性化推荐这件事,希望做到千人千面。但在 GUI 的界面下用户普遍预期还是,我看到的东西跟别人看到的东西是一样的。
其实 Google 在早些时间也做过千人千面的短暂尝试。但是做了一个简单的灰度测试,就被放弃了。因为用户对这个东西非常不理解,而且非常愤怒,说为什么我看到的东西跟别人看的东西不一样,你们中间是不是有什么阴谋?
但是对于对话这件事大家没有这个预期。几乎在每一个对话中,用户对这个对话的预期都是个性化的,认为对话机器人应该针对我说一些我所预期的东西,由此用户会有更强的参与感。我们做过的一些实验,比如这次活动采用了 GUI 和 CUI 的方式来去做活动报名,最后发现用对话机器人报名的完成度是非常高的,因为用户有很强的参与感。当用户进入这样一个产品,除参与感以外还会对机器人产生期待,希望能够学习和进化。
所以这是 CUI 和 GUI 在设计上,和用户场景上不一样的地方。硅谷所有的设计场景,我希望传达给大家的是,我们现在实际上是多了一种表达方式。过去由于技术条件的限制,我们只能做 GUI 的事情,所以专注做有信息广度的、空间感强的、公共页面的产品。但现在有一天,有这样的技术,让我们有机会去做信息深度的展示,去做时间感的设计、去做个性化的参与感的设计,做一些能够自我进化的设计。这就相当于每个产品经理手里都有更多的资料,更多的子弹来去帮你做事情。