专栏名称: B座12楼
关注创业和投资的互联网媒体-B12让创新得到赞赏。(更多内容关注http://b12.cn/)
目录
51好读  ›  专栏  ›  B座12楼

人工智能技术不成熟,如何规避人工「智障」?

B座12楼  · 公众号  · 科技媒体  · 2017-06-09 20:57

正文

本文约7636字,阅读大约需要8分钟


作者 | Mingke

来源 | 职人社(ID:zhirent


*本文源于 S 先生创始人 Mingke老师,在职人社 × 爱因互动联合主办的「 AI 时代的产品经理 」活动现场分享,由职人社整理并首发。


人工智障:混乱的行业现状  


《人工智障》一文本身是我们内部做 C 端的虚拟助理产品的复盘总结。没想到文章一发出去就火了起来,前后有好多人来找我聊这件事。我跟我的合伙人很纳闷,这个行业怎么了,为什么我们这种在「完全被主流 AI 圈忽略的团队」也能受到那么多关注?

 

于是我选择一家家去聊,前前后后约了 50 多位行业内的朋友,去聊大家都是怎么看待现在的发展和限制的。他们主要来自早期投资机构、AI 创业公司、互联网巨头的 AI 产品 Lead、传统行业 500 强。当时主要想了解行业在这几个方面的看法:

 

为什么现在能打仗的产品一个都没有?

To B or not to B?

垂直该不该堆全栈?路径如何设计?

对对话式人工智能和CUI的理解,目前行业的水平是怎样的?

怎么看科学、技术、产品和商业之间的关系?


这几个月聊完的整体感受可以总结为两个比较宏观的判断:


当前人工智能的行业一片混乱;

因为混乱,所以机会的空间也很大。



在移动互联网时代后期,行业中各个环节的细分已经成熟。不同的服务都有专门的服务提供商,比如做 in-APP IM( Instant Messaging,实时传讯)的、分发的、积分墙的、移动端各类库也都成熟。当你要做一个新的产品 MVP (Minimum Viable Product,最小可实现模型)来验证 PMF(Product-Market Fit,产品市场验证),你可以很快的把很多功能拼装在一起试一下。当然,业界成熟到这种程度,宏观上留给创新企业的价值高的机会也更少了。


反观当前国内的人工智能产业,大家对「什么事情该谁做」这件事的理解一片混乱。因为基础设施的尘埃还没有落定,很多创业公司提前要在应用层做产品的时候,就只能「全栈」:研发上需要从底层算法、技术、工程各个方面开始积累;产品上因为分不清哪些工作该客户做,哪些该自己来,很多时候还需要积累很多行业专业知识。

 

目前这个行业里对 AI 的定义也是混乱,它可以被当做是一个方法、一个路径,或者是一个目标。AI 创业团队不知道哪些要做那些不做,投资的担心被忽悠,甲方企业不知道哪家 AI 公司能做出什么,而大公司在暗中观察。

 

很多人都跑出来写文章、做演讲,试图定义这个行业。但是跟上一个时代不一样的是:过去移动时代定义行业,你可以拿着手中的优秀产品说话,用数据佐证产品方法论的价值。而 AI 时代的公司,说了很多识别率、各种算法,但能拿的出手的产品一个都没有。怎么以此来定义行业呢?

 

大概一年前,很多投资人和业界的观点里都把「下定义」的期望承载在科学家们身上。期望这波 AI 能有黑科技,「造出可以自动解决问题的系统」 。所以科学家们不得不去说、去做一些很宏大的事情,希望能从根本上解决问题。

 

曾经有家外企公司有 AI 产品项目需求,找了很多公司来做每家公司都回复能做,只要提供满足某某要求的数据就行。该外企的 CTO 吐槽说,Andrew Ng (吴恩达*)在 Stanford讲的那些谁都看过,要是这种数据我已经有了,那我不是自己成立个部门就解决了?解决数据和训练的相关问题本来就该是AI 产品设计中的一环,缺少的不是「爱干净的科学家」,而是能设计和实施完善的解决系统的团队。不能遇到真实场景的项目就要数据,没有数据就妥协产品效果。


*编者注:吴恩达是人工智能和机器学习领域国际上最权威的学者之一,曾加入百度,担任百度公司首席科学家,负责百度研究院的领导工作。

 

而现在的观察看来,随着大家对于机器学习、算法等方面的能力的了解更加深入,业内对 AI 技术上期待也变得更加理性,对当前的基于统计的 ML (Machine Learning,机器学习)的能力边界更清楚了,发现其实商业应用上还是有很多产品经理的发挥空间。AI 时代产品经理的发挥空间,完全不亚于移动互联网产品经理的发挥空间。

 

那么这些混乱也就意味着机会。当行业里没人能够下定义时,这个领域中没有绝对的权威和绝对成功的产品就意味着,每个从业者都有了定义这个行业的机会。


AI 产品的设计思想 


设计思想是产品设计的第一步。无论设计思想是什么样的,先树立一个设计思想。设计思想的核心价值体现在做具体工程的设计决策的时,可以提供指导产品方向。讲人话就是,当你的产品做到不知道该怎么办了,就去问设计思想。人工智能产品设计的思想是应该站在对业界、底层算法、技术工程、消费者意识、甚至竞争环境等等方面的理解上,根据整体环境去制定的。


▌指导思路:先定义再实现


当前业界有两种指导思路:



第一种,已经有了引擎,我拿引擎来造什么?( 「拿着锤子找钉子」);

第二种,我要造一辆车,需要买什么零件,要造怎样的引擎。


做底层算法业务的公司会倾向于第一种,已经有几个比较好的组件,然后去找合适的场景,或者弄个平台开放给其他开发者去寻找场景。做应用的团队应该考虑第二种:首先关注场景,明确「造车」的目标,然后去找或者自己造合适的工具。

 

如果做应用的,按照做底层算法公司的指导思路做产品,基本属于送死。很多我聊过的做 Chatbot 的团队都属于我要先做个对话系统,然后看看这个系统能跑成什么水平,再看看这个系统可以用在哪些企业的什么方面。这样的问题是, Chatbot 本身就已经是个应用型的产品了,根据企业的共性需求设计出来的系统必定是平庸的,结果是导致目前市面上都是效果都差不多的智能客服产品。

 

做商业应用的团队,一定要创造真实的价值、有差异性的价值。用第一种指导思路去做产品,基本是没戏的。

 

▌ 用户体验:存在即为被感知

 


「To be is to be perceived (存在即为被感知)」 这句话是 George Berkeley* 的核心主张,哲学上的意思是:一个东西的存在是因其被人感知而决定的。


*编者注: George Berkeley 乔治·贝克莱,1685年3月12日在爱尔兰基尔肯尼的一个乡村绅士家庭出生,他是近代经验主义的重要代表之一,开创了主观唯心主义。

 

我借这个观点来解释产品设计上的两个方面:

 

1、用户与产品的关系

 

用户和产品的关系比较好理解,用户是否选择你的产品、对产品的态度是由用户体验的效果决定的,不是开发团队自上而下的设计效果决定的。

 

受技术的限制,CUI 产品使用场景是有限的,不可能全域的跑。即使如此,设计指导思想也不能是 「因为我们系统处理不了一些需求,所以我们要规避用户说出某些话」这种设计思路。产品永远无法试图阻止用户触发某些说法,只能默认这些 Input 一定会出现,然后你的系统怎么处理。不然,用户使用时会遇到大量「对不起,我不知道你在说什么」。

 

这意味着 CUI 的设计里,用户来决定说什么;产品经理决定的只是用户这么说了之后,我的系统该怎么办。如果产品经理无法对用户会在什么场景会说什么做很好的预判,就只能寄期望于团队的科学家可以用黑科技做出万能的处理系统,要么就准备迎接一个智障的产品吧。

 

2、开发者与产品的关系

 

用机器来做模式识别就一定比用人(编程)来做好么?

 

技术和效果的关系类似路径和目标的关系。当直线走不通的时候,考虑曲线救国。而不是,我家研发的核心技术是几张网,我一定要把它体现在产品上。

 

把问题进一步延伸,当做一个以任务为导向的 CUI 产品设计时,如果要处理一个任务,用户可能会提到与这个任务相关的各种细节。那么这些细节之间的关系该如何表达?是否应该使用 Ontology* 的思路来对这个场景进行全面的建模?如果要,那么颗粒度要多细?如果没有设计的指导思路,这些问题很难回答。


*编者注:Ontology,在计算机科学与信息科学领域,理论上,本体是指一种「形式化的,对于共享概念体系的明确而又详细的说明」。本体提供的是一种共享词表,也就是特定领域之中那些存在着的对象类型或概念及其属性和相互关系;或者说,本体就是一种特殊类型的术语集,具有结构化的特点,且更加适合于在计算机系统之中使用;或者说,本体实际上就是对特定领域之中某套概念及其相互之间关系的形式化表达(formal representation)。本体是人们以自己兴趣领域的知识为素材,运用信息科学的本体论原理而编写出来的作品。

 

电影 The Prestige 致命魔术讲了一个非常有意思的故事,很好地阐述了「目标」与「路径」的关系。两位魔术师伯登和安吉尔互相竞争,要做「传送门」这个魔术:人从舞台上的一扇门进去,马上从舞台上另外一个门出来。

 

伯登先完成了,安吉尔看到伯登居然实现了这么 Magical 的效果——这感觉就像我们做 CUI 产品的,突然发现一款产品的上下文逻辑竟然这么好,这个对话系统居然能实现各种逻辑处理,讲什么都能正确的回复。因为产品是一个对话式的界面,我们无法看到它是怎么实现的,于是会更加紧张和焦虑,给我们的感受是 NLP* 竟然被奇迹般地实现了。

* 编者注:NLP,自然语言处理。目前业界公认,自然语言处理是人工智能中最为困难的问题之一。

 

安吉尔立刻就想逆向工程这个产品,看伯登究竟是怎么实现的。后来安吉尔找到一个科学家(特斯拉),正好科学家研发了一个黑科技是复制人。于是安吉尔根据这个复制技术,做了一个产品:让自己进门之后,马上复制一个自己从舞台上的第二扇门走出来。然后在第一扇门下面放一个水缸,让这个自己掉下去淹死,灭掉复制的痕迹。


他也达到了「传送」的目的,他所使用的路径是「复制、删除一个人」——非常高成本的路径。但是伯登的实现路径其实很简单:伯登是双胞胎。哥哥走进去,弟弟从另外一个门走出来,整个过程没有任何的黑科技。

 

存在即为被感知,对于用户(观众)而言,两个路径的效果是一样的,都是「传送」。

 

很多人觉得魔术师伯登的做法一点难度都没有,任何一对双胞胎都能做,继而这个产品没有核心竞争力。实际上,并不是这样。

 

▌5000 个细节打造一个产品

 

在没有黑科技的情况下,产品是不是就没有核心竞争力?双胞胎的核心竞争力在哪里?

 

实际上,双胞胎付出了巨大的代价——常人就算是知道了,也很难下决心付出的代价——为了隐藏双胞胎的身份,伯登和双胞胎兄弟必须在生活中完全伪装成一个人,解决日常生活中身份冲突的诸多大小问题,比如共享老婆等等。他们在生活中的精心设计有非常多非常多的考虑,正因为如此周密的设计,没有人会想到他们会是双胞胎,而这正是 5000 个细节打造出来的一个产品。

 


在产品设计上,这是乔布斯在一个早期采访(《被遗忘的采访》)中提到的概念:做设计的时候是把 5000 个方面同时考虑的过程。这就是此类产品的核心竞争力之一,也是产品经理的重大价值之一。

 

当我们说 AI 的产品设计的时候,究竟是在设计什么?我认为在当前的技术限制下,产品设计是一个 AI 产品黑盒子里面的 5000 个细节。团队 CTO 告诉你,不用管过程,直接上 N 张网然后用成吨的数据来跑就能解决。当技术发展到了这种程度,那产品经理确实就没有太大作用了。这就好比传送门直接被技术上解决掉了。

 

目前用户对于 CUI 类产品的期待是,希望用黑科技直接「端对端」的解决用户需求,希望用户 Input 一个需求,就完美自动 Output 出一个结果。这是当前实现不了。因此中间过程就涉及到很多环节交给人为处理,帮助机器判断和设计目前无法被自动处理的环节,这是目前让系统最终体现出好的效果的唯一路径。

 

我用 CUI 设计里最常见的「意图识别」为例,来说明上面三个思想。

 

做产品设计时,一个场景里的用户意图该怎么拆?一个场景里需求可能会被拆成 80 个用户意图来处理,也有可能会拆成 18 个。目前有的团队处理方式是一个场景一个意图,还有的团队甚至不拆,直接交给「端对端」的黑盒让数据来跑,这种粗暴做法的效果就不评价了。

 

假设这个判断交给人来做,这里的决策影响因素会包含训练数据素材是否足够、训练量、自家算法的能力、最终需求的程度等等方面的考虑。这些因素都考虑之后,该由谁来判断呢?因为所有后面的对话识别、任务处理都是由意图引导的,这个识别一错,后面的工作做得再对,最后的效果也是智障的体验。我认为这是产品经理的工作,但是过去的产品经理根本没有做过类似的工作。

 

如果拆成 80 个意图,可以让后续对话的设计更平滑,但对应这么多意图,公司没有足够的训练素材该怎么办呢?因为素材不够,那意图可能会被拆解成 18 个或更少,更少的意图是否可以精准地识别到用户正确的需求呢?还有意图与意图之间的关系,是否应该通过建立 Ontology 来表达?


由于这个设计的判断不是所见即所得的,并且成本非常高,导致产品经理很难用做 A/B test 的方式从结果来选择设计。所以产品经理得假定预判某种体验为目标,然后结合其他因素来看如何实现。而预判的体验好或不好的标准,是否符合真实用户的行为,则非常考验对场景下用户心理的拿捏。

 

也就是说,用最终效果来指导所有的设计,然后再由设计指导研发。产品的目的只有一个,就是最终效果,无论是自上而下还是自下而上的设计,都不是目的,只是方法。但产品「效果」也需要有自己的定义,但是业界都没有这个定义。而且没有成熟产品可以解答能用这个问题。

 

不同于 GUI (图形式交互)界面即产品的产品特性,一旦有清晰的可视化界面产品经理从界面就能琢磨出产品的功能、逻辑是怎样的;CUI(对话式交互)是一款黑盒子产品,对话式交互的界面是不可视。就算市场上出现了一款效果比较好的产品,也不大能去逆向工程来看出它的产品逻辑。

 

就像跟人打交道,当你遇到一个很蠢的人,沟通起来你很容易就摸到他的套路(产品逻辑),但是如果你遇到一个很有意思的人,往往很难摸到他的套路。

 

回想一下,你有没有遇到过这样一个人,你们交流的时候,无论你讲出来了的,还是心理在想的意图,好像都被这个人精准拿捏到,然后每个你关注点(Entity)都被这个人悄悄仔细的揣摩然后处理掉,最后以满足你自己都没有意识到的自我偏好的说法,反馈给你——你只能感知到如沐春风般的交流,他中间如何做各种处理的,你根本看不到,只能看到对方眼睛在发光。

 

这就是一个好的 CUI 设计的一个特性,体验越好,就越难找到背后的设计逻辑——一个产品如果能轻易给你摸到其黑盒里的 Pattern(模型),那么这必定不是一个值得研究的产品。


「Fake it, until make it.」 我觉得很适合当前用来做 CUI的产品。因为你是对话式的交互系统,是别人看不到,产品团队和工程师团队之间可以相互帮助,这是当前产品经理可以放大的价值的,直到强人工智能出现。


CUI 产品的「圣杯属性」 



对 CUI 的理解将影响产品设计路径。目前行业对 CUI 的理解都很早期,并且,这些理解在随着行业和产品的发展不断演化的。可能过去一段时间很多想法就会被验证证明是错的。大家都在摸着石头过河,错误的想法也是石头,需要有人去踩。


S 先生在研发的过程不断尝试寻找 CUI 的「圣杯属性」,这里圣杯属性指的是一些非常重要的、对终端产品体验有决策性影响的因素和属性。往往这些属性是隐形的,不容易发现,但是一旦发掘到,才能真正发挥 CUI 的价值。


在移动互联网的时代中,「触摸」属性就是一个明显的普通属性,但不是圣杯属性。因为足够明显,当用户从上一代键鼠操作,转成触摸操作的时候,会发现早期的很多应用就围绕这个属性做文章。典型的案例就是「水果忍者」一类的最大程度利用了触摸作为交互的产品。它发生在交互范式刚刚发生变化的时候,用户会觉得这是一个前所未有的突破。

 

但是到现在,观察目前真正强大的 app,则是那些掌握「碎片时间」 、「基于地理位置」、「个人身份和社交关系绑定」等等特征的,其实根本上也是智能手机作为跟人的(区别于跟场景的)、私人计算设备的延展属性。而这些属性,在移动互联发展过程中,是慢慢被开发者一步步挖掘出来的,而不是像触摸那么直观明显。


CUI 产品的圣杯属性不是 NLP(Natural Language Processing,自然语言处理)——虽然目前 NLP 的发展还很初级。这不是说 NLP 不重要,而是 NLP 对于 CUI 是基础的属性,类似「触摸」这个属性之于移动设备。好的 CUI 产品一定会有一套好的自然语言处理系统,但假设如果有一个完美的对话系统——它是可以完美理解对话所有的内容的,并具备完美的自然语言生成——却并不表示这一定就是一个可以完美完成任务的系统。


假设你刚刚招了一位真人助理,他自带完美的 NLP,能听懂你所有的话,也能正常和你对话。然后你跟助理说,「去给 Samantha 买花」,讲出来的字就那么几个,他都听懂了,但是他会怎么去分解这个问题、完成这个任务呢?买什么花?预算是多少?什么时候买?哪家花店好?什么时候送到?Smantha是谁?地址是哪里?等等。这些问题都需要决策。这个时候如果是一个很蠢的助理,他就会一个一个问题来问你——而更蠢的助理则根本没有考虑到这些方面。


在做对话系统服务时,会遇到同样的问题。机器是需要理解到 Context 才能正确地执行命令,也就是需要很多的场景相关的信息去帮助理解,而不只是对话上的上下文。最优秀的助理应该是听到「给 Samantha 买花」这个命令就可以完成任务了,当然新来的助理一定搞不定,哪怕他很聪明,但他缺少对用户的了解。这里就涉及到大量的场景相关的数据和知识表达的问题。


所以一个简单「给 Samantha 买花」这个问题里,对话系统的核心并不是对话。如果有一个产品做到了并且做出了更好的效果,产品的过人之处一定不仅仅是在命令语句的理解上。

 

要让 AI 用对话完成任务,理论上,我比较认同 Hofstadter* 的一些观点。人讲语言总是在尝试去最精妙的方式用最小成本的表达自己所处环境的本质。而本质来自于对环境的感知后的处理,前提是对环境的全面感知,而不只 NLP 来处理「说出来的话」(而目前 NLP 离完美处理还差得很远)。


* 编者注:Hofstadter 对人工智能,Cognitive Science(认知科学),Computer Science (电脑技术)都有着独树一帜的研究。他的著作有 GEB (一条永恒的金带)、Fluid Concepts and Creative Analogies、Metamagical Themas(他在 Scientific American 上发表的文章的总集)Hofstadter 对一些项目的缘起、设计,所研究的课题的本质,都有清晰的描述和给人以启发的讨论。


拿餐厅推荐来举例,用户的命令「帮我给 Samantha 定一个吃完饭的地方」,给到的对话信息只有上面几个字,但实际上用户的潜意识里面认为他要,或者已经传达的信息远不止这些。如果机器没办法识别出哪些是用户认为自己已经传达了的信息,那在完成任务的时候就不会去处理相关信息。因为机器一旦漏掉了这些信息,那机器反馈出来的东西就是低于用户的期望的,继而用户就会继续发问。于是机器又重复一次刚才的失败。几次之后,用户就会觉得你是智障,继而就不会使用。


以上这些问题是很难用基于统计的机器学习、或者用过去GUI产品所积累的结构化的大数据来跑模型来解决的。因为过去产品里被交换的数据(对话内容)远没有覆盖整个任务处理的考虑因素。

 

举个例子,有人认为很多系统已经积累了大量的数据,比如说「饿了吗」 app。假设它积累了一个大学生四年来点餐「鱼香肉丝」的数据。当这个用户今年毕业后找到了很好的工作,决定请女友好好庆祝一下,这个时候饿了么应该根据这个用户的历史数据 推荐什么餐厅呢?

 

而且这些还都是数据的问题,跟 NLP 没有半点关系。


 

圣杯属性是 CUI 交互过程中很重要的特点。那么好的 CUI  产品会有什么样特点?


第一,抽象的概念。好的 CUI 系统应该是尽量直接解决用户的问题而让用户忽略过程。因此用对话能跑几轮来判断任务系统的好坏是毫无意义的。终极效果是「我不用说,你就明白」。


第二,Context 的概念。通常在 NLP 里被理解成语义上的「上下文」,而我这里指的是场景。一个对话发生之前 Context 就已经产生了。当你跟一个人见面的时候,一句话还没讲,但是很多信息就已经出来了。这些信息与文字无关,而且是隐蔽的看不到的,但是它是存在的。好的 CUI 系统需要判断对话会包含哪些元素,怎么去找出这些元素,然后把悄无声息的把他们解决掉。


第三,个性化的概念。因为没有可视化界面的,所以用户对 CUI 产品提的需求都是高度个性化的。并且这个「个性化」有别于 过去 GUI 产品常见的基于用户画像的个性化。它是动态的,很多个方面随着时间和空间是在不断发展并不停与外部条件妥协的综合结果。


AI  时代的产品经理是一个新物种,市面上没有现成的。


AI 时代是人文和科技的 2.0 时代,对产品经理的要求更高。需要比过去做GUI时更加理解人性,另一方面对技术的理解的要求也会更高。


*本文由职人社整理原创发布,授权B座12楼转载。内容仅代表作者独立观点,不代表B12立场。如需转载,请联系原作者。



- 20170609  No.1569 -

| 回复"目录"查看B12往期 |


猛戳「阅读原文」,报名参加B12小聚人工智能专场