继PC互联网、移动互联网之后,IOT时代正在到来,人工智能在近几年获得突破之后,很多创业公司包括大公司都趋之若鹜,不仅在国内,美国也一样,好像现在做互联网做IOT不谈人工智能就是OUT了。
虽然这些挂着人工智能噱头的公司,在未来一两年内或许是大批死去,但人工智能是下一波浪潮,会诞生下一波独角兽公司应该是毋庸置疑的。
对于创业者来说,首先要明白的是,人工智能的研究、应用与落地,需要与某一个行业、领域或者场景相结合,否则是没有意义的。人工智能是一种技术,技术最终都需要落地,解决我们现在不能解决的问题,或者提高我们当前解决问题的效率。
今天来
分享一篇文章,《寻找下个独角兽:深度解析 A.I. 创业的三种模式》,作者
李智勇
(微信公众号ID:
zuomoshi
)。
这次A.I.浪潮看着眼花缭乱,但实际上只有四个可能的落地方向:
一是语音、语义的突破导致语音交互最终真的成为可能;
二是计算机视觉的突破导致AR这样的混合了现实空间和虚拟空间的显示方式;
三是计算机视觉的突破让自动化得以升级,出现自动驾驶汽车、机器人这样的高度自动化产品;
前三种的创业模式又可以分为:产品系,从软到硬以及从硬到软。这篇文章探讨这三种模式的优劣。
我们耳熟能详的人工智能创业公司基本上是产品系,比如国内的出门问问、Rokid机器人,国外的Jibo、Savioke、Knightscope、Meta等。这类创业公司的根本特征是尝试借用人工智能上的技术突破,打造具有新奇体验的新产品(带语音交互或者AR等),并跑出漂亮的销售曲线。
漂亮的销售曲线意味着新产品的市场一旦启动,那在之后的三年里,销售曲线是倍增(可能高于2倍)的,而不是每年增加百分之十这类缓慢递增。
反过来讲这意味着这些创业公司的决胜期实际上只有三年。不管你之前做了多少,一旦你错过这三年,那所有努力工作可能就变得没有价值。
那多久市场才会从早期市场变得真的启动呢?这没人知道,趋势是可以用逻辑推演判断的,但具体的启动时间点其实都是瞎猜。可能是1年,也可能是2年,甚至5年,10年。
这样一来所有产品系的ai创业者们要把握的关键点就只有两个:
-
在一个不可清晰预测长度的预热期做好充足的准备,包括产品、销售渠道、生产制造能力等。
如果第一点没做好,那就是老罗和他的锤子科技,如果第二点没做好那其实会像某些大企业,比如摩托罗拉,什么都不缺但就是干不成事。如果两点都做好了那就必是新的独角兽企业。
这里必须强调的是达成上述两个目标时真正重要的是产品体验而不是技术的先进性,也就是说这种模式更需要乔布斯这样能用好技术的人而不是谢尔盖布林这样能创造技术的人。
哪怕所有技术都是别人的,但只要不影响用户体验,那其实关联不大,但实际上由于这一代AI的创业者都非常聪明和野心勃勃,他们都不想纯粹的变成组装型企业,所以这类创业公司通常会在初期就尝试卡住技术上的某几个关键点,比如ASR等。这里面比较极致的是出门问问,根据各种信息来看,出门问问全线打造了自己的ASR、NLU甚至搜索。
这就导致产品系创业很像爬珠穆朗玛峰的北坡,成了必是一番大事业,但成功非常艰难。高风险来自于这样两个方面:
-
预热期的时长高度不可预测。
抛开AI不论,到现在为止这个模式下里国内比较成功的一家企业是大疆。大疆的销售开始起飞大约是2013年(暂时没有官方数据,只有Dronelife的猜测数据)。
那大疆哪一年成立的呢?2006年,也就是说大疆等待产品起飞等待了差不多7年。
2.成本因想卡住关键技术点而大幅增加。
前面提到过,新一批创业者们通常并不想自己成为单纯的组装和销售公司,所以会在早期就把握住几个关键的技术点。这对产品起量后企业发展有利,没有这些点上的控制权即使成了也可能变成现在的某类PC和手机企业。
这未必不对,毕竟亚马逊为了做Echo也收购了三家公司完整搭建自己的技术体系,但无疑,这对创业公司而言会显著增加成本和风险,会导致企业长期处在收入没着落但支出比较高的状态。
不管从硬到软还是从软到硬,说的都是公司本身不做产品、而是为做产品的公司提供服务。从硬到软说的是公司认为公司优势必须从前端(比如麦克风阵列)开始,延伸到后端(云端)。
从软到硬则是说公司认为云是智能的核心,前端优先级较低。当然我们可以讲最好两端都强,但创业公司由于资源、创始人背景限制通常只能先强调某一部分。这两种模式又可以分别落在语音交互与计算机视觉上,但由于很难杂在一起说的清楚,所以下面会拿语音交互这个方向做例子先把这两种模式说清楚,最后再总的分析下这两种模式。
国内语音交互人工智能创业公司里走从硬到软赛道的公司还比较稀少,最典型的应该是声智科技(这公司是我Portfolio公司,所以比较了解),声智科技是从最底层的声学阵列开始,先做噪声抑制、混响消除、回声抵消等,反过来再考虑上面的ASR等,与云知声等的道路正相反。
这种模式的好处是可以站到产业链的最前端,容易落地,是数据的必经之路。而数据本身是未来ASR甚至NLU的核心驱动力,所以后劲比较足。
坏处是短期需要用硬件获取客户,并且需要组织硬件的生产,需要较多的启动资金。
可以讲产品系创业公司的成功事实上有两个外部要求:一是趋势要来,其次是产品要经得起市场检验。从硬到软的公司也有两个外部要求,一是趋势要来,二是要技术过硬,有价格优势。2B的公司所面临的客户通常非常理性,很多花哨营销反倒是作用不大。
语音交互上从软到硬比较典型的创业企业则是云知声,这种模式选择和公司定位甚至从名字上就可以看得出来。
从软到硬的好处是更容易覆盖已有的成熟计算平台,比如所有的 App 都需要一个自己的Siri,那云知声这样的企业只要做好技术壁垒,等着携程、今日头条上门就行了。这个方向上主要的挑战在于要和大公司(比如百度和讯飞)直接竞争。我们这篇文章主要关注的是新硬件产品上落地,所以这点不再展开。
坏处则是在新硬件产品(Echo、汽车、机器人、AR等)上很难落地,因为为了在新硬件产品上落地,中间必须加入阵列那一层,否则效果会很差。而一旦无法落地,其技术优势就很容易被突破。
语音识别的精度骨子里是数据驱动的,但显然不做阵列等硬件,你没法落地,没法落地就没有数据,也就很难获得数据、技术、精度、场景上的正反馈,也就不容易解决真实环境的语音识别精度问题。
云知声等显然认识到了这一点,所以也在积极往这一方向扩展。这时候通常会碰到软件企业跨界做硬件的一般性问题,比如供应链侃价搞不定会导致同样的产品成本会高个百分之几十等。
上面拿语音语义的企业做了个例子,但事实上在计算机视觉上同样成立,只不过细节会有差异,比如Movidus的芯片可能在端上就把图像识别处理完了,而不需要像麦克风阵列那样自己处理后再把结果传到云端。这种模式选择背后隐含的共通的东西是对计算架构认知和假设。
一种是为保证体验(速度等)端始终要扮演重要的角色,云用来辅助端完成计算。所有我们用的硬件产品:手机、Pad等基本都是这种模式;
一种是计算应该大部分发生在云上。Google主推的ChromeBook是这种模式,以前银行里的终端也是这种模式;
一种是正在兴起的传感器+Fog computing+云架构。这种可以看成是第一种架构的扩展,比如智能家居里所有的设备都直接连云上计算成本太高,那就不如家里有一个中枢先把能处理的处理了(比如天冷开空调,下雨关窗户就不传到云端了),实在不行的再连云。
前两种架构在现实里经常会发生PK,并且导致很严重的后果,下面说两个例子:
一次PK发生在PC上,那时候Oracle等尝试做的Network Computer骨子里的含义就是把各种计算转移到后端,让前端就变成输入输出设备。这种尝试显然失败的惨不忍睹,但有意思的是20几年后当PC这个品类足够成熟后仍然走这条路线的Chromebook却看到了些成功的曙光。