从语音云平台到全力押注物联网人工智能,等到风口的云知声走的并不容易。
/
文|《中国企业家》记者 王雷生 编辑|马吉英 摄影|邓攀
云知声CEO黄伟走进公司产品展示间,看了一圈,还是没有想到如何配合摄影师,表现人与机器间的语音交互。
展示间里摆放着空调、电视、抽油烟机等等,而云知声的产品,则是嵌入在这些电器里的语音芯片及背后的语音识别技术,有了它,消费者通过语音就可以对这些电器进行控制。
这多少与云知声的处境有些类似。即便曾登上几家机构的独角兽榜单,也是不少知名企业的合作伙伴,云知声的名字却并不为公众熟知。
这家创业近五年的语音识别公司,从语音云平台做起,曾为小i机器人、搜狗、锤子科技、乐视等明星企业和产品提供语音解决方案。2014年开始,它几乎把所有资源全部押在了物联网(IoT)领域。
两年的研发打磨后,2016年,云知声先后与格力、美的、华帝等合作推出智能化家电产品。不久前的中国家电及消费电子博览会上,云知声开发的人工智能芯片拿下2017年艾普兰——核芯奖。
云知声透露,截至2016年底,搭载云知声智能语音SDK的车机产品出货量已超过600万台,在中国后装车机市场“占据比较高的市场份额”;医疗领域,2016年4月,医疗语音录入系统落户北京协和医院后,到年底有近100家医院完成测试;在教育领域,云知声称,得益于与沪江网、一起作业网等企业的合作,已成为“国内最大的语音评测云”。云知声的下一个方向,是儿童陪伴机器人。
如今,云知声终于等到人工智能风口。
语音识别专家、百度前首席科学家吴恩达预测,当语音识别的准确率从95%上升到99%时,语音识别将会成为人类与计算机交互的新方式。而在2016年底,百度、科大讯飞、搜狗公布的数据显示,三家公司的语音识别率都已达到97%。
创业者和资本也在加速涌入。
据不完全统计,2017年前4个月,有10余家智能语音公司先后获得融资。3月1日,三角兽科技宣布获得5000万元A轮融资;4月6日,出门问问获得大众集团投资的1.8亿美元,有评论表示,这轮融资后,出门问问可能将成为智能语音识别领域新的独角兽;医语通等垂直领域创业公司也得到了资本的支持。
2014年末,亚马逊智能音箱Alexa推出,两年多的时间里估值接近百亿美元,更是刺激了诸多大公司在这一领域加大投入。
热潮的背后,有一个逻辑被越来越多公司认可,作为人机交互最主要方式之一,智能语音将成为万物互联时代的入口。
尤其在智能家居、车载等重点领域,各大公司几乎都在布局,随着各个公司实力的增强,未来在垂直领域的竞争也在所难免。
2011年,在中国科学院自动化所硕博连读加工作了10年之后,“技术上做的很漂亮”却深感体制内难以实现产业化的梁家恩,决定出来看看,“当时互联网、移动互联网比较热,想看看这些人到底在搞啥。”2011年,他加入了由黄伟刚刚创办的盛大创新院语音分院。
这一年10月,搭载英文版Siri语音助手的iPhone4s推出,迅速成为科技界瞩目的焦点。梁家恩认真研究过Siri之后,觉得以自己的技术能力,做一个Siri这样的中文语音助手并不难。“我们觉得语音已经干了12年了,是不是出来要做点事情?当时我就琢磨,出来试一试,做不成也就认了,不能连尝试的勇气都没有。”
2012年初,他从盛大创新院辞职,创办云知声。与一些尚未开始创业就手握天使投资的创业者不同,云知声的起步显得颇为窘迫,创始人自掏腰包、连续几个月纯投入,一度连发工资都很困难。2012年6月,创始团队不得不以个人名义向投资人借款,才最终把公司注册下来。
尽管做语音识别的大方向很清晰,但是这条路该怎么走,梁家恩当时并没有想清楚。资料显示,2012年8月,云知声推出了一款名为“爱说说”的语音助手。不到一个月,云知声又推出了语音云平台,外界的质疑蜂拥而至——一家小创业公司开始就做平台,就是自己找死。
这多少有些无奈,因为云知声的手上,语音数据量非常小,“做人工智能,如果我们搜不来数据,就是无米之炊,技术再牛没用。”梁家恩说道,“我们判断整个人工智能,它未来的智能一定是在云端的,这也是我们做云平台的逻辑。”
在数据量上没有优势,就在算法上想办法。云平台推出来不到一个月,梁家恩就在淘宝上买回来了几个游戏显卡,开始搭建GPU(图形处理器)平台,研究深度学习在语音识别的应用。
云平台的推出使数据量猛增,云知声准确率达到85%,两个月后上线的深度学习算法,将准确率提高至91%。这也成为云知声之后发展的根基。“现在来看,我们当时的路走对了。”梁家恩说。
几乎就在平台上线的同时,Siri中文版推出,百度、搜狗等国内巨头都想抢先发布自己的中文语音助手。对于当时需要借助外部技术的搜狗而言,它面临两个选择,一边是一家已成立10余年的上市公司,一边是刚诞生几个月的创业公司云知声。
搜狗进行了非常谨慎的测试,发现两家技术水平上不分伯仲,但云知声在处理器的速度上更快,并且通过对私有云优化,将服务器数量从5台优化到了1台,成本大大降低,最终决定与云知声合作。2012年11月确定合作后,云知声只用了两周就完成了对搜狗语音服务的支持。
真正让云知声走向公众视线的,是公司与锤子科技罗永浩的合作。
2013年3月15日,距离锤子原定的27日的发布会仅剩12天,下午4点半,老罗发了一个微博,“请问北京有靠谱的语音技术供应商吗?我们已经等不了了!”
梁家恩当时正在上海出差,看到消息,马上通知联合创始人、时任CTO康恒去找罗永浩。经过实验室里一周的调试,搭载云知声解决方案的锤子手机操作系统被罗永浩带上了发布会现场。
过程却很不顺利。老罗冲着语音助手说“左小祖咒”,结果却播出了卢冠廷的《一生所爱》,现场多次演示失败,老罗显得很尴尬。他不停的向云知声道歉,“我们在办公室测试时成功率95%,这是我们自己团队调试的不好,早知道就不点出来你们的名字了。”
但云知声着实火了。1个月后,它又亮相乐视第一代超级电视发布会,此后相继与inwatch、易信等达成合作,一时无限风光。
彼时,尽管是很多明星产品的合作伙伴,但云知声自己却没有一款核心的移动互联网产品,语音云平台的商业化价值也不被市场看好。
“许多新技术公司很看重技术平台的威力,但要把技术平台实现商业化的转变,在中国花的时间非常漫长。当B端公司在用户方面有比较大话语权的时候,往往不会在意底层的技术平台。”云知声投资人、启明创投创始主管合伙人邝子平说。
创业一年半之后,云知声的商业化路径依然不够清晰。“第一个一年半,我们就是数据+算法。整个一年半里面,我们没有过多涉足商业,并不是认为商业不重要,而是感觉还没到那个时间点。”梁家恩说。但有一点他很清楚,“我们的定位肯定不能只是帮别人干活。如果我们变成一个项目外包团队,其实是没前途的。”
如何实现商业化落地,成了梁家恩最焦虑的问题。邝子平投资云知声后,花了不少精力与团队探讨如何商业化落地。他们选择了一些垂直行业,比如金融。但是云知声很快发现,这个领域各家都有非常成熟的客户,更大的竞争对手砸下重金。“我们意识到竞争太激烈了,就很快退了出来。”邝子平说。
2013年底,一直在团队外部协助的黄伟正式加入云知声,担任CEO,梁家恩则转去做了CTO。
他们给云知声重新进行了定位,“我们明白,我们做不过BAT,不要去想着跟BAT竞争。再去拷贝一个科大讯飞也不可能。我们只能寻找一个云知声自己的定位跟方向。”黄伟说。
与乐视超级电视的合作给云知声带来了灵感。团队发现,语音交互与硬件结合的体验非常好,相比较留存率和活跃率都不太好的语音助手,乐视电视的用户活跃度非常高。“既然乐视能做起来,说明语音跟硬件紧密结合这条路径应该是通的。接下来,我们主要看跟什么产品结合能做起来。”梁家恩说。
他们发现,不只是电视,语音跟各种各样的家居都可以结合。另一个有利因素是,BAT和云知声最大的竞争对手都还没有重点关注这一领域,行业也尚未形成壁垒。黄伟决定,“我们定位给物联网提供人工智能服务。”
2014年初,云知声开始全力以赴投入IoT人工智能。一些业务开始被重组,Android应用市场显示,云知声语音助手、语音输入法也都在2014上半年停止更新。
在哪些行业落地?智能家居是最重要的一个方向,另一个重要的应用场景则是开车时的人车语音交互,为了暂时避开与Nuance、科大讯飞的直接竞争,云知声选择了汽车后装市场。
黄伟和梁家恩的经验也起到不小的作用。加盟盛大创新院之前,黄伟曾任职于摩托罗拉中国研究院语音识别部门,后来他所在团队被卖给了Nuance。这家国际语音巨头的医疗业务收入占比最高,这让黄伟看到了医疗行业的机会。
而梁家恩在中科院工作时,用了三年时间,和同事一起开发过一套英语口语评测系统。
最终,云知声圈定了智能家居、车载、教育和医疗四个领域。
但做智能家居远非把手机语音助手移植到家用电器上那样简单。与手机采用的近场语音识别不同的是,智能家居产品离用户普遍较远,需要采用远场语音识别技术,噪音、声波衰减等等问题都需要解决,芯片自身的功耗必须足够低,并且可以冷唤醒。
“其实远场识别做降噪是非常艰苦的。我们从2014年开始做,一直到2016年我们才真正量产。”梁家恩谈起两年的研发时说,“很多公司不可能下这个决心,或者有这个信心去死磕这些点。我们觉得这就是未来的一个方向,多难都要过去。”
经过一年研发,2014年底,云知声的云端芯有了雏形,2015年开始跟客户一起打磨适配。也是2015年底,云知声商务团队正式组建。为商业化路径焦虑了三年多的梁家恩开始觉得,“这事比较有谱了。”
“这是我创业以来最轻松的一个年会。”不久前的云知声年会上,黄伟感慨道。
创始人全是理工科博士,做技术研发出身,梁家恩曾有过担忧,“我们不能做一个成也技术,败也技术的团队。”在他看来,太拘泥于技术,或者太相信“靠技术打天下”很有可能让创业走向失败。“我们比较早意识到,除了技术之外,其他我们都不会,所以我们就要花时间去想,去学。”
而这也正是打动邝子平的地方。这位在科技领域任职和投资超过30年的投资人,见过无数的技术创业者,“很多科学家觉得自己那么好的技术,在市场上肯定受欢迎,对于非技术的东西不一定会太注意,产品化方面做得不够细致。”邝子平说。
但云知声给他的感觉却不一样,“他们的技术功底特别好,当时国内做语音识别的就几个团队,他们是公认的顶尖的一拨人。”而更打动他的,是从创业一开始,云知声就意识到必须找到商业化的途径。“他们非常认真地思考、尝试如何把技术落到垂直领域,这些做法与很多科学家创业团队不一样。”
2013年10月,云知声获得启明创投领投的近亿元A轮融资。2014年底,云知声宣布5000万美金B轮融资,投资方包括高通、启明创投。2016年4月的公开报道中,黄伟称云知声于2015年底已完成了数千万美金B+轮融资,但不便透露投资方身份及更为详细的融资金额。
创业伊始,云知声就意识到资金对于技术团队的重要性,在不确定技术何时才能落地成为产品的情况下,就必须多拿钱,让公司有足够长的时间窗口活下去。“过去几年如果没有资本市场对我们不断输血和帮助的话,我们也走不到今天。”黄伟说。
但黄伟对资本的选择也有着自己严格的标准。最重要的一条,就是绝对不接受对赌。“不是说我没有信心,凡是有这种要求的人,我觉得是对我们的价值不认可。对赌协议会对团队造成很大的压力,压力之下动作一定会变形。”
第二就是选择长线投资人,不只是看品牌,更要看是第几期基金,“比方说第三期基金,存续期是5+2,现在是第6年,这肯定不适合。如果是一个新基金或者是长期基金的话,这个我会要。”
他也关注资本背后的资源,2014年云知声全力研发“AI芯”之际,就引入了全球最大的无线芯片厂商高通的投资。下一步,“能够带来业务协同,或者国内IPO对我们有帮助的,都会优先考虑。”黄伟说。
精挑细选的背后,是他对人工智能创业的理解,在他看来,人工智能因为有比较高的门槛,不会像其他行业大起大落,也不会突然死亡,“这样的公司看起来很难,但它每一年每一步都会变得越来越好”。正因为如此,需要投资人和创业者做好持久战的准备。
资本与创业热情涌动,创新工场创始人、语音识别专家李开复不止一次发出警告:“语音识别是所有技术里面最不成熟的,当我看到一个个计划非常担忧,因为这些计划99%会死掉。”在他看来,语音的识别和理解完全不同,即便准确地把每个语音变成文字,但它并不理解这些词的含义。
“语音识别这10年来的突破,更多是在感知层面的突破,而在包括理解在内的认知层面,人都没有搞清楚自己是如何认知的。后边的路还比较长,还有很多的坑,需要我们逐步去解决。”梁家恩说。
在某种程度上,黄伟和梁家恩也认可人工智能创业出现泡沫化的观点,而能从这波人工智能创业热潮里脱颖而出的公司,不仅仅技术要过硬,商业上也要足够敏感,扎入到行业里,形成技术、商业、数据的闭环,这样才有机会。
“今天整个行业里大家更看重的是能不能落地,落地了能干嘛。如果说这个问题解决不好的话,热潮也会跌入低谷。”黄伟说。
(王雷生 [email protected])
谁在改变中国商业的潮流,谁是新的行业颠覆者,谁来重写商业的游戏规则?2017,《中国企业家》杂志将在全国范围内寻找推荐极具成长潜力的中国企业新星,我们也将再次出发寻找商海里最具潜在攻击性的鲨鱼苗。(点击以下图片即可报名参与,报名截止时间为4月30日)