专栏名称: 雷峰网
中国智能硬件第一媒体
目录
相关文章推荐
互联网思想  ·  OpenAI反击,长文开怼马斯克! ·  2 天前  
新浪科技  ·  【#特斯拉美国ModelS涨价#】特斯拉美国 ... ·  5 天前  
新浪科技  ·  【#Epic送不成最佳游戏了#:《宇宙机器人 ... ·  6 天前  
51好读  ›  专栏  ›  雷峰网

洞见 | 高通与苹果会给远场语音交互带来什么?

雷峰网  · 公众号  · 科技媒体  · 2017-06-07 07:40

正文

300 + 明星创业公司,3000 + 行业人士齐聚全球人工智能与机器人峰会 GAIR 2017,一 同见证 AI 浪潮之巅!峰会抢票火热进行中。

雷锋网按:本文作者李智勇,声智科技联合创始人,有个好玩的公众号 “琢磨事儿”。

报道苹果公司时记者总是这样类比:世界银行追踪研究的 199 个国家中,有 183 个国家的 2015 年国内生产总值 (GDP) 低于苹果市值。苹果市值几乎是伊朗和奥地利 GDP 的总和。从这个角度看,苹果、谷歌、亚马逊这样的巨无霸之间的竞争很像一场国战。国战的根本特征是不管你喜欢不喜欢最终都会被卷入,哪怕你与此看似毫不相关,恰如互联网与传统零售行业。

终极生态与即将白热化的竞争

到现在为止我们在 IT 行业看到了三类性质迥异的成功:

  • 一类是硬科技型公司,比如 Intel 和高通,这类硬科技项目虽然其上也有生态,但技术壁垒仍然在商业模式中占据较大权重;

  • 一类是工具平台型公司,在这点上集大成的是操作系统,典型公司则是微软。对于操作系统而言技术、工程等很关键,但更关键的则是其上的应用生态系。所以虽然 Linux 免费,但也没可能在 PC 这种终端上撼动微软的地位。

  • 一类是互联网生态公司,这点大家会比较熟悉,比如我们常说的 BAT。和上一类的核心差异在于 Windows 根本不是数据驱动,而互联网生态公司大多时候其生态依赖于其里面的数据和内容。社交时关系链是其核心内容,搜索时爬到的东西是其内容,电商时商品是其内容。

这种行业分工内置了足够的技术合理性,不太会发生实质性变化。但可能会变化的是公司在其中扮演的角色,比如 Google 最终同时控制操作系统和搜索引擎,这会影响最终竞争的走势。在最终格局中实际扮演那种角色影响控制权,而控制权影响商业模式和利润空间。

以控制力大小而论,中间层非数据驱动的 OS 影响力最大,其次才是互联网生态公司,最弱是硬科技型公司。这在近来苹果 PK 腾讯一事中体现的特别清楚。因此我们也可以说直到 Android,Google 的商业模式其实并不稳固,所以它才那么有动力在 OS 层突围。

这样一来国战的焦点就在于谁能控制远场语音交互下的 OS。这点上结局很可能和过去不同,因为这些公司都实在太大了。

苹果不用说一定还会是自己的封闭生态系,Google,亚马逊和微软则一定会在各自的势力版图上排斥对方。短期看,Google 和亚马逊不太可能分出胜负,也不太可能使用对方的系统。这是非常有意思的一种局面,过去在行业早期巨头就同时关注某一行业的先例不是没有但并不能形成相对势均力敌的竞争,比如 Windows+Nokia 与 Android 阵营的竞争。但这次在行业早期所有的巨头都关注这个点,每家背后都近乎拥有无尽的资源。所以战况一定会比想的还要激烈。

作为结果我们可能会在较长的时间内面临多 OS 并存的局面。

高通这样的芯片公司位置在哪里

每次人机交互的变革必会引起 OS 的变革,这至少在过去两次产品大升级中得到了验证。从命令行到图形用户界面促成了 Windows 这样的操作系统,而从键盘鼠标到触屏则促成了 iOS 和 Android。所以我们有理由相信这次远场语音交互一样会引起 OS 层面的变更。在这背景下看高通这类芯片公司的角色和行为就特别有意思。

高通最近推出了一款 SoC,让 IPQ40x8/9 支持阵列算法,从各方报道来看应该是通过 DSP 来实现的。高级副总裁 Rahul Patel 则说:有可能 Echo 的语音功能都会被整合进 AP,这是新的趋势。这样一来有些传统厂商比如科胜讯确实会难过,因为过去一般是它们搭着高通等来实现一组功能,这下高通把事情全干了,相当于它们不太好找到自己的位置了。

但高通干的事其实并不对路,放在整个人机交互变革的背景下看就相当于需要回答:OS 适合放到芯片里面吗?

OS 显然不能放芯片里,算法是可以放芯片里的,但算法是远场语音交互的一个部分,并且不太适合切割出来。

这可以拿唤醒做例子进行说明,实现唤醒的时候通常需要与最终产品的亮灯相关联。这样一来首先要有降噪算法提高唤醒率,然后训练过的唤醒模型监测周围的声音,一旦检测到唤醒词时,要反馈出特定的角度,这个角度信息再传递给系统,系统才知道 Echo 上面那一圈灯究竟应该亮那个。显然的在这个场景下,算法、消息、硬件控制彼此交织在一起,这是 OS 的范畴,但并不是芯片的范畴。

一般来讲这类彼此间的消息越多,OS 对外呈现出的功能也就越强大。这样的一种系统显然不可能放芯片里。唯有部分算法是可以放芯片里的,但在行业早期这样其实并没太大价值,一是算法并未稳定仍然需要持续提高,一是这种芯片集成算法的方式反倒会降低整个系统的灵活程度。假设 A 公司想做一款叫 X 的产品,其未来衍生产品为 Y,那当然它希望用统一架构实现这两者,而 A 公司显然也不希望这种实现只能用高通的某几款芯片,而希望在更宽的范围内进行灵活选择。

微信上很多人看到高通干这事会很震惊等等,觉得会对行业产生如何如何的影响,但实际上并没有意识到高通其实选了条歪路。高通在语音交互这事上应该是一直没太想清楚,它并不是第一次干与语音交互相关的事(JAN 6, 2016 就做过类似的发布),但似乎每次最终都会无疾而终。

这样一来芯片公司的角色就非常清楚:芯片公司在远场语音交互这场 PK 中会是受益者,但显然不能发挥主导作用。这与 PC 或手机刚启动的时候状态非常不一样。那个时候如果没有 Intel、高通一代代赋能,PC 或手机这样的产品是没办法一代代升级的。也就是说芯片公司是在关键路径上。但眼下已有各种芯片其计算能力是足够的,而交互方式本身与操作系统融合更紧。

高通与苹果会给远场语音交互带来什么

虽然苹果的产品不一定立刻就大卖,高通的 SoC 估计也掀不起什么浪花,但他们确实会为这个赛道注入更多的信心。 

就像触屏影响了所有的设备一样,远场语音交互也一定会影响所有设备。这就为市场提供了足够多的新机会。

在巨头的带动下,已有产品品类会普遍进行升级,汽车、手机、PAD、笔记本、电视、玩具、摄像头、耳机等。而新的产品品类也会持续出现,比如讯飞经常展示的翻译机、电话会议系统等。

产品大升级的同时也会催生方案提供商上的需求。声音的冷僻程度要远比当年做手机时的系统定制为甚,复杂程度也会远超此前的手机。在有的场景它可能对功耗提出极高的要求,在有的场景,它可能更多的是挑战性价比。这点通过了解声智科技推出的各种方案可以获得更为直观的体验(http://www.soundai.com)。不再一线的人很难理解这种复杂度是如何导入的,因为理论上似乎像高通那样把算法与芯片相结合,所有的问题就应该解决了。但实际上这样是不行的,因为从算法和芯片到具体能落地的产品中间还有着很大的距离:麦克风数产生距离、阵型产生距离、计算结构也产生距离、新需求的持续发生等也会导入类似的问题。

但这个层次确实具有高度不确定性,是会出现 MTK 那种提供 Turnkey 方案的公司,还是会出现新的 OS,或者 OS 会有什么新的变种,亦或者会长期多 OS 并存?

小结

短期来看高通、苹果的入局实质影响不大,更多的是在信心层面。两个显然的后果里:一个是高度确定的,那就是远场语音交互必成;一个则具有高度不确定性,传统的 OS 一层上到底会发生什么?

100 + 优质展位,1000 + 传统供应链玩家,全球顶级技术方案商悉数亮相,帮企业实现 AI 技术方案快速对接,掘金万亿 AI 产业!高端资源、优质展位、名额有限,再不申请就没了!电话或微信联系方式:15013779392