专栏名称: 芯世相
每周一老司机原创干货长文分享!每天上午8点买卖芯片交易信息发布,芯闻分享!不能帮赚钱的芯闻都是耍流氓!
目录
相关文章推荐
环球时报  ·  39名中国人获救 ·  2 天前  
新华社  ·  一飞机在菲律宾南部坠毁 ·  2 天前  
数据分析与开发  ·  取代数据岗,某司数据从业人员已集体转行.... ·  3 天前  
新闻晨报  ·  痛惜!李锋博士遭遇意外离世,年仅48岁 ·  3 天前  
51好读  ›  专栏  ›  芯世相

【AI智能音箱之夜】思必驰移动事业部总经理胡总分享部分文字记录

芯世相  · 公众号  ·  · 2017-09-25 07:59

正文


点击上方“ 芯世相 ”,选择“置顶公众号”


上周四,9月21日我们在上海张江IC咖啡总部举办了AI智能音箱之夜的活动,为了方便大家的观看,将视频剪辑成五个小段并配上文字(满满的都是干货呦)。


今天我们带来的是思必驰移动事业部总经理胡显刚胡总的分享




花姐的开场

芯片超人创始人-花姐


各位现场的朋友和各位直播间的朋友大家晚上好,非常感谢 大家在今天来到我们的 AI智能音箱之夜, 非常荣幸。在过去的三天时间,整个行业被我们的那张海报刷屏了。那张海报据我们的线上数据统计大概被点了 一万多次 ,参与进来的朋友有 六千多个 ,现场今天到达的朋友有 一百多个。


非常神奇的是今天这次活动把这个行业链整个覆盖到了: 芯片到原厂、从方案商到设计公司、从 供应链到分销端、从终端产品到资本 ,还有很 多基金的研究员加入到我们这次的活动,真的是互联网传播非常神奇的一个事件。


智能音箱 最近非常的火热, 缘起这次活动是因为7月26号我来IC咖啡也做了一次分享,当时只是分享了 IC分销供应链 的事情,认识了一些新的朋友,在过去的一个月时间,我们一直就在攒这件事。


我们打算来讲讲AI智能音箱从芯片到方案公司再到资本方,我们一个一个的揣,让大家看到了那些海报上的那些人。待会他们会一个一个的分享,看今天我们是不是能够把这件事给他彻底的说透。


下面首先登场的是 思必驰移动事业部的总经理胡显刚 先生, 05年他就在移动互联网领域开始了创业,整个互联网他都经历过,现在他在思必驰,思必驰也是在智能语音输出方面的巨头之一。



胡总的分享


胡显刚 思必驰移动事业部总经理。 05年开始做手机行业相关的的互联网, 给三星、华为、诺基亚提供操作系统及提供java信息。 做过游 戏、投资等。

01

智音泛在 万物有灵


智音指智能音箱,也不只是指智能音箱,因为智能音箱它没有耳朵。 智音应包含耳朵在内,未来所有的东西都会包含智音。万物在你说话时都会倾听你的声音,所以万物其实也是都有灵性的。


现代传媒学的奠基人马歇尔·麦克卢汉认为所有的人造物都是人体器官的延伸, 我延伸了一下,我觉得人造的电子设备也是人体器官的一个延伸, 比如所摄像头延伸了人的眼睛,麦克风延伸了人的耳朵,音箱延伸了人的嘴巴, 互联网和移动互联网实际是延伸了人的大脑, 它的延伸可能会比人现有的功能加强数百倍、数千倍。我们今天认为麦克风、音箱今天没有人好的地方,未来都会比人本身的功能好很多。


物联网的连接使万物都有感知,感知主要通过麦克风还有千里眼(摄像头)、顺风耳(麦克风),通过物联网和互联网使这些感知的功能会具备越来越强的人工智能,也就是我们讲得人工智能。今天我们讨论的大部分都是弱人工智能,以后可能慢慢变成强人工智能。



02

语音是最自然的交互方式


语音是人类最自然最古老的交互方式 ,其实不只是人类,动物与自然的交互方式大多也是通过语音来交互、交流。 语音构成了人类文明的基础,人类因此可以合作、可以协作、可以共同去想象一些东西,可以建立军队、国家,可以有今天的高度的文化、科技文明。


未来带耳朵的音箱可以说无处不在 我们今天所看到的所有 人造物 大部分都有嘴巴、都有耳朵。三年前 Amazon Echo 出来之前,没有人说过智能音箱,亚马逊发明了智能音箱。


未来我认为智能音箱会以更多的产品形态去存在的, 未来的小孩生下来可能会生活在一个童话世界。我会跟他说猴子会说话,桌子会说话,未来可能这些都会是有灵性的。孩子们会觉得父母的只会和身边一些物体的智慧其实是差不多的,孩子们分不清楚以前,身边的物体是不会说话的,孩子们可能以后会永远生活在童话的世界里。



03

语音识别不断取得突破


1952年 贝尔实验室 了的 Davis 发明了一套软件系统,这套系统可以识别10个英文数字发音,但是只能识别他本人,其他人的声音识别不了。


1990年 IBM 抛弃了原来的一些专家通过模式、文法的方式,采用了统计模型的方法推动语音识别真正的产业化。


真正使智能语音大发展是剑桥大学 HTK 智能语音的开源的项目,今天的所有公司,包括 Facebook Google 、微软都是在这个基础上去在迭代、去开发的。


很荣幸,我们 思必驰的技术其实是来自剑桥大学 ,我们的教授 于凯 在智能语音方面有超过二十年的研究,他当年也是HTK开源项目的贡献者之一。


2009年的时候, 深度学习+GPU 就可以处理互联网的海量语料,使语音识别大幅度提高,从以前的让人无法接受的70%~80%,一年时间迅速提高到90%~95%,基本到了一个可商用的阶段。 2016年我们思必驰的语音识别率超过了97%。



04

智能语音技术从云走向端


智能语音通过GPU/云端的训练 ,在手机或者音箱等侧进行使用,随着技术的发展,智能语音正从云走向端,端其实就是我们所说的终端,在终端我们会发现智能语音还是会面临各种各样的问题,比如声源定位及跟踪、远场及集外噪声环境、超低功耗语音芯片、非配合使语音交互、词汇主题及应用领域的演变、丰富的音频等。


在端的过程中, Amazon算是比较有颠覆性的 ,他们死磕了几年之后终于Echo智能音箱做的比较好,主要采用了麦阵远场识别的技术,主要包括:远场唤醒、远场增强、降噪及定向,类似于一种鸡尾酒的算法。


Apple AirPods虽然发布到现在不到一年时间,但是他革新了整个耳机行业。 现在欧美的高端耳机60%以上都被AirPods取代。AirPods也用了端的技术,比如双波成型的麦克风,语音加速的感应器,过滤背景噪音等。


华为和苹果本月都发布了新款手机,并且都是支持AI芯片的。

05

创新总是发生在边缘地带


一个行业总是从分到合,从分散到集中的阶段。 在现有的行业不太可能颠覆小米、华为。如果我们要创业,我们新的机会总是发生在边缘地带、没有人关注的一些地方,就是我们所谓的颠覆式创新,因为在这里面他的价值链还没有完全形成,所以说你可以重新构造产业的价值链。


我认为做创新观念在两点,也就是微笑曲线的两端, 一块是技术,一块就是市场。 在早期很多技术不成熟、但是你做的某些领域,你自己没搞定的始终有别人搞定。我觉得 产业协同才能把这个饼做大。


从整个产业链,包括从技术的维度来看的话也是在走 一个从芯片到终端到软件再到云端的一个融合智能, 这里面每一块都涉及智能的东西及算法。


思必驰公司

01

思必驰公司介绍


对话智能:端到端非配合自然口语交流

对话智能:端到端非配合自然口语交流

唤醒、识音(信号处理、降噪、增强)、识别、意图、反馈、内容、 合成

7分钟定制一个能力VS四个人月(3个工程师+1个产品经理)

跪式服务:语音产业链的仆人

人才黑洞:不拘一格降人才

02

核心技术








请到「今天看啥」查看全文