【AI智能音箱之夜】思必驰移动事业部总经理胡总分享部分文字记录

芯世相 · 公众号 · · 2017-09-25 07:59

正文

点击上方“ 芯世相 ”，选择“置顶公众号”

上周四，9月21日我们在上海张江IC咖啡总部举办了AI智能音箱之夜的活动，为了方便大家的观看，将视频剪辑成五个小段并配上文字（满满的都是干货呦）。

今天我们带来的是思必驰移动事业部总经理胡显刚胡总的分享 。

花姐的开场

芯片超人创始人-花姐

各位现场的朋友和各位直播间的朋友大家晚上好，非常感谢大家在今天来到我们的 AI智能音箱之夜，非常荣幸。在过去的三天时间，整个行业被我们的那张海报刷屏了。那张海报据我们的线上数据统计大概被点了一万多次，参与进来的朋友有六千多个，现场今天到达的朋友有一百多个。

非常神奇的是今天这次活动把这个行业链整个覆盖到了： 从芯片到原厂、从方案商到设计公司、从供应链到分销端、从终端产品到资本 ，还有很多基金的研究员加入到我们这次的活动，真的是互联网传播非常神奇的一个事件。

智能音箱最近非常的火热，缘起这次活动是因为7月26号我来IC咖啡也做了一次分享，当时只是分享了 IC分销供应链的事情，认识了一些新的朋友，在过去的一个月时间，我们一直就在攒这件事。

我们打算来讲讲AI智能音箱从芯片到方案公司再到资本方，我们一个一个的揣，让大家看到了那些海报上的那些人。待会他们会一个一个的分享，看今天我们是不是能够把这件事给他彻底的说透。

下面首先登场的是思必驰移动事业部的总经理胡显刚先生， 05年他就在移动互联网领域开始了创业，整个互联网他都经历过，现在他在思必驰，思必驰也是在智能语音输出方面的巨头之一。

胡总的分享

胡显刚 ，思必驰移动事业部总经理。 05年开始做手机行业相关的的互联网，给三星、华为、诺基亚提供操作系统及提供java信息。做过游戏、投资等。

智音泛在万物有灵

智音指智能音箱，也不只是指智能音箱，因为智能音箱它没有耳朵。智音应包含耳朵在内，未来所有的东西都会包含智音。万物在你说话时都会倾听你的声音，所以万物其实也是都有灵性的。

现代传媒学的奠基人马歇尔·麦克卢汉认为所有的人造物都是人体器官的延伸，我延伸了一下，我觉得人造的电子设备也是人体器官的一个延伸，比如所摄像头延伸了人的眼睛，麦克风延伸了人的耳朵，音箱延伸了人的嘴巴，互联网和移动互联网实际是延伸了人的大脑，它的延伸可能会比人现有的功能加强数百倍、数千倍。我们今天认为麦克风、音箱今天没有人好的地方，未来都会比人本身的功能好很多。

物联网的连接使万物都有感知，感知主要通过麦克风还有千里眼（摄像头）、顺风耳（麦克风），通过物联网和互联网使这些感知的功能会具备越来越强的人工智能，也就是我们讲得人工智能。今天我们讨论的大部分都是弱人工智能，以后可能慢慢变成强人工智能。

语音是最自然的交互方式

语音是人类最自然最古老的交互方式 ，其实不只是人类，动物与自然的交互方式大多也是通过语音来交互、交流。语音构成了人类文明的基础，人类因此可以合作、可以协作、可以共同去想象一些东西，可以建立军队、国家，可以有今天的高度的文化、科技文明。

未来带耳朵的音箱可以说无处不在 ，我们今天所看到的所有 人造物 大部分都有嘴巴、都有耳朵。三年前 Amazon Echo 出来之前，没有人说过智能音箱，亚马逊发明了智能音箱。

未来我认为智能音箱会以更多的产品形态去存在的， 未来的小孩生下来可能会生活在一个童话世界。我会跟他说猴子会说话，桌子会说话，未来可能这些都会是有灵性的。孩子们会觉得父母的只会和身边一些物体的智慧其实是差不多的，孩子们分不清楚以前，身边的物体是不会说话的，孩子们可能以后会永远生活在童话的世界里。

语音识别不断取得突破

1952年 贝尔实验室 了的 Davis 发明了一套软件系统，这套系统可以识别10个英文数字发音，但是只能识别他本人，其他人的声音识别不了。

1990年 IBM 抛弃了原来的一些专家通过模式、文法的方式，采用了统计模型的方法推动语音识别真正的产业化。

真正使智能语音大发展是剑桥大学 HTK 智能语音的开源的项目，今天的所有公司，包括 Facebook 、 Google 、微软都是在这个基础上去在迭代、去开发的。

很荣幸，我们 思必驰的技术其实是来自剑桥大学 ，我们的教授于凯在智能语音方面有超过二十年的研究，他当年也是HTK开源项目的贡献者之一。

2009年的时候， 深度学习+GPU 就可以处理互联网的海量语料，使语音识别大幅度提高，从以前的让人无法接受的70%~80%，一年时间迅速提高到90%~95%，基本到了一个可商用的阶段。 2016年我们思必驰的语音识别率超过了97%。

智能语音技术从云走向端

智能语音通过GPU/云端的训练 ，在手机或者音箱等侧进行使用，随着技术的发展，智能语音正从云走向端，端其实就是我们所说的终端，在终端我们会发现智能语音还是会面临各种各样的问题，比如声源定位及跟踪、远场及集外噪声环境、超低功耗语音芯片、非配合使语音交互、词汇主题及应用领域的演变、丰富的音频等。

在端的过程中， Amazon算是比较有颠覆性的 ，他们死磕了几年之后终于Echo智能音箱做的比较好，主要采用了麦阵远场识别的技术，主要包括：远场唤醒、远场增强、降噪及定向，类似于一种鸡尾酒的算法。

Apple AirPods虽然发布到现在不到一年时间，但是他革新了整个耳机行业。 现在欧美的高端耳机60%以上都被AirPods取代。AirPods也用了端的技术，比如双波成型的麦克风，语音加速的感应器，过滤背景噪音等。

华为和苹果本月都发布了新款手机，并且都是支持AI芯片的。

创新总是发生在边缘地带

一个行业总是从分到合，从分散到集中的阶段。 在现有的行业不太可能颠覆小米、华为。如果我们要创业，我们新的机会总是发生在边缘地带、没有人关注的一些地方，就是我们所谓的颠覆式创新，因为在这里面他的价值链还没有完全形成，所以说你可以重新构造产业的价值链。

我认为做创新观念在两点，也就是微笑曲线的两端， 一块是技术，一块就是市场。 在早期很多技术不成熟、但是你做的某些领域，你自己没搞定的始终有别人搞定。我觉得 产业协同才能把这个饼做大。

从整个产业链，包括从技术的维度来看的话也是在走 一个从芯片到终端到软件再到云端的一个融合智能， 这里面每一块都涉及智能的东西及算法。

思必驰公司

思必驰公司介绍

对话智能：端到端非配合自然口语交流

唤醒、识音（信号处理、降噪、增强）、识别、意图、反馈、内容、合成

7分钟定制一个能力VS四个人月（3个工程师+1个产品经理）

跪式服务：语音产业链的仆人

人才黑洞：不拘一格降人才

核心技术

【AI智能音箱之夜】思必驰移动事业部总经理胡总分享部分文字记录

正文

请到「今天看啥」查看全文