欢迎来切磋，拍砖更喜欢 |【AI智能音箱之夜】观众问题答案回复

芯世相 · 公众号 · · 2017-09-29 08:56

正文

点击上方“ 芯世相 ”，选择“置顶公众号”

上周四【AI智能音箱之夜】，收集了将近60个问题，没有办法在现场一一回答，现在已经全部回答好了，整理如下，欢迎留言探讨，拍砖更喜欢

本次问题的整理与回复工作，由开源硬件社区【思享国】负责完成，欢迎关注！

天下方案一大抄， 要抄就抄最好的

与好方案死磕到底

Q：TTS，到底选择用拼接还是参数，哪种更有优势？

答： 拼接法 ，即从事先录制的大量语音中，选择所需的基本单位拼接而成。这样的单位可以是音节、音素等等；为了追求合成语音的连贯性，也常常用使用双音子（从一个音素的中央到下一个音素的中央）作为单位。拼接法合成的语音质量较高，但它需要录制大量语音以保证覆盖率。拼接法需要语音学标注系统，需要对文本进行标注，如果分词错误，语言学标注错误，拼接法就会出错。优点是听起来很自然毕竟是真人的声音。

参数法 ，即根据统计模型来产生每时每刻的语音参数（包括基频、共振峰频率等），然后把这些参数转化为波形。参数法也需要事先录制语音进行训练，但它并不需要100%的覆盖率。参数法合成出的语音质量比拼接法差一些。它其实是一个文本抽象成语音学特征，再用统计学模型学习出来语音学特征和其声学特征的对应关系后，再从预测出来的声学特征还原成 waveform 的过程。核心是个预测问题，有若干统计模型可以解决，目前主流是用神经网络用来预测。然后用声码器 (vocoder) 生成波形，实现特征到 waveform 这最后一步。这种思路缺点是，听起来不自然，因为最后输出的是用声码器合成的声音，毕竟有损失。优点是，对于语音库里的标注错误不敏感，因为预测时候是学的是一个统计模型。

签于以上取两种思路的优点，混合的语音合成解决方案。用基于参数的语音合成系统预测声学上最匹配的音素后，再从库里把它找出来。业界基本上是用这种，合成效果融合两种思路的长处，效果最优。

其实还有第三种思路 。用神经网络直接学习文本端到声学特征这一端的对应关系，这就直接省去了第一步，不再需要语言学标注系统标注文本了。这就是 Google 的 Tacotron。不过最后还是要需要声码器。再或者，用神经网络直接学习语言学标注端到帧级别的 waveform 端的对应关系，这就直接省去了最后一步，不再需要声码器了。这就是 DeepMind 的 WaveNet。不过第一步还是需要语言学标注系统。

Q：麦克如何选择，ECM和mems，数字或者模拟？

答：麦克风的噪音源来自若干个方面：偏置电压波动引起的电子噪声，FET噪声，板级噪声，振膜的声音自噪声，以及被耦合到FET的高阻抗输入的外部电磁(EM)场和射频(RF)场。详述如下：

当安置有ECM（Electret Condenser Microphone，驻极体电容麦克风）的系统靠近带有功率控制的射频发射器时（譬如手机），功率控制产生的RF信号的音频成份可通过麦克风解调，并转换为可闻于音频路径的声音信号。
ECM信号放大电路中由FET的高阻抗栅极来调校发射功率放大器的门限(在音频频段内出现)并放大信号。这种信号一旦进入音频频段，是很难消除的。
电源电压波动也是音频系统中最常见的噪音源。作为低敏感度的ECM，它的输出是一个10mVrms数量级的很小的模拟信号。由于ECM没有任何电源抑制能力，很小的电源电压波动就将导致间歇性噪音。
ECM还带来了机械设计方面的挑战。因为ECM不仅能够检测声音信号，还能检测出机械振动，并最终把振动转换为低频声音信号，这样，当ECM被置于振动环境（比如安装在电风扇或大型喇叭附近的电路板上)时，振动将成为音频系统的主要噪音源。

MEMS麦克风的优势：
MEMS麦克风是利用硅薄膜来检测声压的，MEMS麦克风能够在芯片上集成一个模数转换器，形成具有数字输出的麦克风。由于大多数便携式应用最终都会把麦克风的模拟输出转换为数字信号来处理，因此系统架构可以设计成完全数字式的。这样一来，就从电路板上去掉了很容易产生噪音的模拟信号，并简化了总体设计。

与传统的ECM麦克风相比，MEMS麦克风具有以下优势：
制作工艺具有很好的重复性和一致性，从而保证每颗硅麦克风有相同的优秀表现。
声压电平高，且芯片内部一般有预放大电路，因此灵敏度很高。
频响范围宽：100～10KHZ
失真小：THD<1%(at 1KHZ,500mV p-p)（Total Harmonic Distortion，总谐波失真）
振动敏感度低：<1dB
优异的抗EMI和RFI特性
电流消耗低：150A
耐潮湿环境和温度冲击。
耐高温，能够使用波峰焊。
能够经受振动、跌落、撞击等机械力和温度冲击。

MEMS麦克风具有半导体产品的种种优点，解决了ECM所无法解决的许多困难。其中最为重要的一个特性是，MEMS麦克风容易实现数字化，从而削除了传输噪音。MEMS麦克风用途广泛，目前主要应用在手机中，数码相机、MP3播放器和PDA、耳机和助听器等领域也正在从ECM向MEMS过渡。

由于篇幅限制，还有剩下50几个问题可扫码至 【思享国官方论坛】 查看详细答案，并且欢迎沟通交流或拍砖哦

AI音箱的痛点是什么?
AI音箱生态如何构建？
语音识别的结果可以定制吗？
智能音箱的代工厂有哪些？
如何让消费者喜欢用智能音箱？
使用Ai音响的人物画像是什么样的？
用户的体验成本是多少？
现在智能音箱里的麦克阵列主流算法有哪些？
在语音拾取方面的语音增强、降噪等方面有哪些比较好的解决方案？
智能语音音箱会代替蓝牙吗？
智能语音音箱明年会上升吗？
小米299的单价，其他厂家怎么整？
为什么现在大多数智能音响都做成立起来的，接受信号吗？
为什么智能音响定价这么低？
为什么智能音响一定要给它名字-指令可以工作？
亚马逊echo推动市场花了近三年，达成千万级，中国市场培育需要几年能达到呢?
中国市场谁会是领头羊? 阿里?
中国的ODM代工厂商前三个是谁?各有什么长短?
传统声学处理的空间还有多大？
您认为智能音箱和智能穿戴类产品相比哪一个市场会更大
您认为现阶段最有可能先有突破性应用的AI是哪一方面，像扫地机一样能够变成切实存在的家用需求？
智能音响的电路方案设计商有那些较有名的？
请问如何看待智能音箱和智能电视在智能家居入口之争中各自的优劣势？
目前行业的语义理解处于哪个阶段？
AI智能音箱有可能成为未来智能接入的基础设备单元么？
什么才叫智能音箱？
带通讯模块的音箱有哪些作用？
智能音箱会有多火爆？
智能音箱除用于娱乐，查询等功能外。无疑也会成为智能家居的一个入口，请问这方面的现状是什么样的？
我是生产无线话筒的厂，有一套配合全民K歌的系统，已包含网络点歌，DSP音效，无线麦克风，能否做一款大功率的智能音箱？
是否可提供完善的智能音箱方案？
Barge-in要求的Reference信号应该怎么取？（PA自身回采、ADC采样、I2S回传、AP内部loopback？）
我国在AI与图像处理领域的研发有什么新的进展？
AI音箱会不会起量？
AI音箱对技术要求高不高？成熟不？
AI智能如何与传统的LED照明产业相结合？
智能音箱的音源如何解决？
智能音箱发展趋势是以移动便携式为主吗？
目前各大巨头以智能音箱作为智能家居的控制终端，但市面上还有很多终端应用例如机器人，中控面板，魔镜。想请教一下以目前智能音箱发展的状况来看，未来智能家居市场的终端控制是否会收敛成以智能音箱为唯一端口的局面，还是各方势力割据的局面？
AI音箱在家庭环境，到底用几个麦克风阵列即可？
AI智能音箱的芯片和软件供应商有吗？能够提供一些供应商的联系方式吗？
达到何种程度的智能化？
麦克风阵列成本如何？
国内各家语音识别引擎的优劣？
AI音箱能实现远距离拾音吗？
周边有其他人也在说话如何区分？
目前主要的研发方案公司？
现在市场上最畅销的方案是什么？

本次活动已分享内容：

欢迎来切磋，拍砖更喜欢 |【AI智能音箱之夜】观众问题答案回复

正文

请到「今天看啥」查看全文