在智能语音助理领域的竞争中,Siri 握有一项优势,那便是本土化。据悉,Siri 支持 36 个国家的 24 种语言。相比之下,谷歌的智能语音助理只掌握 5 种语言,而亚马逊的 Alexa 就只会英语和德语。
在即将到来的 iOS 10.3 中,据称还将增加对上海话的支持。在接受路透社采访时,苹果语音团队的负责人 Alex Acero 透露了 Siri 是怎样学会一门新语言的。
在开始引入一门新语言之前,苹果会让熟悉该语言的人进行各种段落和单词阅读,过程中会夹杂着许多口音或方言。这些生成语音将由另一部分人进行记录和转录,以确保用词的规范性和语音识别的准确性。随后用于训练的原始语音将被输入机器算法训练模型。
苹果会构建一个语言模型试图对单词序列进行预测。在正式升级 Siri 之前,苹果将在 iOS 和 macOS 上推出新语言的听写功能,以便于公司收集并匿名化采用部分苹果用户的录音来作为语音样本。
在这些语音中,难免会出现背景杂音,而这些样本同样需经由人工进行转录,再将语音样本与转录文字相互比对着进行训练,据 Alex Acero 称,这样可使识别错误率降低至少一半。
收集足够的数据后,苹果便会让一人或多人进行语音录制,Siri 便多学会了一门语言,此后每两周苹果都将对其数据库进行更新。