专栏名称: 脑极体
你的困惑,来自于无路贴近未知。我们在技术、思想、传播的异界,贩来极限脑量下的TMT。
目录
相关文章推荐
中国食品药品监管杂志  ·  科普 | 把苏打水当日常饮用水,真的健康吗? ·  8 小时前  
新疆949交通广播  ·  正式开通! ·  昨天  
中国药闻  ·  “稳”了,中国“磁吸力”将更强 ·  2 天前  
51好读  ›  专栏  ›  脑极体

从万物静默到声情并茂:百度输入法的AI发声计划

脑极体  · 公众号  ·  · 2019-01-17 19:21

正文

当我们讨论AI的时候,常常会将注意力放在人类未来、城市发展、经济动能等等宏大叙事上,却往往忽略了很多日常细节中AI带来的变化。比如,输入法。


输入法早已充斥在我们生活的每一个角落,如同一双虚拟的手,为每一个人延展出恢弘多彩的网络世界。


而输入法所连接的每一条评论、每一次对话、每一段博文,都或多或少有着可以被AI所改变的地方。


在今天看来,更好的智能输入法,意味着更清晰的用户剪影,更顺滑的使用体验,也意味着更多流量和交互入口,正在技术帝国中发挥越来越重要的作用。


百度高级副总裁王海峰


如今,各大输入法厂商都在暗自发力,希望掌握更强大的智能输入技术。今天刚刚亮相的百度输入法AI探索版,就把全语音引入了输入法,让我们看到了一场值得思考的输入法技术进阶感官实验。


新渴求与新方向:

网上冲浪注定投入AI的怀抱?


在探讨百度输入法AI探索版之前,有必要先梳理一下,AI对输入法的改变到底能在哪些维度进行渗透。


比如我们能感受到,输入法行业之怪现象,就是我们能在网上冲浪的各个环节看到输入法工作的身影,而且每个头部产品的用户体量都不小,可仔细一想,却集体面目模糊,很少有明显的差异化,更不用提让人产生改变世界的兴奋感。


这样一个超级流量入口,在渠道成本持续增长的今天,是厂商们必须努力刷出存在感的必争之地。不能再依靠用户惯性混吃等死,但那些长期存在于全行业的问题并不能以常规方式克服:


比如文本输入,存在着输入效率低、词汇联想错误率高、功能个性化不足等种种问题,很难满足用户的体验需求。尤其是在大量老年人、儿童、残障人士涌入互联网之后,文本输入的弊端越来越清晰地显现出来。



这种情况下,我们希望语音输入承担起更多的工具角色,却又受困于识别准确率、NLP技术瓶颈的限制,需要投入很大的技术研发资源,决定了只能是少数硬核技术玩家的舞台。


另外,网络交互场景也前所未有地碎片化。比如儿童既有查阅资料的需求,也有游戏交流、视频直播的需求,如何同时满足不同人群多样化的交互场景且稳定可靠,非常有挑战性。


总的来说,输入法可以说是互联网世界的一面镜子,各种用户各种需求的痛点和问题在这里被集中投射出来。那么要刷出存在感的路径也就很清晰了,做出让绝大多数人能够无学习成本、多场景耦合的输入法产品。


要做到这一点当然很难,但幸好技术的发展也带来了很多命运的礼物,比如说——AI。


打造AI交互“样板间”:

声情并茂的百度AI输入法有何不同


死磕AI的百度,这次在输入法上的体验革命,堪称决绝。最清晰地体现在,这是国内首款默认全语音输入的产品,并且把表情、肢体等互动与虚拟世界相连接,形成了一种颠覆式的交互方式。


在畅想中,用语音这种最为简单、老少皆宜的方式进行输入,无疑是学习门槛最低、群体包容性最高的方式。但在现实中,很少有厂商能够如此大刀阔斧孤注一掷。


从这个角度来看,百度输入法AI探索版,无疑为AI交互技术在输入法领域的应用打造了一个独一无二的“样板间”,让AI的作用清晰地跃然眼前。


首先是语音技术上,百度的流式截断多层注意力建模(SMLTA),解决了传统Attention模型在识别中的时延性问题,成为网络大规模在线语音实时交互的现实基础支撑。百度输入法在线语音准确率依然好于最优竞品15%。


而在一些网络连续性不太强的地方,比如海外旅游、电梯地铁隧道等离线场景中,百度持续优化的Deep Peak 2系统,也能实现精准的语音输入,高于行业平均水平35%。


AI在语音方面的另外一个比较重要的能力,就是识别算法对语音特征的精准细分。基于此,百度输入法AI探索版轻松carry中英文混杂、花式普通话、中英方言口音等障碍,大大降低了“五环外人口”网上冲浪的难度,成为目前唯一实现了高精度“中英自由说”和“方言自由说”的输入法产品。



另一个AI带来的突破,在于全感官的交互成为可能。网络已经成为复杂的社交功能载体,除了文字交流之外,还可能涉及直播、虚拟人像等新玩法。但在传统输入法中,这些需求几乎很难被满足。除了硬件上的诸多限制,更多需要人脸识别、图像分割、神经迁移一类的技术。百度就结合AI技术,得到了新的解决方案,推出了拍立活、秀场、凌空手写等新功能玩法。


比如可以让宠物或偶像照片,结合用户自己的动作做出相同的表情;或者是让用户自由穿越各种虚拟场景,打破次元壁;凌空手写如同隔空打怪,在空中书写也能被流畅识别,据说目前整体识别率已达到大规模应用的要求,不失为一种新的装逼神器。


AI在产业端登场之后,我们已经见证了它在众多领域提升效率的传奇故事。从百度“第一个吃螃蟹”推行全语音的举措来看,一旦冲破识别精度和语义理解的技术瓶颈,语音输入就可以凭借绝佳的技术普适性,从“常年辅助”变成“最强王者”。而在这背后,AI作为胜负手,是毋庸置疑的。


不止于输入法:AI崛起意味着什么








请到「今天看啥」查看全文