专栏名称: 程序猿
本微信公众号:imkuqin,为程序员提供最新最全的编程学习资料的查询。目前已经开通PHP、C/C++函数库、.NET Framework类库、J2SE API查询功能。
目录
相关文章推荐
程序员的那些事  ·  微信 Linux ... ·  3 天前  
程序员小灰  ·  朋友的新书,冲上了京东榜一! ·  4 天前  
程序猿  ·  特殊的岗位招聘 ·  6 天前  
程序员的那些事  ·  顶级项目的代码仓库404,7万多star一夜 ... ·  1 周前  
51好读  ›  专栏  ›  程序猿

搜狗杨磊知乎live分享:输入法天生就是人工智能产品

程序猿  · 公众号  · 程序员  · 2016-11-04 17:53

正文

11月3日晚,搜狗桌面事业部高级总监杨磊应邀来到知乎live,与网友分享了搜狗输入法的发展历程。杨磊博士毕业于清华大学计算机专业,自2005年加入搜狗,作为项目首位成员开始搜狗输入法的产品研发,目前全面负责输入法产品研发工作。在一个小时的分享中,杨磊分享了搜狗输入法十多年的苦辣酸甜,并就最近大热的语音识别、人工智能和商业化等问题同知乎用户进行了交流。

 


过去:“因为做输入法,我们成为最爱翻字典的人”


 
谈起搜狗输入法的诞生,杨磊仍然记忆犹新。据他介绍,搜狗在2004年推出搜狗搜索引擎后,在搜索引擎的迭代过程中,搜狗发现很多用户因为自己的输入法不好用,或者是忘了切换,会直接在搜索框里敲拼音。就此,搜狗做了这样一个功能:猜测用户输入的拼音对应的汉字是什么,给出搜索结果。事实证明,这一功能准确度很高,于是就有了输入法的雏形。十年前的2006年6月5日,搜狗发布了第一版搜狗输入法。杨磊回忆称,当时的卖点有两句广告词,第一句叫做“海量词库,超强组词”,因为搜狗使用了搜索引擎技术,当时有100亿的中文网页,其中搜狗每天会更新5亿张,在这么大规模的数据加持下,搜狗输入法的组词能力有了质的飞跃;另外一句叫做“新词热词,一网打尽”,是指基于网页的更新,新词很快会进入到搜狗输入法中,方便用户的输入。搜狗输入法的方便快捷得到了海量用户的青睐,打下了“国民输入法”的基础。
 
在组词和读音方面,搜狗输入法做了大量的工作。杨磊举了几个例子:人们吃的馄饨,其实那个字念tun(音“屯”,二声),不念dun(音“顿”,四声),所以在当时流行的输入法中,试图用hun dun输入这个词的时候是打不出来的。此外,做PPT的“模板”究竟是mu ban还是mo ban,“一模一样”究竟yi mo yi yang还是yi mu yi yang,类似这样的例子还有很多。搜狗输入法在当时创新性实现了不管用户读什么,总是能打出来正确的字词,让广大用户用起来更加方便。有一个品牌叫珀莱雅,当时找到搜狗说自己的品牌名错了,打成“铂莱雅”了,搜狗的工程师去翻字典,发现“珀”字本来的读音就是po(四声),也就是琥珀的珀,根本不念bo(音“薄”,二声),搜狗只好在后面加了个“错音提示”。之后,在翻阅最新版的汉语词典中,发现多了一行字,说珀这个字用作外来词译名的时候可以读bo(二声),这个问题才终于解决了。杨磊笑称,“因为做输入法,我们也成了最爱翻字典的人。”
 
现在:“中文输入法天生就是人工智能产品”
 
在谈及最近大热的人工智能与输入法的关系时,杨磊说:“中文输入法天生就是人工智能产品,就是在猜测用户说的是什么。”他解释道,中文的一个特点是,对语音和拼音而言,就算能听懂所有发音,也不一定能知道读音后面代表的意思,需要去“听懂”,而搜狗输入法一直在朝这个方向去思考。比如搜狗输入法的联想功能,当打完上面一个词以后可以猜测用户后面想输入的词语,这个联想的能力就是已经脱离语音的束缚,去猜测用户到底想干什么,已经具有了人工智能的理念。
 
目前大火的语音识别输入,则是人工智能的重要应用,也是搜狗极具竞争力的技术优势所在。据杨磊介绍,搜狗经过了多年的积累,在数据和算法上已经建立了显著的优势,目前搜狗语音输入法每天有1.9亿次语音请求,提供超过16万小时的语音语料,在大量数据积累和技术支撑的基础上,目前搜狗语音识别准确率已经超过了97%。此外,搜狗输入法早已把深度神经网络融入算法中,并在线上部署了GPU,以满足深度学习算法的庞大计算量。
 
未来:“人工智能只有参与到决策环节,才可能产生更大价值”
 
在杨磊看来“只有决策过程,才包含更大的价值”。输入法目前在用户的认知中还是一个打字工具,单纯的把用户的输入还原出来是没有价值的。 “我们需要做的是想到用户前面去”。
 
杨磊认为,输入本身不是用户完整的需求,用户输入的目的才是最重要的。搜狗此前在PC中开发了“心有灵犀”功能,就是去试图理解用户输入时的需求,并进行相应的关联。在移动端,搜狗输入法最近上线了 “快速分享”的功能,是向这一方向的深入尝试,产品会根据输入的内容去做猜测和推荐,例如用户输入“我想吃火锅”或者“我想吃老北京烤鸭”,系统会把相关的地点推荐给用户;用户输入想去的地方时,会做地图路径的推荐;用户输入想听的歌或想看的电影,都会得到相应的推荐信息。




此外,通过同手机厂商的合作,搜狗输入法还在部分手机中率先实现了“智能回复”的功能,通过对对话内容的理解和判断,自动为用户提供如验证码等回复信息,无需用户手动输入,同样为用户提供了更加便捷的输入体验。

 



这些持续提升的功能和产品体验,背后是搜狗不断积累的海量数据和技术创新。搜狗输入法作为国内第一大工具应用,拥有仅次于微信和QQ的数亿庞大用户群体,并同清华大学建立了校企联合的人工智能研究机构“天工智能计算研究院”,在技术、产品、用户的不断迭代反馈中得到持续提升。杨磊总结称,搜狗输入法作为搜狗“自然交互+知识计算”人工智能战略的重要组成部分之一,未来将同搜索等人工智能技术更加深入结合,创造更大的价值。