专栏名称: 程序猿
本微信公众号:imkuqin,为程序员提供最新最全的编程学习资料的查询。目前已经开通PHP、C/C++函数库、.NET Framework类库、J2SE API查询功能。
目录
相关文章推荐
程序员的那些事  ·  趣图:某些大厂“吃”企鹅 ·  3 天前  
码农翻身  ·  漫画 | ... ·  3 天前  
码农翻身  ·  Chrome背后最大的秘密:印度人拯救了Go ... ·  5 天前  
51好读  ›  专栏  ›  程序猿

搜狗CTO杨洪涛:技术+计算力+数据+产品 构筑自然交互核心竞争力

程序猿  · 公众号  · 程序员  · 2016-10-21 12:52

正文

10月20日,第一届中国人工智能技术与应用大会(CAITC)暨人工智能60周年颁奖典礼在北京召开。会上,搜狗公司CTO杨洪涛发表了主题为《打造互联网产品的自然交互》的演讲,从互联网产品体验的角度谈起,深入分析了以人工智能技术打造自然交互产品的关键因素,他表示:“技术、计算力、数据、产品的相互作用才能打造完美的自然交互体验,而语音识别和人机对话正在成为最自然的交互形式”。



 
我们如何定义自然交互?
 
杨洪涛认为,未来我们只需自然地表达需求,搜索引擎就能做出相应解答,而要达到这一步就需要“自然交互”和“知识计算”两方面技术的结合。杨洪涛解读说:“自然交互是指机器能够像伙伴站在你身边一样,无论你如何表达你的需求,甚至是只要它看着你,就能知道你想要什么。知识计算则涵盖了知识的表达、提取、推理、计算等一系列问题,这都是当前在人工智能领域尚未完全解决的问题。”
 
但其实自然交互并没有一个特别严格的学术定义,而是一个产品定义、体验定义。杨洪涛认为“更加自然的人机交互方式可以降低人的学习成本,我们不再需要学习复杂的操作方式,而是直接依靠自身本能就能与机器进行交互,进行信息输入与获取。”他以计算机和手机的发展为例进行说明,以前大家使用计算机要记住复杂的指令,后来人们发明了图形界面和鼠标,开始做到可视化的交互,而触摸屏的出现和在手机上的成熟应用,让人机交互发展更接近于自然,学习成本也更低。
 
那么,人类趋向于和机器进行怎样的自然交互呢? 2016年“互联网女皇”玛丽·米克在《互联网趋势报告》中指出,“语音是最有效的计算输入形式。”我们在生活中会遇到在开车、走路等不便使用双手输入的场景,这些场景中基于人与人之间自然语言沟通的交流方式就成了人机交互的最佳选择。该报告还指出,2015年,美国使用过语音助手的用户比例已经达到65%;使用语音的用户中,43%是在家中使用。
 

目前虽然已经有了很多基于语音识别的人机交互应用,但不仅口音、噪音等因素导致语音识别准确率无法让人满意,人们自然的发问方式、打断、插话等也难以避免……杨洪涛指出,这类问题实际上就是用户的真实痛点。
 
针对这种问题,杨洪涛展示了搜狗语音的一段实录产品DEMO,用户模拟视频中的司机,直接使用方言告诉机器手机号码,机器不仅能正确识别用户的口音,还能针对用户的“打断式”修改需求做出及时响应。例如当机器正在复述确认号码时,用户使用非常自然的纠错方式打断,告诉机器“不对,是幺三八”时,机器也能快速将此前识别的“135”修改为“138”。整个人机交互过程已趋向于人类直接流畅的自然交流。杨洪涛表示,“语音正在成为最自然的交互形式,搜狗也在这方面也取得了一定的成绩。比如搜狗输入法的语音修改功能,解决了用户在各种不便于使用双手进行修改的情况下的痛点,用户直接说出‘将弓长张改为立早章’,机器就能识别并进行修改,从而为自然交互找到更多实际应用场景。当然对于还存在的许多尚未解决的问题,我们也在不断研究更好的解决方案。”
 
 
自然交互的四大核心元素 技术+计算力+数据+产品
 
杨洪涛认为,自然交互本身就是一种人工智能技术,而为了做到对消费者有价值,能够真正以产品的方式满足用户需求,而非停留在实验室中的AI,则有四大元素不可忽视,杨洪涛将其总结为“技术、计算力、数据、产品”。
 

技术方面,很多大学、科研机构、学者个人都将技术研究成果进行了开源,能够使最前沿的技术得到广泛的应用,更多在系统结构和数据规模上去推进各自的差异发展。杨洪涛表示,搜狗也在不断对所使用的技术进行改进:比如语音输入利用到的CLDNN和CTC技术,以及在此基础上做出的很多改进;此外搜狗还在将深度学习的技术应用到输入法中做出创新。今年4月,搜狗捐资1.8亿元,与清华大学共建天工智能计算研究院,技术研发水平得到进一步的提升。
 
在计算力方面,杨洪涛指出目前计算力的发展已经在呈指数级进步。“库兹韦尔定律描述了技术的指数发展,晶体管密度可能有局限,但还有架构和算法的进步等。对于从业者而言,计算力的成本越来越低。”技术与计算力的解决,使得互联网产品享受到越来越多的红利
 
关于数据,杨洪涛认为,数据是人工智能技术得以在产品中落地的基石,要以好产品建立数据生产的闭环。以搜狗语音为例,在建初期,由于缺乏语料数据,搜狗团队调用了谷歌的语音识别接口,字错误率处在较高水平。但因为搜狗输入法语音用户规模迅速扩大,不断地积累语料数据并投入技术的自研,第一代自有的语音识别引擎字错误率已经低于谷歌。随着新技术的进步,目前准确率已经达到97%。今天,搜狗输入法已经覆盖超过5亿用户,市场占有率高达97%,单日语音输入频次超1.8亿次,大量的语料成为“新能源”,带来语音识别的效果持续提升。
 
产品生产数据,然后再反哺到产品里面,在杨洪涛看来是一种非常重要的循环,数据与产品在这一过程中得到不断的迭代更新。他总结道,“数据是新能源,是未来商业竞争和产品竞争的核心壁垒与核心依据。”