选自bloomberg
作者:David Ramli等
机器之心编译
参与:微胖,朱思颖
百度有 1300 多名员工在从事诸如深度学习之类的技术研究。在过去 2 年半的时间内,百度在研究和开发上投入了超过 200 亿元的资金,其中大部分资金用于人工智能。
2016 年 12 月 6 日,数千名翻译人员涌入百度在中国各地的办公室,苦心孤诣地将外文手册、信件以及技术指南翻译成中文。这场翻译马拉松持续了整整一个月,翻译员们每天需要翻译 15 个小时。为百度提供翻译外文材料的客户以廉价的价格拿到了专家水平的中文译文。但是百度,这家总部设在北京并组织了这场大规模翻译的公司收获了更有价值的东西:数百万的英-中词对,可用于训练公司的在线翻译引擎。
中国以仿制品「闻名于世」,无论是奢侈手袋还是互联网创业公司。但是,中国的领导人似乎明白,在人工智能面前,廉价的仿制品是没有竞争力的,何况竞争对手包括众科技巨头:Alphabet,Facebook,IBM 以及 Microsoft。今年二月份,中国国家发展和改革委员会任命百度——常被称为中国的谷歌——牵头组建新的人工智能实验室,这一举动表明北京(中国政府)相信百度是国内这一领域的老大。
上个月,百度联合创始人兼首席执行官李彦宏在人工智能实验室挂牌发布会上表示,在过去 2 年半的时间内,百度在研究和开发上投入了超过 200 亿元的资金,其中大部分资金用于人工智能。但是,国家利益并不是他的主要动力:去年,百度收益增长幅度从前三年平均 30% 多跌至 6%。搜索广告业务,在上一财政年度(截止去年 12 月 31 日)为销售额贡献了 705 亿元,目前,正陷于本土竞争对手的围攻之中。去年 9 月,Emarketer 报告显示,阿里巴巴集团控股公司已经取代百度成为中国数字广告市场的领先者。百度希望人工智能能够帮助其收回在搜索市场份额,同时确保新投资领域获得成功。
百度在 CES 上展示的小鱼,一种声控机器人
这家已经成立 17 年的公司尝试多样化业务的效果可谓喜忧参半。过去 12 个月(截止 2017 年 2 月)百度团购网站糯米日访问量下降了 59%;中国国际金融公司分析师 Natalie Wu 分析,百度外卖业务在外卖服务中位居第三。与 Netflix 类似的流媒体服务爱奇艺非常流行,但是,需要投放 120 亿元购买今年的内容(香港中国文艺复新证券公司分析师 Ella Ji 预测)。
这些颤颤巍巍的努力意味着百度推进人工智能正扮演着更加重要的角色。「移动互联网时代已经结束,」李彦宏在 3 月 10 号的一次采访时说道。「我们将大力投资人工智能领域,我认为人工智能将会让很多人受益,也会变革一个又一个行业。」
今年 1 月,公司任命前微软高管陆奇担任 COO,受命利用诸如深度学习、增强现实以及图像识别等技术重塑百度。他携手百度首席科学家吴恩达,吴恩达是斯坦福学者,2014 年加入百度前曾在 Alphabet 深度学习团队工作。在吴恩达的引领下,公司的人工智能团队(分布在北京、深圳、上海以及加州 Sunnyvale 等地)已经壮大到 1300 多人,下一年有望再增加几百人。吴恩达说,「很多技术是中国发明的,也有很多是美国发明的。结合两国人才资源,我们看到了最新趋势。」
2014 年 5 月的一天,Sunnyvale 研究中心成立,吴恩达和他的高级助理 Adam Coates 坐在一张白色书写板前面,敲定他们的第一个项目。在列出所有可能(以及挑战)后,他们敲定语音识别作为一系列其他产品的基石。
2015 年年中,一支 50 人的团队已经研发出 Deep Speech 产品,它能解码英语表达。这款软件的解析方式不是一个单词一个单词地拆开短语,而是通过海量语言数据进行解析,探索其中模式,亦即所谓的深度学习。吴恩达表示,较之依赖词汇列表和注音词典的传统引擎,该系统能够更加准确地转录语音,因为系统是根据语词的上下文来确定它的意思。
但是,将那些随着时间推移逐渐融入英语词汇的外语语词和名字总是给百度出难题。吴恩达从斯坦福招来的研究人员 Coates 说,「如果你说的是『请演奏柴可夫斯基(Play music by Tchaikovsky)』,软件的回答是『Play music and try cough ski』,」「我们将这类问题称为柴可夫斯基问题。」百度的程序员没有简单地将「柴可夫斯基」添加到系统词汇清单中,而是不得不帮助 Deep Speech 自己理解(柴可夫斯基)这个单词。这个过程需要给系统输入更多的数据,将单词置入上下文中(进行理解)。百度自然语言处理部门的副主任 Shiqi Zhao 回忆道,当他还是哈尔滨工业大学计算机科学专业的学生时,当时研究计算机翻译,仅有 200 万对英译汉词汇数据量;百度现在有 1 亿。不过,相比 Alphabet 的 5 亿数据量(根据 2016 年《科学》上一篇报道美国公司研究科学家之一 Quoc V. Le 文章中提到的数据)还是逊色很多。
为了帮助缩小差距,百度采取了一种古老的策略:人海战术。如今,公司全年协助人工翻译,还定期举办马拉松赛事,比如每逢 12 月某天都会举办一场这样的活动,为客户提供奖品,比如智能手机,净水器。通过这些举措收集到的数据有助于改善百度翻译引擎的表现,也有利于推进 Deep Speech 的研发工作。
2016 年 7 月,随着 TalkType 的发布,Sunnyvale 团队开发的软件驶入商业化。TalkType 是一款带有语音到文本的键盘应用程序。这项技术已被融入其他百度产品,包括类似 Siri 的语音助理 DuMi 以及 DuEr。融入 Deep Speech 的机器学习技术也正帮助公司将智能赋予其他产品,让这些产品变得富有生气。比如,它也是小鱼在家(百度在 1 月份拉斯维加斯的 CES 上展示的声控机器人,类似亚马逊的 Echo)的秘密武器。
百度的网站资产让公司有机会获取中国最大也最详细的消费者数据集之一,至少在理论上,这能赋予公司打造人工智能产品与服务的本土优势。也多亏糯米和百度外卖,公司知道了中国家庭喜欢吃什么和买什么,与此同时,携程(中国第二大的在线旅行代理商)了解到中国人喜欢去哪儿度假。每个月,6.65 亿智能手机用户使用移动应用程序和门户,与此同时,3.41 亿用户使用百度地图指导他们抵达目的地。HSBC Holdings Plc 的分析师 Chi Tsang 表示,将人工智能理解为一种产品是错误的。它是支撑产品、让产品成为现实的东西。想想所有使用案例吧!
新的人工智能产品还没有对百度的底线(亦即:百度 1300 人的人工智能团队正在编写软件,改变从翻译到外卖等一切。)做出多大贡献。不过,百度在这一领域新兴专业技术会帮助公司在一些领域取得优势地位,比如云计算,自动驾驶汽车。公司总裁张亚勤表示,「在未来三到五年里,所有那些领域都有潜力成为另一个百度,」「现在,是下注的时候了。」
原文地址:https://www.bloomberg.com/news/articles/2017-03-16/the-mobile-internet-is-over-baidu-goes-all-in-on-ai
机器之心编译,转载请联系本公众号获得授权。
✄------------------------------------------------
加入机器之心(全职记者/实习生):[email protected]
投稿或寻求报道:[email protected]
广告&商务合作:[email protected]