专栏名称: 网易科技
网易科技频道,有态度的科技门户。
目录
相关文章推荐
生命的智慧  ·  Nature | ... ·  3 天前  
新浪科技  ·  【#iPhone16遭印尼封杀# ... ·  3 天前  
新浪科技  ·  【#网传饿了么外卖员从26楼扔猫致死# ... ·  4 天前  
雷科技  ·  纯血鸿蒙,离不开这群可爱的人 ·  1 周前  
51好读  ›  专栏  ›  网易科技

百度全部身家押宝AI 拥有"国家冠军"气质

网易科技  · 公众号  · 科技媒体  · 2017-03-17 18:13

正文

网易科技讯3月17日消息,据彭博社报道,2016年12月6日,中国大陆成千上万的翻译走进各地办公室,将无数外语小册子、信件以及技术手册翻译成汉语。这场翻译马拉松持续了整整1个月,每天的翻译工作持续15个小时。提供材料的客户可以按照合同价获取原件的专家级中文译本。但是组织这场大规模翻译行动的百度公司却获得更有价值的东西:数以百万计的英语-普通话词对,用以训练其在线翻译引擎。

在人工智能(AI)领域,这家中国公司正面临Alphabet、Facebook、IBM以及微软等科技巨头的竞争。2017年2月份,中国发展和改革委员会指定百度领导新的AI实验室,这标志着中国政府认为百度公司在这个领域拥有“国家冠军”的气质。百度联合创始人兼首席执行官李彦宏在AI实验室2月份成立当天表示,在过去2年半时间里,百度已经在研发领域投入200多亿元,大部分都投到AI研发上。

但是国家利益并不是百度投资AI的主要动机:百度2016年营收增长下降了大约6%,而此前3年平均增长率超过30%。截止2016年12月31日2016财年结束,百度公司总营收为705亿元,其中搜索广告业务占绝对多数,但正面临本土竞争对手围攻。2016年9月份EMarketer公布报告显示,阿里巴巴已经超过百度成为中国数字广告市场新的领导者。百度希望AI能帮助其重新夺回在搜索领域的霸主地位,并确保新的投资取得成功。

这非常重要,因为已经成立17年的百度曾尝试多元化努力,并产生令人喜忧参半的结果。中国国际金融有限公司分析师娜塔莉·吴(Natalie Wu)表示,在2017年2月份之前的12个月中,百度旗下团购网站糯米的每日访客数量下降了59%,其食品递送服务百度外卖也降至第三位。此外,华兴资本分析师表示,尽管类似Netflix的流媒体视频服务爱奇艺极受欢迎,但其今年需要斥资120亿元保持内容丰富。

这些步履蹒跚的努力意味着,百度对AI的推动正变得越来越重要。李彦宏在3月10日接受采访时表示:“移动互联网时代已经走向终结,我们将积极投资AI。我认为这将造福于许多人,并支持工业转型。”1月份,百度任命微软钱高管陆奇(Qi Lu)担任首席运营官,围绕深度学习、增强现实以及图像识别等技术重塑公司。此外,曾在Alphabet深度学习团队效力的斯坦福大学学者吴恩达(Andrew Ng)2014年加盟百度,目前担任首席科学家。

在吴恩达带领下,百度的AI团队(分散于北京、深圳、上海以及美国加州森尼维尔)的研究实验室已经扩大到1300人,今年有望继续增加数百人。吴恩达表示:“有很多东西是在中国发明的,也有许多是在美国发明的。通过这两个国家的民众,我们可以看到最新趋势。”

2014年5月份某日,森尼维尔研究中心开张,吴恩达与其高级助理亚当·科茨(Adam Coates)坐在空白的白板前面,确定了他们的首个项目。在勾勒出各种可能性与挑战后,他们将语言识别作为建立其他一系列产品的基础。到2015年中期,这个50人的团队已经推出名为Deep Speech的产品,它可以用英语破译许多对话。这款软件不需要逐词分隔短语,而是通过解析大量语言数据,然后推断出模式,这个过程被称为深度学习。与传统依赖词汇表和音标单词的翻译引擎相比,这套系统可以更准确地转录语音,因为它会考虑词汇的上下文语境以确定其意义。

然而有一个问题始终困扰着研究团队,那就是随着时间推移,从其他语言转来的英语词汇与姓名。科茨说:“如果你想说:‘播放柴可夫斯基(Tchaikovsky)的音乐’,软件会给出没有意义的答案。为此,我们将这种现象称为‘柴可夫斯基问题’。”百度的程序员们没有简单地向系统词汇表中添加“柴可夫斯基”,而是帮助Deep Speech自己学习理解词汇。这涉及抽取更多数据,以帮助系统在语境中加强理解。

百度自然语言处理部副主管赵世奇博士回忆称,当他在哈尔滨理工大学计算机系就读时,只有200万个英语-汉语词对可用于计算机翻译。现在,百度词对已经达到1亿个。可是,这与Alphabet的5亿词对依然相差甚远。为了缩小差距,百度采用了古老策略,即使用人海战术解决这个问题。该公司现在定期举办全年和分阶段手动翻译马拉松活动,就像2016年12月份的活动。百度为客户提供智能手机、净水器等奖品。收集的数据可以帮助增强百度翻译引擎的性能,同时帮助Deep Speech的进一步开发。

百度森尼维尔团队开发的软件于2016年7月份首次亮相,当时百度悄悄推出以语音为中心Android键盘应用TalkType。这项技术已经被整合到其他产品中,包括类似Siri的个人助理度秘。已经被百度灌输到Deep Speech中的机器学习技术,正帮助其为其他产品赋予智能。举例来说,百度曾在1月份的拉斯维加斯CES大会上展示语音控制机器人“小鱼在家”。

百度的网络资产组合为其提供了中国最大、最详细的消费者数据集之一,至少从理论上说,这会为百度研发AI支持的产品和服务带来巨大优势。拥有糯米和外卖,该公司就能知道中国家庭买了什么、吃什么。而在世界第二大在线旅游网站携程的助力下,百度也知道人们喜欢去哪里度假。每个月6.65亿智能手机用户在百度的移动门户和应用中冲浪,3.41亿人使用百度地图寻找目的地。 HSBC Holdings Plc分析师表示:“将AI认为是产品是错误的,它支撑着产品,并赋予产品更大能力。”

新的AI产品对百度的业绩贡献不大,但该公司在这个领域的新生专长可能帮助其在其他方面取得主导优势。在这些领域,百度已经拥有立足之地,同时在将其推向新的层次,比如云计算和无人驾驶汽车。百度总裁张亚勤谈及百度602亿美元的市值时表示:“在未来3到5年内,这些领域可能涌现另一个百度。现在,是时候押下赌注了!”(小小)