专栏名称: 左林右狸
志在为邻里提供互联网深度八卦。我们的口号是站得高,自然尿的远。欢迎和我们一起八。本账号由@林军和@banly共同维护。
51好读  ›  专栏  ›  左林右狸

左林右狸 | AI孔雀何以东南飞

左林右狸  · 公众号  ·  · 2019-09-28 22:08

正文

2017年10月11日,杭州云栖大会上“达摩院”成立


文 | 林军 陈伊莉


谁是中国第一 AI 人才天团,这个答案放在五年前是百度还是阿里,并木有定论,放在今天,就是阿里。

达摩院刚刚度过两周年生日,组织架构已经分外明晰,下设机器智能、数据计算、机器人、金融科技和 X 等研究实验室。 达摩院内超过半数科学家具有名校博士学位,相当部分是美国、欧洲学成回国,办公室分布在四个国家、八个主要城市。

如今达摩院可以说得上群星璀璨,达摩院机器智能实验室主任金榕负责的机器智能团队是达摩院里最大的一个团队,拥有 20 多位知名大学教授,近 10 位 IEEE Fellow。 比如美国普渡大学计算机系终身教授司罗是达摩院语言技术实验室负责人; 亚马逊最高级别华人科学家任小枫现在担任高德地图首席科学家、达摩院视觉智能实验室负责人; IEEE senior member 鄢志杰分管语音团队。

另外,还有美国普渡大学计算机系和统计系终身教授漆远,他不仅是蚂蚁金服首席科学家,同时也领导达摩院金融科技实验室; 犹他大学计算机系终身教授李飞飞是达摩院数据库与存储实验室负责人; 伊利诺伊大学香槟分校博士、新加坡南洋理工大学终身教授王刚负责达摩院智能交通实验室; 南加州大学计算机科学博士、现 IEEE senior member 张辉统领达摩院区块链实验室等人; 前微软研发合伙人、IEEE Fellow 周靖人就任达摩院智能计算实验室负责人。

最新的一位 AI 大牛是深度学习框架 Caffe 作者、原 Facebook 人工智能科学家贾扬清,他在今年3月履新阿里巴巴集团副总裁、阿里云智能计算平台事业部总裁。

同时,还有不少优秀的年轻人加入阿里。 据统计,2017-2019 年间,96% 的阿里星都有 AI 研究的背景,发表过多篇 IJCAI、ICCV、IEEE 等论文。 阿里星是阿里针对应届毕业生的人才储备计划,起源于 2011 年,每年都会选出 10 位技术新星重点培养。

那么,这么多 AI 人才为何都聚集到了阿里? 有邻里会说,这不就是砸钱的事情,有钱咱也行。 此言差矣,AI 人才不是萝卜白菜,不是你想买就能买的。 工业界和学术界各有各的好,学术界有一个学术休假的制度,金榕等科学家也都是通过学术休假这个制度才被阿里争取进入的。

有邻里会说,只要搞定一两个大牛,让他们把他们的师兄师弟都搞来,不就齐活了。 此言同样差矣,谷歌请李飞飞,百度请吴恩达,都是这个套路,最后吴恩达甩一甩衣袖离开,百度 AI 美研不得不再起炉灶。 李飞飞离开后,李佳也闪电离开,谷歌云中国中心也热闹不在。

众所周知的是,漆远向王坚提交的几千台服务器申请建立超大规模机器学习平台的方案在讨论之后,因为 GPU 过于昂贵被公司否决。 而“建立超大规模机器学习平台”这一重大项目最初是王坚在吸引漆远加盟 iDST 的重要条件。 对应的一个段子是,当年吴恩达之所以愿意从 Google 转会百度,是因为李彦宏答应了为吴恩达买足够多 GPU。 这说明一点,阿里不光靠提供更好的研发环境来吸引科学家。

阿里 AI 不仅人才辈出,还有一点让看客感慨不已的是,留失率奇低,这些年流失的也仅仅闵万里初敏等两三人,低于绝大多数公司的离职率。 而且即使离职,也是好聚好散,甚少芥蒂,更不会闹出风波。
在大叔看来,阿里 AI 之所以如此繁荣昌盛,形成 AI 孔雀东南飞的盛况,原因有三:
一、头雀指引

左起:王坚、胡晓明、张建锋

阿里 AI 的第一个头雀是王坚博士,这位阿里云的缔造者之前在微软亚研担任常务副院长,转会阿里后也带来了微软亚研一票人等,比如最开始的林晨曦和初敏。 初敏 2015 年又带来了其微软亚研的实习生,也是语音泰斗王仁华关门弟子之一的鄢志杰,如今达摩院语音实验室的主力担当。

华先胜和张春晖也都是王坚在微软亚研的旧部。 这两个人,性格迥异,华先胜热情似火,张春晖则是一个慢条斯理的人,前者继续在视觉智能领域深耕,目前是王坚博士城市大脑项目的重要鼓手和践行者,后者则是控制大牛,最新的头衔是菜鸟的首席科学家,之前在阿里帮助博士推动阿里云 OS 这样同样领先至少行业五年的前沿产品。

还有一人也属于微软系——周靖人博士,他于 2016 年 7 月加入阿里云,当时负责阿里云大数据平台和被并入阿里云的 iDST 残部。 如今担任达摩院智能计算实验室、大数据智能计算和搜索推荐平台负责人。

王坚指引的不仅仅是微软系,金榕和漆远这两位达摩院最有势能的资深长老当初也是受到王坚的力邀。
左起: 任小枫、金榕、华先胜

金榕 1996 年去美国就读 CMU,2003 年 PHD 毕业,同年进入密歇根州立大学任教,一直待到 2014 年加入阿里。 如前所言,美国高校有种制度叫做学术休假,每一个教授每六年有机会去工业界或其他学校做 12 个月的兼职。 金榕最初接触阿里,就是应朋友邀请作为阿里妈妈的学术顾问。

在此期间,他为阿里妈妈的广告推送机制作出了巨大贡献,将从等用户来时才计算广告推送改为提前进行广告推送的计算,优化了推荐矩阵,计算效率提升了 30%。 而这刚好应用到了金榕前一年提出的一个理论,他不禁兴奋于自己所产生的价值。 因为过去理论世界在左,学者常常自嗨得不行,实际世界在右,两界有道鸿沟,而这一次案例,让金榕的理论知识能够在实际世界真正发挥作用。 此外,阿里所提倡的,让计算成为像水、电一样普惠资源的口号也让他暗自钦佩。

学术休假的顾问期还没结束,求贤若渴的王坚发现了金榕,就把他转正了。 有意思的是,两人进行了一次可能是阿里史上最短的面试,不超过五分钟。 简单地寒暄后,王坚就问了一个问题: 你进来后准备怎么做? 金榕回答说,他发现商业和技术结合有一个很大的问题: 通常都是业务方提出问题,技术去抽象地解答,但是业务很有可能因为比较短视,提出了一个错误问题,所以一个好的技术不仅是知道怎么解决问题,更关键的是能找到正确的问题。

聊完,金榕一脸懵懂地就走了,如今想来,他还是有点奇怪王坚为什么会要他。 就像他奇怪,为什么会点他做管理者之一,他过去完全没有这方面的经验。 但是下属对于金榕确有不小的感激,一位研究员提到,金榕老师的指导往往非常细致,细致到会同他们一起推演公式。

2014 年 7 月 18 日,金榕在杭州直接正式入职,漂泊不定的兼职顾问,终于有了一个固定工位。 他 base 在西雅图,不过每年大约一半的时间都在国内,加入 iDST 的第一年几乎更是整年在杭州。

王坚连同井贤栋、程立抢在百度前截住漆远的故事广为人知,与金榕不同的是,漆远当时已经明确回国,这也是为何漆远和金榕当时在 iDST 双峰并立的原因,一个带海外团队,一个带本土团队。

蚂蚁金服首席科学家 漆远


漆远很快请来司罗,司罗 2006 年毕业于卡内基梅隆大学博士毕业后进入普渡大学计算机系任教,2012 年成为普渡大学计算机系终身教授,算漆远的同事。 司罗的研究方向是信息检索、机器学习、自然语言处理等领域,短短几年就发表了 100 余篇论文。

司罗被阿里吸引的原因与金榕差不多,他在普渡大学时就有很多和工业界的合作,对技术产品化和商业化产生了兴趣; 再加上阿里有大环境、大数据、良好的同事,他就决定加入其中。 2014 年 11 月,司罗正式加入iDST。

就这样,随着几位关键科研主力的就位,iDST 正式掀开了阿里 AI 进程的序章。
二、价值观牵领

由于有王坚阿里云成功案例在前,iDST 在被要求通过前瞻性研究来确立阿里巴巴集团在未来数十年的领先地位的同时,也被寄予了成为第二个阿里云的厚望。 关于 iDST,阿里的口号是“顶天立地”,用最顶尖的科学家,研究最前沿的问题,去解决最落地的产品。 但初起步的 iDST 却又不知不觉重蹈了许多大公司前沿科技机构的通病: 只停留在研究问题层面,没有产品化、商业化的能力,显然与这一初衷不符。

于是 2015 年 7 月,iDST 暂时解散,人马大调动,科学家被调入业务部门: 漆远被调到蚂蚁金服; 金榕率领司罗等人进入淘宝天猫搜索部门; 鄢志杰领导的语音部门并入阿里云,继续沿用 iDST 的名称。

金榕将这次经历形容成“上山下乡”,到一线去亲自看看粮食是怎么种出来的。 出人意料的是,下放的科学家们适应良好。 经过了第一阶段的“鸡同鸭讲”,聪明的科学家们开始不断理解业务,懂得如何配合、支持业务,甚至还能帮助业务方改善流程,迈入了科研落地的新阶段。

金榕在这一时期做的比较成功的一件事就是改善拍立淘识别质量。 原本搜索部门没有怎么认真对待用户的反馈,只是用 ImageNet 数据去训练模型,但实际上用户每天都上传成千上万的图像数据,还相当于帮你标注了图片是否相似。 因为利用好了这些数据,2015 年下半年到 2016 年,拍立淘的识别能力有了显著的提升。

后来他们为了推动拍立淘更进一步,通过选择性地收集数据来训练模型。 大部分用户只有耐心在头几页点击是否相似,而这些图片的相似度往往特别高,放到训练集里也几乎没有什么用,所以他们就放些相似度低的图片,如果有人点击,会收集到更多的信息,更好地改善模型效果。

因此,2015 年金榕团队拿到了集团 CEO 大奖,团队从 30 人扩展到了 120 人。 第二年,他们拿着拍立淘参加了当年的 CVPR 会议,Google 等机构都凑过来看热闹: 咦,识别效果好像真的还不错。

调入蚂蚁金服的漆远以智能客服作为第一个项目。 客服是一个非常悲催的项目。 有多悲催? 蚂蚁做客服差不多有两三年,但因为一直不满意,客服老大都换了两三轮。 客服系统是一个非常错综复杂的系统,对于漆远团队来说也是一个很大的挑战,半年后,他们交出了一个产品。

2015 年底的双 11 是智能客服第一次大规模亮相。 包括漆远在内的高管特别飞到了成都客服中心,准备陪着一起接电话,结果大部分机器自己解决了,语音自助率从 60% 提升到了 94%,剩下的客服人员足够应对,高管们面面相觑,尴尬又开心地撤离了。

到了 2016 年,双 11 当天自助服务率更是达到了 99%,为公司节省了一个多亿。 另外漆远还在蚂蚁金服实践了自己的初心,搭建了一个大规模机器学习平台,他给取了个名叫“PAI”。 凭此,他们团队包揽了 2015 年底 6 项阿里巴巴集团算法大奖(共 16 项)。
现达摩语音实验室负责人 鄢志杰

鄢志杰领导的团队做过语音识别分析客服服务质量的案例。 当时淘宝、天猫和支付宝每天都有上百万个客服电话,数字还不断增长,他们就把语音能力引入到电话客服呼叫中心,先把语音转换文字,然后对服务质量进行质检,同时还引入一些自动化的规则和模型进去。 目的与漆远团队也是殊途同归,提高客服服务质量。

前阿里云人工智能首席科学家 闵万里


另外,语音团队还曾经联手一支由闵万里领导的队伍做出了小 Ai 机器人。 在 Google 担任研究员的闵万里因为在 2013 年 5 月听了马云一席演讲,毅然决然回国入职阿里云,担任阿里云人工智能首席科学家,负责孵化各类人工智能应用。






请到「今天看啥」查看全文