专栏名称: 左林右狸
志在为邻里提供互联网深度八卦。我们的口号是站得高,自然尿的远。欢迎和我们一起八。本账号由@林军和@banly共同维护。
目录
相关文章推荐
闹闹每日星运  ·  超会赚钱的天蝎座 ·  5 天前  
跨境电商Eason  ·  eBay是如何将一个单一的商品变成一个受欢迎 ... ·  3 天前  
跨境电商Eason  ·  eBay是如何将一个单一的商品变成一个受欢迎 ... ·  3 天前  
闹闹每日星运  ·  春节快乐!好运壁纸&全年运势请查收! ·  1 周前  
51好读  ›  专栏  ›  左林右狸

小米崔宝秋:开源是软件的未来,中国 AI 的未来

左林右狸  · 公众号  ·  · 2020-03-01 20:34

正文


一位开源信徒的信仰和践行。

  文 | 张梦华 


“小米是 Daniel 最中意的选择”

2019 年 11 月的第一个周末,小米集团副总裁、集团技术委员会主席崔宝秋收到 Daniel 从西雅图打来的电话,后者表达了有朋友想基于 Kaldi 成立创业公司,并希望邀请自己做顾问的想法,他问崔宝秋:小米和你是否介意?

基于开源大方向的私营公司不乏成功的先例, Redhat 便是典范之一。崔宝秋在电话里给予了方向上的肯定,并表达了自己希望“四赢”的愿望:Kaldi 项目和 Daniel 要“happy”;小米要“happy”;基于 Kaldi 相关的创业公司要“happy”;Kaldi 社区的全球用户也要“happy”。此时,Daniel 即将入职小米,为了争取这位语音技术专家的加入,崔宝秋在过去两个月把大量精力都投入到了争取 Daniel 的工作中。

在语音识别技术领域,Daniel Povey 的名字几乎无人不晓,他是著名语音识别开源工具 Kaldi 的创始者和主要维护者,论文被引用超过 2 万次。2019 年 6 月,因被动介入学生抗议活动,在约翰·霍普金斯大学任副教授的 Daniel 被校方解雇。之后,其动向就一直备受学界和业界关注。

8 月中旬,Daniel 表示将可能选择一家中国企业或高校作为职业生涯的下一站。他与清华、北大等院校保持着深入接触,更有消息传出,Daniel 已经提前收到了某位副校长的 offer。国内头部互联网公司如美团、滴滴、快手等更是蜂拥而上,希望将这位世界首屈一指的语音识别专家招致麾下,近两年以小爱同学作为 AIoT 战略核心的小米自然也在积极争取的队列中。

小米人力资源团队和语音团队同时收到崔宝秋的指示:“竭尽全力把 Daniel 吸引过来”——最不济也要把他变成小米的技术顾问。从最开始与 Daniel 接触,崔宝秋便亲自统筹了负责接洽的人力资源团队,并直接与Daniel 的中国猎头 Joy 沟通,希望通过后者传达小米的能力与诚意。“和中国公司一起打造健康的社区,走向世界。”这是崔宝秋一直向 Daniel 重点表达的开源愿景。

Daniel 在小米

8 月下旬,崔宝秋第一次拨通西雅图的电话。稍早一些时候,两人有过简单的邮件沟通,在收到小米的基础信息并感受到其诚意后,Daniel 便主动提出希望通过电话更深入地讨论。

事实上,两人此前曾有过一段职业经历的重合——2003 年到 2006 年,崔宝秋和 Daniel 都曾在 IBM 任职,但因分属不同部门而没有工作交集。在这通午夜电话里,崔宝秋向 Daniel 介绍了小米,而后便是自己从 2012 年加入小米不久就一直力推的开源战略,听到 Daniel 9月初将在中国停留两个星期的计划后,崔宝秋又马上向其发出了参观小米公司的邀请。电话里,一贯语速较快的崔宝秋因为求贤若渴显得过于兴奋,一股脑儿只想在短时间内把小米的商业模式和技术战略都告诉Daniel,以至于接下来几天一直担心对方是否会被自己过度的热情吓退。

本来,清华、北大是 Daniel 在中国的前两站,但抵京的第二天,原定的行程突然更改,Daniel 最先出现在了西二旗的小米新园区。小米集团技术委员会也给予了最高规格的欢迎礼仪:集团副总裁兼集团技术委员会主席崔宝秋、人工智能部总经理叶航军、NLP 首席科学家王斌、语音技术总监王育军,再到各部门工程师,依次向 Daniel 介绍了小米的“手机+AIoT”双引擎战略和生态、公司的开源工程、AI 实验室、以小爱同学为中心的语音技术。

小米集团技术委员会

Daniel 的到访给了崔宝秋更多信心。但这之后,他一路南下,在上海、深圳陆续拜访了多个高校和互联网企业,行程中不免出现变数。9 月 9 号,Joy 打来的一通关于 Daniel 很可能将转投上海交大的电话便是其中的反映。

Joy 当时告诉崔宝秋,Daniel 对高校工作更感兴趣,崔宝秋听完不免灰心,但仍不愿放弃做最后的争取,他又在第一时间通过 Joy 给 Daniel 发去自己过去几年对外讲过的 3 份小米开源英文 PPT 和 3 篇外媒报道,并告诉 Daniel,小米希望和他一起把中国的开源力量推向世界。

9 月 11 日早上,崔宝秋便给 Daniel 打去了电话,意料之外的,电话接通没几分钟,Daniel 便坦承,小米已经是自己的“top choice”。国内高校程序相对繁琐,互联网公司对优秀工程师明显有着更强的吸引力,而这之中小米在开源上的努力与成绩又尤为突出,更重要的是,管理小米工程师团队又一直把开源作为战略核心的崔宝秋对公司的开源策略有直接决策权,可为 Daniel 提供更有力的工作支持。

Daniel 提出,自己不需要所谓的百万美金合同。离开约翰·霍普金斯大学之初,Facebook 曾是 Daniel 最早的可能性,前者给出的“百万美金合同”也成为媒体口径中与 Daniel 联系最紧密的标签之一,但这显然并不占据 Daniel 的主要决策因素。

Daniel 在电话里明确,百万美金的薪酬不是他所看重的,其更多强调的是自己对于 Kaldi 和开源的愿景。

崔宝秋在电话中向 Daniel 细数小米的生态、语音的战略地位、小米的工程师团队,小米过去以及之后如何推进开源、Daniel 的工作环境将如何保证、Kaldi 将被给予怎样的成长空间,都一一有了详尽的规划与步骤,40 多分钟的电话最后落在一句有力的承诺上:“Kaldi 在小米有着广泛的应用,非常重要,我有勇气和信心,可以为你保证一个完美的环境。

接下来几天,在 Daniel 在深圳、以色列、欧洲的行程中辗转时,小米向 Daniel 发出了 offer——offer 的最后修改仍由崔宝秋直接参与。11 月 18 日,雷军正式在微博宣布 Daniel 加入小米。

崔宝秋和 Daniel 在小米新园区

原金山 CEO 张宏江非常赞赏小米争取 Daniel 的举措,但同时也向崔宝秋坦率表达了自己的忧虑:“要小心,他可能待不长”——技术大牛加入互联网公司,继而出现水土不服,草草收场的先例并不少见。

崔宝秋的态度却颇为笃定:“我有信心,基于我们对开源的理解和坚持。”而即便如很多人所说,要常常“做最坏的打算”,崔宝秋对小米通过开源形成的工程师文化与人才机制也有足够的信心:“只要水是干净的、清澈的,小米会吸引到全球最顶级的人才进来。

站在巨人的肩膀上,并为巨人指方向

与 Daniel 的合同敲定后,Joy 向崔宝秋总结,在众多条件中,开源战略是为小米赢得 Daniel 的重要砝码之一。而对开源的解释与强调并不仅仅是崔宝秋争取人才的策略性行为,从加入小米之初,崔宝秋便一直在小米力推开源战略。

2012 年,小米有四个支柱业务:手机、MIUI、米聊、电商,缺一个互联网公司必备的技术工程部与运维部。循着硅谷的路径,崔宝秋加入小米的第一件事便是主导成立了小米云平台,开源是最早的建设工具,并随之有了开源战略。

核心团队里有过不同意见,小米要不要全开源,MIUI 要不要开源,都是在内部重点讨论过的问题。崔宝秋坚持,最早的云平台只有几十人,不开源生产力跟不上,不用 Hadoop 也不现实,况且 Facebook、雅虎在这个路径上已经有过成功的验证。

雷军在 2019 小米开发者大会上


这些建议得到了雷军的力挺。“任何一个创业公司,不开源就直接输在起跑线上。”雷军的结论来自安卓的启发。雷军讲起过创办小米的四个主要原因:中国的制造能力提升,富士康能为苹果做 iPhone,也可以为小米做手机;中国人的消费水平提高;功能机向智能机升级;最后的关键点,就是安卓的开源。

从最初的爱好者,到社区贡献者、管理者,崔宝秋对开源的利好感受颇深:吸引人才,帮助提高软件质量,最重要的是可以降低公司的软件开发、维护成本。从企业的角度讲,开源是“用最小的代价获取最大的利益。

在美国求学期间,崔宝秋便深受开源运动的感召,他是 Linux 的狂热爱好者,毕业后,他在 IBM 做高级工程师,负责 DB2 数据库优化和内核等核心模块的研发;崔宝秋 2006 年加入雅虎时,正逢 Hadoop 成立,后者和其所在的搜索引擎团队合作紧密,使得他在对开源的利用上更加如鱼得水;加入LinkedIn 后,崔宝秋又参与开源了分布式实时搜索系统 SenseiDB。从开源的爱好者、管理者到推动者,开源一直是他技术生涯的关键词。

如他所说,开源也许并非改变世界的重器,但可以做一枚皇冠上的钻石。直到今天他仍认为,百度和谷歌在移动互联网时代拉开差距的关键点,不是技术、团队或者 AI,而是安卓。

简单描绘小米的开源战略,其一是“快”:先爬上巨人的肩膀,才能跟着一起走。事实上,“快”也是雷军对产品、技术迭代的一贯要求。快速选型,快速定位,快速掌握,快速占领市场,这是崔宝秋强调的开源第一原则。2012 年,他带领核心工程师快速选型 HBase 之后,便很快组建了小米 HBase 团队。

先于隐私委员会和大数据委员会,开源委员会是崔宝秋在小米主导成立的第一个委员会。云、大数据、人工智能,崔宝秋在小米推动的“CBA”(云计算-大数据-人工智能技术)路线,每一条路线,开源都是不可或缺的工具。

“不重复造轮子”是崔宝秋总结的第二条前车之鉴。

过去参与开源的 20 多年,在学校、企业、社区,崔宝秋见过太多重复造轮子的案例,很多工程师看不上已有的东西,上来只想做新的来自证实力,但最后往往发现不如所想。很多企业在开源上无法走远,不间断地重造轮子是重要弊病。

“你在开源圈里想到的所有东西,基本上别人都已经做到了,所以绝不要自认为牛,先写一个东西。你写的东西一般都是小儿科。” 崔宝秋说。到了小米,“所有的坑从第一天就不允许它发生。

雷军(左)和 Daniel

不用则已,要用则精是其三。

从 2014 年开始,崔宝秋频繁出现在业界会议上为开源呼吁,也常和很多一线管理者有观点碰撞。王坚谈起这个话题,抛出疑问:开源虽好,但就阿里云而言,还是太不保险。“如果社区出现补丁,部署到线上,谁敢按 OK 键?”王坚很认真地向崔宝秋发问。

王坚不是第一个表达这种忧虑的人,崔宝秋说,所以要坚持:不用则已,要用则精。“要用你真正驾驭的,真正掌握的,不能驾驭它等于没用。”代码要精,要老练,抓住了这一点,也就消除了保险与否的疑虑。

坚持开放与共享是其四。

崔宝秋博士时期便痴迷 Emacs ,“上厕所都玩Emacs”。开源的 Emacs 让他能对代码做各种改动,有段时间,他沉迷于改代码,玩得很嗨,工程师的成就感前所未有地得到满足,但因为用完没有及时贡献回去,不久后,Emacs 社区突然刷新,文件和架构全部调整,最后他为了修改老版本的代码耗了不少功夫。

他也见过不少大公司的工程师,使用 Hadoop 后在本地版本上修改,没有回报到社区,最后本地版本和社区版本完全脱节,逐渐枯竭,公司根本无从享受开源的长期利好。

开放与共享是最知易行难。写注释、改代码是繁琐的劳动,复现和注释的时间可能超过写代码本身,前期的一个改进只需几周,为了证明这一改进则要耗费几个月,得“自己拽着自己”,很多巨头的开源项目陷在这个环节。

2014 年,崔宝秋与硅谷一位知名互联网公司的开源负责人交流,说起小米在 HBase 上遇到并解决的几个技术问题,几轮对话中,对方一直频频点头感慨:“我们也碰到了这个问题。”崔宝秋听后表示:“你们碰到问题并解决了,但没有回馈给社区,太可惜了。”当时他正带着团队的几个工程师解决社区里接二连三的问题,并把多个解决方案回馈给社区。

在重大项目上极力推出自己的 Committer 是其五。

在崔宝秋的定义里,开源贡献者分三种:个人爱好者,有开源商业模式的组织和无开源商业模式的组织。有开源商业模式组织如华为、IBM 等公司,其诉求是通过开源形成底层软硬件、应用层、云服务的解决方案。小米则属于最后一种,对开源没有直接变现需求,而是希望利用其支撑互联网服务,如小爱同学、云服务、浏览器、社交、游戏。这与谷歌、雅虎、Facebook、Twitter、LinkedIn 等硅谷公司的态度一致。

“公司不在大小,打法才是关键,重要的是融入社区。”这听起来没有太多神秘可言,但真正理解开源,参与过、贡献过的人,才更能摸清其中的门道和沟坎。开源是巨人,站在巨人的肩膀上是第一步,更重要的是,要为巨人指方向,赢得社区话语权,推出自己的 Committer 便是其中的关键。社区 Committer 拥有审核代码的权力,可以直接影响代码和系统的演进方向,为企业自身争取利益。

小米副总裁、集团技术委员会主席 崔宝秋

2012 年,崔宝秋找来几个工程师,不给任何业务压力,并给予充分自由的时间和空间,几个人的主要任务就是在社区里读代码,参与社区讨论,主动认领 HBase 的“任务”:加注释,解答社区里的问题——哪怕加个回车键也行。出发点很简单:在社区时间够长,便会足够了解其架构,代码质量也自然会提高。

他首先向团队明确自己的想法:小米作为互联网公司需要什么服务、小米生态是什么样子、HBase 将如何作用于各个业务线,而后又找朋友引荐了 HBase 当时的项目管理委员会主席 Michael Stack,和后者分享自己的计划,他坦陈自己对开源的认知、奉献的意愿、投入的决心:“小米的贡献不是一两个人,也不会是昙花一现,而是长期的战略。

在这些前期铺垫上,崔宝秋花了 9 个月——按照互联网公司“两个星期搞定”的常规考核标准,开源战略走不通,更走不远。

2013 年,崔宝秋带着谢良、冯宏华两位工程师第一次参加 HBaseCon 大会——此时谢良刚刚成为小米在 HBase 的第一位 Committer。走在 101 公路上,崔宝秋开着车不忘转头和他们调侃:“做了 Committer,以后你们在社区有名了,其它公司可能就要用两三倍的薪酬来挖你们了。

但他也不焦虑:“人才是水库,流水不腐。”继续坚持开源的打法,维持好的技术氛围,给团队成长空间,如果小米能成为中国开源界的黄埔军校,他也乐见其成。

2013 年,小米在 Hadoop 推出分布式发布和监控系统 Minos;2017年,小米开始自研深度学习框架 MACE,并在第二年开源。

2018 年,小米贡献了 HBase 社区接近 1/4 的补丁。从 2013 年 12 月在 Hbase 有了第一位 Committer,到今天,小米培养出了 9 名 Committer,包括三位 PMC 成员。2019 年 7 月,小米工程师张铎被 Apache 软件基金会任命为 HBase 项目主席。一切在按照崔宝秋最初的计划一步步实现,甚至慢慢超出设想。这需要战略上的准确与执行上的耐心,而不是能单纯可以用钱求来的成果。

2019 年 7月,小米工程师张铎当选为 HBase 项目主席

“开源的力量会让人上瘾”

2011  年 11 月,小米发布第一款手机后,雷军和崔宝秋在美国见面。此时,崔宝秋对中国新起的移动互联网产业正产生了浓厚的兴趣,他佩服小米在中国移动互联网领域创造性的战略布局,在雷军的感召下,坚定地选择了从硅谷回国,加入小米。 

1995 年,在中科院计算所拿到纽约州立大学石溪分校的通知书时,崔宝秋也曾考虑过要不要加入金山和雷军一起工作。但 90 年代的出国机会来之不易,崔宝秋想了想,选择去了美国。

纽约州立大学石溪分校的计算机系排名不算靠前,最好的时候排到全球 15 名,但正在此任教的杨振宁增加了中国学生对这所学校的好感和青睐,崔宝秋也因此在四份博士全奖通知书中选择了这所公立学校。崔宝秋读书的地方在长岛,当时杨振宁还活跃在同学会里。第二学期,崔宝秋有次去物理楼上课,抬头看到一位长者正挪着脚步出来,崔宝秋当下觉得这人面熟,下一秒便想到,这不就是杨振宁。

崔宝秋去了美国后,常常和雷军在网上交流技术问题,两人在对技术的痴迷上仍然维持着默契:雷军说写程序时像在写诗,崔宝秋对退休生活的设想则是写自由软件,仅仅为了享受提交代码、创造价值的成就感。

到美国的第一年,也是崔宝秋最感到落差与兴奋的一年。成为助教后,崔宝秋收到的第一项任务是交一个Unix 脚本来帮助教学,他的第一反应却是:“什么叫 Unix 脚本?

在国内,崔宝秋是同学里的编程高手,还没有 Windows 95 的时代,他用的都是 DOS。拼音太慢,五笔太难,就用周志农的自然码敲论文。当时国内很多工程师,对开源的理解还仅限于共享软件,对 GPL 这样的开源许可证理解也非常弱。

到美国后,他成了最早一批 Linux 用户,自己买了电脑,有了 root 权限,感到“整个都不一样了”。Emacs、GNU、Linux、FreeBSD 的庞大功能让人目不暇接,崔宝秋感到“被传教”一样的兴奋。“原来我之前一直都是土老帽。”他在心里感慨。1996 年,崔宝秋关于 XSB 的博士论文立项,并基于 GPL 开源,在学术界和工业界都得到了广泛接受。

1999 年,接入因特网不久的中国政府有意参与 Linux 建设,但 Linux 重要贡献者、著名开源运动旗手 Eric Raymond 对此公开表达了消极态度,直言 Linux 不欢迎中国。此时的 Eric 风头正盛,1997 年,他在 Linux Kongress 上发表的新书《大教堂与集市》 (The Cathedral and the Bazaar),在技术界广受认可,并在 1998 年促成了网景 Mozilla 成为开放源代码软件。作为开放源代码促进会(Open Source Initiative)的主要创办者,Eric Raymond 也成为这场起于90年代后期的开源运动的思想领袖之一。

Eric Raymond

一直受开源精神感召的崔宝秋在心理上很受挫伤,直接向 Eric 发邮件,就其主观上为开源树立壁垒的言行,表达了失望。年轻的中国工程师在邮件里对这位开源领袖并不客气,他说,开源不分国界,中国有大量工程师坚信 Linux 的力量,如果 Linux 进入中国,会得到来自政府、学校、企业的贡献者支持,这正是开源界所急需的,身为开源运动的领导者,你应该积极拥抱可能来自于中国的开发者。

“开源的力量会让人上瘾。”崔宝秋说。博士和 IBM 时期,他每天跟进 Emacs 的进展,参与社区讨论, “深深陶醉在里面”。雷军出差到美国,崔宝秋兴奋地向他演示 Emacs 的高级功能,“怂恿”他把这些功能放进 WPS。

2002 年,在微软和盗版软件的倒逼下,雷军带着一百多人的金山团队重写 WPS,沉迷开源的崔宝秋向雷军提出做金山版 Linux 的建议:在 Windows 平台,和 Word 正面竞争胜算微弱,在自己的 Linux 里直接做一套办公软件更有潜力。

和意气风发的青年时代相比,如今的崔宝秋在积极分享小米开源经验的同时,也开始更多地在行业里呼吁,谨防寡头垄断。尤其在 AI 的方向成为行业共识之后,开源的重要性也更为凸显。“AI 是群雄争霸,没有一个胜者,甚至领先的也没有,开源是一个迅速打造领先地位的途径。

崔宝秋感叹,回国快 8 年了,中国的开源环境仍然有些散,业界对开源的认知千奇百怪,千差万别。他也见过不少呼唤开源的人,热情虽然值得赞赏,但常常又很快发现其中大半对开源其实一知半解,真正的使用者、管理者、推动者和消费者,在中国仍然不多。

他言论克制,但唯独对开源表现出一贯的充足信心,认为不了解的人需要谨慎发言以免造成误解,但真正理解的人有必要积极倡言。在认定“开源是软件的未来,中国 AI 未来”的前提下,如何让中国的开源联盟、组织、平台形成合力,是他最下一步最想完成的工作。

Q & A:

左林右狸频道:这几年你代表小米对外讲了很多,为什么对开源这么拥护?

崔宝秋:一个互联网公司的领先不取决于技术比别人领先三五个月或一年半载,而是取决于它的商业模式,这是我在雅虎悟出来的,也是我坚信的。





请到「今天看啥」查看全文