而在戴文渊的愿景中,第四范式将扮演这个“BRAIN”的基础操作系统角色,一如1995年Windows95的问世,彻底将人类带入了人机图形交互界面的PC时代,从而有了各种应用IT的恣意生长。
从第一范式到第四范式:科学大爆炸
就像乔布斯把公司起名为“苹果”是为了纪念“计算机之父”图灵,第四范式的名字则像是对图灵奖得主、关系数据库鼻祖Jim Gray的致敬。Jim Gray在2007年失踪以前的最后一次演讲中,将人类科学的发展解释为四个范式的演化:
▍
第一范式
以记录和描述自然现象为主的“实验科学”,比如钻木取火;
▍
第二范式
利用模型归纳总结过去记录的现象,比如牛顿三定律为代表的“理论科学”;
▍
第三范式
模拟复杂现象的“计算科学”;
▍
第四范式
通过收集大量的数据,让计算机去总结规律的“数据科学”。
也就是说,在“第四范式”时代,过去由牛顿、爱因斯坦等少数人类的聪明大脑所从事的研究工作,未来可以交给计算机去做。而新一代数据科学家,则扮演牛顿老师的角色:教计算机怎么成为一个科学家的科学家。
这正是戴文渊正在成为的角色。被导师评价为“心思缜密,判断力超越同龄人”的他,2009年放弃攻读博士学位,加入百度担任广告变现算法核心负责人,百度凤巢系统的总架构师。
在百度,戴文渊初步验证了人工智能的商业潜力。他带领一个几十人的团队,并与其它部门协作,一起研发的“凤巢个性化投放策略”,使得百度的广告变现能力提升了8倍,这让戴文渊的团队在2012年获得了百万美金的“百度最高奖”。
但当他想把这套平台推广给百度其他部门时,却发现大家却用不起来。戴发现了其中的问题,他打比方说,这就像最早开飞机的是莱特兄弟,但他开的是自己造的飞机,而别人却无法驾驶;只有等到波音等大型制造商开发出通用型的飞机后,才使得普通人能够通过培训也成为飞行员。
“
我觉得AI也应该是这样,真正能让它遍地开花,必须要做一件事,就是让更多的人参与进来
。”为了实现这个梦想,2015年初,戴文渊和自己的导师杨强、师弟陈雨强等顶尖科学家一起创立了第四范式,希望能将人工智能推广应用到更多行业。
这也是戴和伙伴们没有选择某个垂直行业创业,而是致力于做基础平台的原因。“做AI+某个领域
当然是OK的,也会成为一个很好的创业方向,但我们觉得兴趣不在于此,大家的理想就是要让AI这个行业能够得到发展。”戴文渊说。
他窥到的门道是:“这么多年来我好像跨度很大,广告、通信、手机、金融等行业都涉足过,在别人看来跨度很大的事情,其实在我看来很好理解,我只是训练机器学会完成这些任务。这就像人的大脑,吃饭、学习、开车都是用的同一个大脑,所以AI有一种潜力,能够把过去看起来很不一样的东西以某种算法统一化”。
做AI时代的Win95
创业之初,戴文渊和团队希望做一个更高效的工具级产品,让第四范式的人工智能专家能够用这个工具帮客户在一两个月内快速建立大数据分析能力,但很快发现这并不可行。“拜访金融行业客户,发现它们的需求特别分散,一个企业内就有好几百个场景。”戴发现,AI所能覆盖到的应用比他们想象的要多好几个数量级,不可能由一家公司去做。
很快,他们便进行了思路的转变,希望能让客户自己去做机器学习,而这样就需要去开发一个能够让非专业人士使用的机器学习平台。这也就是第四范式·先知平台的由来。
从2015年4 月初开始筹备,到 8月份第四范式团队便写完了第一个1.0版本,这个版本完成了机器学习的全流程,但缺陷就是门槛比较高,就像是莱特兄弟造的飞机。2016年7月 20 日,第四范式对外发布了2.0版本,这次增加了非专业人士能够使用的机器学习算法,甚至只需要培训一个月左右的时间,就能够用先知平台迅速建模。先知平台封装了前沿的人工智能算法,比如最新的HE-TreeNet,最大程度地提升自动特征工程能力,显著降低建模过程中数据科学家的工作量;再比如模型实时预估服务,它可以改变过去凡涉及实时服务项目必须订制开发的局面,大幅度降低项目工作量。
“用我们圈里的行话,这叫‘炼丹’,就是你也不知道炼出来的丹有没有效果,反正就是扔进去试一下。”戴文渊解释说,先知平台,就是要把“炼丹”的过程变成一个类似傻瓜相机式的开发平台。从用户的角度来看,使用先知平台只需要做三件事情:第一,确定这个目标是什么;第二,收集这个目标的反馈;第三,点一下让机器解决。
今年1月,第四范式内部举行了一场名为“一颗赛艇”的比赛。这场特殊的比赛,对参赛选手唯一的身份要求就是非“数据科学家”、非“建模工程师”,是全球首个非专业人士参加的人工智能建模大赛。此前,纵然人工智能已经成为围棋、扑克的高手,但还没有任何一个公司敢挑战“让普通人做出AlphaGo”这一难题。
比赛规则是利用业务场景的数据建立模型,比拼模型对业务关注目标的预测能力。最终,在没有经过任何专业培训的情况下,有超过70%的参赛组合AUC成绩(AUC是衡量模型效果的专业指标,取值在0到1之间)跨过0.8大关。这个成绩意味着什么?在实际业务中,凡是AUC高于0.8的模型就已经达到值得振奋的工业水准;而在整个行业中,只有极少数深耕机器学习多年、拥有丰富大规模数据处理经验的数据科学家才能搭建出AUC 0.8以上的模型。
这验证了先知平台的能力,也让戴文渊离他的梦想接近了一步:
让AI终能“for everyone”,让普通人都能够成为AI的参与者、使用者和创建者
。就像Win95的出现和个人电脑的普及,让PC for everyone一样。
“红杉是在跟我们一起创业”
2015年1月,第四范式刚刚成立不久,经朋友介绍,戴文渊和红杉资本中国基金合伙人计越在上海第一次见面。戴当时并没有着急想融资,两人漫谈了3个多个小时。但让戴没想到的是,红杉中国是认真的,在春节前,即敲定交易,成为第四范式的早期Pre-A轮投资方。
“那时AI是没有太多投资人在关注的,另外,企业级服务市场也不是热点,那时创业风口和投资热点都在做O2O上。”戴回忆接受红杉投资的原因,“
选投资方也像是找创业合伙人,双方要在对未来的趋势判断上达成共识。如果希望我们瞬间像滴滴那样爆发,那不是一个正确的预期。而红杉则是在跟我们一起创业
。”
戴提到了这样一个细节。最近,当他重新翻出彼时接受红杉中国投资时做的BP,发现2年来,第四范式做的事情,正是当初他表达的初心和愿景,并没有改变。“我当时说我希望做的事情是希望AI技术能够用更高效的方式去帮助和应用到更多行业和企业中。如果让我换一件事情去做比如互联网金融,我可能就不想做了。我的创业动力不来自于这个”。
“很关键的是红杉认同这条路。”戴文渊说。
戴还提到红杉中国对其的帮助。在第四范式规模还较小时,计越就建议要考虑建立客户服务的团队。“当时我们觉得还早,现在回过头去想,却都觉得建得有点晚了,如果当时就着手,可能我们的发展比现在还要快一些”。
从人工智障到人工智能
以谷歌AlphaGO战胜李世石为标志性事件,人工智能概念在2016年迅速被大众所闻知,也成为炙手可热的投资领域。据风投数据公司CB Insights统计,2016年全球范围内共有550家人工智能初创企业获得50亿美元投资。
这其中,不乏有一些“蹭热点”企业也试图给自己贴上AI的标签,今年以来,出现了一波关于人工智能“泡沫论”的声音。不过,戴文渊对此不以为然:“如果看整个AI行业,我不觉得有泡沫,而且我觉得AI的能量仍然被低估了很多。”在他看来,AI现在并没有迎来真正的爆发,还不应到反思、唱衰的阶段,而受阻的最大原因是AI的从业者太少。人工智能技术,不再仅仅是革新生产工具,而是将创造出数量空前的 “新劳动者”。从创造新的生产工具,到创造新的劳动者,从而使生产力水平实现前所未有的飞跃,其影响程度将超越以往的任何一次科技革命,整个社会经济形态未来也会发生根本性变革。
由此,你可以明白第四范式为什么会推出范式大学了。面向没有专业背景的工程师,不需要精通机器学习算法和模型;不需要精通计算机、数学、统计学;不需要有大型数据挖掘经验、大规模数据处理和分析经验;唯一要求:有一定的程序员能力基础——
从某种程度上说,这是在为整个AI行业的未来培养人才
。
除“泡沫论”外,一些人心存疑虑的原因,还因为目前一些AI的应用并不那么让人满意,有些甚至看起来就像是“人工智障”。戴文渊认为,这里既有先天的算法模型不成熟的原因,也有后天的因素,某些领域,训练AI的数据量还不够。不过,“现在的AI虽然显得还比较笨,但它比人勤奋,只要通过不断喂给它大量数据,它会变得聪明”。就像人类掌握某种技能有一个一万小时理论一样,AI会在那些能够达到1千万以上样本的领域内率先看到应用成果。
“AI一定会在那些容易获得大量数据、试错成本不高的领域率先爆发。”戴文渊表示,人工智能之所以能够为企业的业绩增长带来突破,是因为人工智能可以在海量数据中挖掘真实的个体用户需求,并为每一个用户量身打造符合需求的产品及服务,从而提高用户响应率、增强用户体验、拉升用户黏性、扩展收入方式等。这不同于以往的“圈地”换取流量及入口,而是使用户与企业的互动由被动变为主动,运营效率大大提升。