专栏名称: 21世纪商业评论
《21世纪商业评论》敏感于一切商业新知、商业产品、商业模式和商业英雄,敏感于新公司的新玩意、老公司的新改造、旧话题的新表达、老商业的新颠覆,为您提供最新鲜实用的商业养分。
目录
相关文章推荐
哈佛商业评论  ·  案例丨TCL:科技普惠,拓展商业边界与价值维度 ·  昨天  
21世纪商业评论  ·  当一名医生,成为你的网友.... ·  3 天前  
21世纪商业评论  ·  宁德电池之“王”,狂投欧洲800个亿 ·  4 天前  
FT中文网  ·  创业企业家家族财富集中度风险的管理 ·  5 天前  
51好读  ›  专栏  ›  21世纪商业评论

商汤是如何炼成的?一群学院派科学家的产业实践

21世纪商业评论  · 公众号  · 商业  · 2017-07-12 11:41

正文

人工智能早已是巨头们的战场,完成4.1亿美元B轮融资的商汤科技是一个新兴的玩家这位AlphaGo中国同行为什么能获得投资者的认可?从早期的发展轨迹中或能找到答案。


“人工智能一下子火了起来”,徐立感慨说。


以前,徐立布道“深度学习”、“人工智能”、“DeepMind”……这些名词,客户常常不知所谓,AlphaGo的人机对弈开始后,客户纷纷主动询问合作机会,“PPT中的大量专业词汇,AlphaGo用5盘围棋全普及了”。



36岁的徐立是商汤科技(SenseTime)的CEO,也是一位计算机视觉的科学家,2014年,他和学术同行联合创立商汤科技,目前核心业务是机器视觉服务,包括图像视频的处理和理解,人脸识别 ,而其技术基础,就是与AlphaGo同源的深度学习。这家低调的创业公司,已在不知不觉中渗透进多数人的生活。



领先一步


对徐立而言,AlphaGo赢得比赛并不意外。


过去两年,但凡介绍深度学习,他都会谈及AlphaGo的“造物主”Deep Mind——2014年Google耗资4亿英镑收购的这家英国公司,“Deep Mind才12名员工,创始人是一位国际象棋冠军,没有具体产品,只从事深度学习的游戏研究,要花4亿英镑,当时业界震惊了。”


每与人谈及这宗收购,徐立听到的多数评价是“谷歌就会乱花钱”,然而,业内学术权威Yoshua Bengio教授当时即评论:“深度学习领域内约有50名真正内行的专家,其中12人在Deep Mind,谷歌买的是未来”,AlphaGo证实了Deep Mind的价值。



所谓深度学习,某种意义上是对人脑神经细胞的模仿,人脑拥有大量相互联系的神经细胞,细胞间彼此传递神经刺激,而运算过程并非一部到位,是从一个层次到下一个层次计算复杂事物,用计算机模仿该过程,就形成深度学习,其本质是一种人工神经网络,擅长在大量数据基础上进行判断。


历史上,谷歌曾进行过一个“猫脸识别”的实验,建立一个由10亿个节点的神经网络,让其“观看”大量视频,人工大脑自主“学会”了识别猫脸的技能,此前没有预先编写任何程序告诉计算机什么是“猫脸”,完全是通过海量视频和数据分析猫脸的特征。


深度学习的技术渊源,可追溯至上世纪80年代,受限于运算能力以及数据量,在学术界长期处于边缘地段,2006年后,由于IT技术的进步,其学派开始崛起;随后,微软人工智能首席科学家邓力(Li Deng)将其应用于语音领域,并取得重大突破,邓及其合作者在2009-2010年间开发了一套算法,迅速将语音识别的准确率提高到一个新量级,一大代表性成果即全自动同声翻译系统,可实时把英文演讲翻译成中文并以中文语音输出。


“这项研究改变了人工智能的产业现状,引爆了学术界,深度学习马上成为大热点,”徐立评论说,“大量研究开始朝着深度学习方向迅猛推进,像推火车一样,技术应用不断拓展,计算准确率大幅度提升。”2013年,《麻省理工科技评论》(MIT Technology Review)将深度学习列为世界十大突破性技术之首。



据徐立介绍,深度学习目前主要应用于3大领域:语音识别、自然语言处理(代表性例子,微软小冰)以及计算机视觉。2010年前后,徐立时为香港中文大学的博士后,与汤晓鸥教授港中文多媒体实验室师兄弟多有接触,后者是深度学习在视觉领域应用的先驱。 


其中,颇具说服力的成就是,在CVPR、ICCV和ECCV三大计算机视觉学术会议上,前3年有关深度学习的文章共29篇,其中14篇出自香港中文大学多媒体实验室,其团队后成为商汤科技的骨干研究力量。可以说,在深度学习与计算机视觉刚刚联姻时,正是学术方向的明智选择以及强执行力,成就了商汤科技现在的商业价值。


直到现在,商汤科技也保持着浓厚的学术色彩,其人才团队中有不少来自MIT、斯坦福、香港大学、香港中文大学、清华大学等高校及其实验室,以及谷歌、百度、微软、阿里巴巴等产业界领军人物,其中包括5位Microsoft Research Fellow,2位A-star,聚集华人世界中一批深度学习和计算机视觉领域专家。200余人的公司中,拥有超过50多名博士全职任职。




“商汤的很多科学家非常抢手,我们提供的工资并不比业界巨头高,”徐立解释说,“这些科学家愿意过来,是因为我们真心相信,在人工智能这样的关键领域,中国原创科技完全有机会走到世界前列。”



全球第一


现就职谷歌的Geoffrey Hinton被誉为深度学习领域的开山鼻祖,2010年语音领域实现突破后,他尝试将深度学习引入到视觉图像领域,于2012年参加ImageNet的竞赛。


ImageNet竞赛是人工智能领域的权威竞技场, 斯坦福华裔学者李菲菲(Feifei Li)为视觉领域收集了大规模“图像分类和物体检测”的数据集。该数据集最初包括一个1000类图片分类的任务,后面又增加了200类静态图片物体检测任务。


Geoffrey Hinton第一次使用深度学习方法,就将图像分类的准确率提升10%,这在过往要耗时数年才能实现。此例一开,但凡在计算机视觉领域要证明自身实力,参加ImageNet竞赛几乎成必选项。


2014年9月,商汤科技联合创始人邱石博士等人首次出征ImageNet竞赛,在大规模物体检测比赛中就以40.7%的成绩荣获世界亚军,成绩仅次于谷歌的43.9%。


2015年,ImageNet竞赛新增一项视频物体检测的任务,视频是连续的图像,比静态图像中的物体检测复杂度更高,商业价值也更高,举例来说,一旦可将视频中的所有物件识别出来,品牌商就可按物体搜索,进行定向的品牌植入。


在该项新任务的比拼中,赛事主办方选择了30类别的物体,商汤科技联合香港中文大学多媒体实验室组成的团队,在28个类别中准确率最高,第二名只赢了两个;商汤科技整体62%的准确率,也远高于第二名51%的准确率,以11个百分点压倒性优势领先,实现夺冠。


按照徐立的解释,ImageNet比赛的成绩,取决于三大要素:最核心的“造脑”能力,脑子造得聪明与否,决定最后运算结果,造脑能力也是评价一家公司是否有人工智能核心技术的关键。


谷歌收购Deep Mind团队,脸书(Facebook)招募学术权威Yann LeCun等人,百度聘请吴恩达(Andrew Ng)担任首席科学家,本质请的就是“造脑的上帝”,只要将人工网络的设计可以胜出一筹,在搜索等业务场景中将带来巨大的商业利益,而商汤科技研究团队的高占比,正是因为其将“造脑”列为第一要务。


其次是数据,数据量越大,运算结果即越准确,由于ImageNet主办方也提供了限定的训练数据集,该项条件对于参赛者是平等的。


再次,就是超算能力,这是由大数据处理的需求所决定,只有计算能力较别人快,才能测试更多的算法模型,从中遴选出最佳算法。


商汤团队刚成立时,一开始没有GPU集群,往往要等1个月才能验证一个结果,而在2014年5月,由吴恩达主持,百度就构建了当时世界最快的超算平台MINWA,实现144个GPU连接。但现在,商汤科技已建设的深度学习超算平台DeepLink,200块GPU的连接数全国最大,以前耗时1个月的运算,现在只需5-6个小时即可完成。 


ImageNet竞赛的夺魁,证明了商汤科技在两大领域的实力,“第一,我们脑子确实造得好,第二,超算平台能力强,”徐立说。   



对标谷歌


深度学习过于抽象,对普罗大众而言,商汤科技最易理解的标签,就是人脸识别。


2014年下半年,投资机构IDG主动找上门来,游说媒体实验室的骨干创业,徐立等人当时在业内已相当资深,为什么要舍弃学术追求而创业?


“从学术上转换成工业应用,本身是一种责任,”徐立解释说,此前,香港警方曾向其团队寻求帮助:一些高速行使的逃逸车辆,监控录像过于模糊,希望他们恢复出逃车辆的信息,且为服务付钱买单,这种实践给予了团队巨大的成就感。事实上,计算机视觉领域的“四大天王”(即前文所述的Geoffrey Hinton、Yann LeCun、Yoshua Bengio、吴恩达)中,就有3位投身产业。


2014年10月,团队正式成立商汤科技。创业伊始,团队主要精力是将学术成果转化为商业性解决方案,2015年上半年一直忙于深耕产品,而人脸识别以及图像处理的需求日渐旺盛,在2015年6月份,公司业务开始爆发性增长,商汤科技的商务团队起初不过四五人,在公司忙于接待问询的客户,直到2015年底,才开始针对性地开发行业客户,现在商务团队领衔的负责人此前任职IBM Watson Health 大中华区事业总监。


由于商汤科技主要从事B2B业务,多隐身于幕后,一直未为人所知,实际上,其服务客户量早已达亿级规模。据徐立介绍,现阶段的主要布局在几大领域:




第一大领域是移动互联网,其客户包括小米(智能人脸相册,植入MIUI7)、华为Mate 8发布(智能人脸相册+智能场景相册)、美图(人脸检测器、人像美容)、微博(面孔相册)等,之前刷爆朋友圈的图聊软件Faceu,Snow等,采用的也是商汤科技的算法。这些产品应用,每一个均是千万量级以上的客户。此外,商汤科技还与中国移动缔结了战略合作关系,后者将其3亿用户实名制的计划,就依托于商汤OCR人脸识别领域的技术。


第二大领域是互联网金融,其合作伙伴包括银联、京东金融、招商银行等,涉及真人检测、身份证、OCR扫描等业务。


据人人行科技副总裁翁晓奇透露,经过多方测试,“借贷宝”的肖像认证系统最终采用了商汤科技的平台,用户不需去输入银行卡密码就可进行身份认证,“在APP为用户肖像采集一张照片,再和公安部提供的身份证照片进行比对,我们每天有几十万人通过这种活体的肖像认证,目前是全国最大规模的肖像认证技术实践。”


实际上,商汤的技术甚至一度招到业内怀疑,“有同行误以为我们后台雇佣大量人员进行人工甄别,实际完全是大数据处理的成果,我们的技术储备超过了很多同行的想象。”徐立解释说。此外,商汤科技也正布局安防监控和大数据领域,其与安防系统平台提供商东方网力合作的产品也已落地。


徐立说,在国内的人脸识别或者图像处理等垂直应用市场,商汤科技固然存在竞争对手,但是,同行多是根据现有算法从事应用场景的研究,“我们还没有看到跟我们一样的,专注于核心的造脑和超算能力的布局,严格意义上,很多同行其实是我们的下游,彼此应有更多的合作”。


而商汤科技团队希望对标的,则是谷歌、脸书这样从事深度学习研究的公司,“谷歌和脸书现在均为提供企业级服务,这是我们巨大的机会。”


如需转载,请后台回复“转载”了解须知



联系编辑:[email protected]


关注21商评君,每天懂点新商业!