加入雷锋网,分享AI时代的信息红利,与智能未来同行。听说牛人都点了这里。
编者按:12月17日,中国人工智能产业大会在深圳召开,商汤科技首席研发总监林倞出席大会并发表演讲。他主要讲述了商汤科技在原创性技术上的深厚积累及在四大领域的产业布局。
林倞,商汤科技首席研发总监,中山大学教授,国家优秀青年基金获得者。2008年博士毕业于北京理工大学,分别于2006-2007、2008-2010年在美国加州大学洛杉矶分校学习和工作(合作导师为朱松纯教授),2014-2015年在香港理工大学、香港中文大学访问。长期从事视觉感知计算与智能学习相关领域的研究,在物体/场景结构化解析、深度神经网络、相似性及度量学习、半监督自主学习等方面取得了多项创新成果,并且在商汤科技的产品中应用落地。迄今在CCF-A类国际学术期刊与会议上发表论文60余篇,包括在PAMI/IJCV期刊发表论文10篇,ESI高被引论文2篇。获得NPAR 2010 最佳论文奖,IEEE ICME 2014最佳学生论文奖,2012 Google Faculty Award,2014 Hong Kong Scholars Award,率队获得2016 英特尔杯全国并行应用挑战赛金奖。目前担任IEEE Trans. Human-Machine Systems的副编辑(AE)。
以下是林倞演讲全文,雷锋网整理编辑。
人工智能引擎:深度学习技术
就像刚才戴文渊博士讲的,人工智能三起两落,从创立到寒冬,到现在新的时代,大数据和高性能计算点爆了深度学习。这个过程都是与产业界密不可分的。从三起两落也看出了,产业界对人工智能的期许非常高。我们把产业界的发展看成四个阶段,从信息时代到互联网,再更进一步的物联网和智联网时代,整个过程中人工智能一直被广泛关注,虽然一度被认为距离应用很遥远。那么现在是什么让人们广泛认为人工智能是下一步的科技浪潮?其中重要的一点就是深度学习。
如果我们把人工智能系统看作是一个火箭的话,那么大数据就是燃料,深度学习算法就是火箭的引擎,我们还需要高性能技术(火箭的外壳)来点爆这个过程。
相比其他机器学习的算法或者工具,深度学习能够更好地拟合海量数据,利用端对端的学习方法,提升深度模型的预测精度。
自深度学习的复兴以来,各项人工智能技术都有很大的突破。就像十几年前广泛认为人工智能很难在产业界形成很大的影响,很多技术、方法被认为是不能落地的,刚才前面的嘉宾谈到问题,包括产业界人士和毕业生不好找工作,我也都碰到过。
我们看现在,不知不觉深度学习已经深入到各种领域细节,包括最早的语音识别、人脸、图像、生命科学都有广泛的应用。
商汤的定位:以原创技术为根基
在这样的背景下,商汤科技的定位是希望走一条与传统产业化不同的道路,我们是来自于学术界的科学家,希望坚持我们原创性的技术。从人脸开始,我们是将深度学习成功运用于计算机视觉的团队。在2014年,我们的人脸检测算法超过了Facebook的人脸识别准确率。在ImageNet,两指标达到世界第一。在这个算法背后我们建立自己的超算集群Deeplink,此外我们辐射到各种各样的行业。
我们团队的特点,就是拥有一批国际广泛影响力的成果。在人工智能领域,我们拿到的最佳论文数量应该是全世界之一。在2013年之前,计算机视觉领域内总共有29篇论文涉及到深度学习,其中有14篇是属于我们团队,我们的数量仅次于谷歌微软这样大的公司。
简单的介绍几个核心任务。ImageNet的特点就是数据规模特别大,种类很多。从传统图像分类、定位、一般物品检测、场景理解和层次结构化的分割,基本上覆盖了从底层视觉到高层视觉。从2010年以来,这个比赛一直是风向标。我们团队从2014年开始参加这个挑战赛,2014年是亚军,今年我们在三项任务中获得冠军,并且与竞争对手有较大的差距。
我们最早提出了DeepID,当时在LFW数据集上,首次汇报超过人类肉眼的算法,这也成为了当年AAAI的最佳学术论文。
另外就是在更早以前,我们提出了在图像视频中的“快速去雾算法”,当时获得了2009年的最佳论文奖。
下图右边是我们搭建出来的一千层的网络,我们提出高效、可拓展、灵活性的框架。从算法、硬件平台到软件框架的设计能力,我们是全覆盖的。
此外我们还有前端,我们强调的是深度学习的学习能力。PPL是我们自己做的,所以在X86、ARM或者CUDA等不同的处理器架构上,我们有比较明显的优势。
现在我们有60多名的全职博士、100多名来自于北大清华的研发人员,还有来自于百度、微软、联想的大量工程团队。
产业化:四个领域布局
我们有了这么多的原创算法,有这么多的顶级科研,怎么在产业化做进一步的驱动?目前商汤科技主要是在四个行业里做产业化布局,包括:安防-智慧城市、金融行业(主要是互联网身份认证)、移动(娱乐互联网)和智慧商业。
我们看第一个,我们是最早做人脸比对系统的公司。基于视频,这是SenseFace的场景,可能大家知道一个新闻,在北京西站的乘客不用查身份证,已经可以通过刷脸进站了,这就是我们公司的产品。
这是今年新做的全局图象视频解析。因为我本人就是做这个出身的,在十年前做这个的时候,也获得了奖项。这种图象视频解析到产业界还有很长的距离,我们来看能不能在监控环境下实现精细化的人车属性、层次结构、运动信息的分析并且进行结构化存储,使得大量的视频数据和图象数据能够有效检索查询。这在交通行业和安防行业都将有广泛深刻的影响,我相信这个应该会促进下一个变革。
这是另外一个场景,基于多目标智能跟踪一体机。它能够通过预测对可疑目标进行抓拍,包括对车牌的快速抓拍识别。
这是我们在移动互联网另外一个场景,叫借贷宝,互联网金融一个难点就是如何实现实名认证,通过我们的算法能够实现检测,可以看出这是真人还是照片。
另外中国移动也已经实现了三亿的手机卡实名认证,这是我们线上的产品,通过人的运动来区分身份证进行比对。
这是移动互联网产品,有些比较潮的朋友可能都试过这样的产品,包括娱乐化、人脸的关键化定位、增强虚拟现实等。
我们还是最早将深度学习应用于城市学的公司,包括去模糊、去抖动等等。
这是我们将图象视频从安防领域推广到商业领域,我们叫智慧商业,包括对人群属性分析、人群区域属性分析等,来挖掘更多的商业价值,这都是基于视频的大数据分析。
我们的目标是AI+,我们希望通过2C端的技术来改变行业和相关的垂直领域,谢谢。