专栏名称: AI掘金志

雷锋网《AI掘金志》频道：只做计算机视觉 +「安防、医学影像、零售」三大传统领域的深度采访报道。

商汤王晓刚：你所不知的商汤三维视觉产品世界丨CCF-GAIR 2019

AI掘金志 · 公众号 · · 2019-07-17 18:13

正文

商汤过去、现在及未来持续会做的是：在算法精度不断提升的前提下，拓展智慧城市从1到N的业务边界、促进2D感知到3D世界的落地，以及场景现实到虚拟现实的融合。

作者 | 张栋

7月12日-7月14日，2019第四届全球人工智能与机器人峰会（CCF-GAIR 2019）于深圳正式召开。

峰会由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）承办，深圳市人工智能与机器人研究院协办，得到了深圳市政府的大力指导，是国内人工智能和机器人学术界、工业界及投资界三大领域的顶级交流博览盛会，旨在打造国内人工智能领域极具实力的跨界交流合作平台。

7月14日下午，在「智慧城市·视觉智能」专场上，商汤科技联合创始人、研究院院长、移动智能事业群总裁王晓刚带来了题为《从学术到产业化的人工智能》的主题分享。

王晓刚回顾了人脸识别从学术到工业界的持续进步历程，以及人脸识别在智慧城市、智慧通行、手机、AR、游戏等具体场景中的应用。

他提出，计算机视觉研究有几个比较重要的部分：

一是基础层， 包括芯片、AI超算平台、深度学习平台等基础方面的研究，在这方面，中国还有很长地路要走，西方尤其是美国领先我们很多。

二是应用层， 这一块中国是比较擅长的，我们有非常丰富的应用场景，这些应用场景可以给我们更多的反馈，驱动我们的算法不断地进步。

三是工具链层， 人工智能赋能百业，当不同领域需要人工智能技术越来越多的时候，它对科学家或者研究员的需求是线性增长的。如何让普通的开发者、公测人员可以根据我们的工具链迅速开发出合适的人工智能解决方案，使其生产力充分释放出来，这是未来我们需要面临的重大课题。

在这个过程中，商汤以往、现在以及未来持续会做的是： 在算法精度不断提升的前提下，拓展智慧城市从1到N的业务边界、促进2D感知到3D世界的落地，以及场景现实到虚拟现实的融合。

2014年，商汤团队发表DeepID系列人脸识别算法，使其全球首次超过人眼识别率，之后随着技术的持续进步，业务也不断突破边界，从相对简单的1：1识别向1：N进发。

目前，商汤所做的工作是如何从几万到几十万人中，识别和分析出用户想要找的人或者物，随着场景不断地拓展，王晓刚认为人脸会逐渐成为人的身份标志。

另外，在3D的应用上，商汤的3D人脸识别方案也已经在很多手机上得到应用。

王晓刚现场展示了手机上通过3D摄像头拍摄的人脸、物体以及人体图像进行3D重建，未来2D的相册还能拓展到3D相册，人体的跟踪上也从2D延伸到3D。

以下是王晓刚教授大会现场全部演讲内容，雷锋网作了不改变原意的整理及编辑：

王晓刚：感谢大会的邀请，我是香港中文大学的一名教授，同时也参与商汤在人工智能产业方面的落地，今天非常高兴能有机会与大家分享我在学术研究与工业化落地方面的一点个人体会与看法。

我自己有这样的一些经历，我们在实验室带着学生做研究，更多地是利用有限的计算资源和数据资源做学术界里的经典问题，“作坊式”地实现一些创新和突破。

随着人工智能在工业界大规模落地，市场给了技术发展很大的助力，包括可研究的内容、可研究的工具、可研究的形式。

我比较认同贾佳亚老师（上一位演讲嘉宾）所说的未来不同研究领域的一些融合。

我认为现在我们的研究更多地停留在算法层次， 未来的人工智能研究很重要的方面是软硬的结合、算法和芯片的结合、算法和传感器的联合优化，这些都是比较重要的几个方向。

而这些方向往往都需要更强的工业界支持，因为后者可以提供更多的硬件能力、更大的研究课题。

首先，业务系统对于我们的研究是非常重要的。比如一个普通城市，至少都有上万个摄像头，一年积累的人脸数据超过上千亿，如果将这些摄像头连在同一个平台上，如何在大平台上进行高效率地图像搜索和大数据分析，这是实验室中难以接触到的问题。

另外，我们的计算平台在现有的一些工业研究领域，能够同时使用几百块GPU训练一个模型，从而做到快速反馈。

同时，还有很多长尾的人工智能问题需要解决。我们需要建立一套高效的工具链，可以做到全面的测试和评估。

比如我们做人脸识别、计算机视觉识别问题，在学术领域，我们在实验室里也有工具，但真正工业应用落地其实要做大量的测试，后者会反馈出非常多的问题。

而以上这些要素，均是学术实验室所不具备的。

商汤科技成立于2014年，初创研究团队来自于香港中文大学，大概有20年历史的学术积淀。

我们一直与学术界保持着密切地交流，包括与MIT、南洋理工、清华、北大等高校都设有联合实验室，可以提供不同行业的人工智能算法和解决方案。

过去几年，我们除了做一些工业落地方面的研究，也会兼顾学术方面的探索，在ICCV、ECCV上发表了几百篇论文。

我们和香港中文大学联合实验室共同启动OpenMMLab开源算法库，其中包含了大家经常关注的计算机视觉问题，如物体的检测、行为的识别和超分等。

经典算法开源，可以帮助大家更好地复现，目前也有一些其他院校加入到了这个开源平台的构建中。

同时，我们还提供了SenseAR增强现实的开发者平台，这是学术和工业联合研究的例子。

它不仅有增强现实AR和AI功能集成，从SLAM到人脸、人体的识别等，还可以部署到不同的手机上，目前这个平台已经部署在超过5000万台的手机上。

我们认为做计算机视觉或者人工智能方面的研究有几个比较重要的方面：

一是基础层， 包括芯片、AI超算平台、深度学习平台等基础方面的研究，在这方面，我们还有很长地路要走，西方尤其是美国领先我们很多。

二是应用层， 这一块中国是比较擅长的，我们有非常丰富的应用场景，这些应用场景可以给我们更多的反馈，驱动我们的算法不断地进步。

三是工具链层， 人工智能赋能百业，当不同领域需要人工智能技术越来越多的时候，它对科学家或者研究员的需求是线性增长的，如何让普通的开发者、公测人员可以根据我们的工具链迅速开发出合适的人工智能解决方案，使其生产力充分释放出来，这是未来我们需要面临的重大课题。

举几个例子，在算法精度不断提升的前提下，如何拓展智慧城市从1到N的业务边界、促进2D感知到3D世界的落地，以及现实到虚拟现实的融合？

我们知道，人工智能的工业应用时间点是在2014年，2014年商汤团队发表DeepID系列人脸识别算法全球首次超过人眼识别率。

而后，很多人认为当技术超过肉眼识别率时，问题就已经解决的差不多了，其实不是这样，现实生活中，很多场景对于技术的需求远远超过肉眼识别的水平。

2014年，当时的技术误识率是在千分之一，现在每年都有几个量级的增长。从过去几年中可以看到，随着人脸识别技术精度持续增长，它可以不断地突破业务的边界。

此前，识别率比较低时，可以做1：1比对，如人脸、身份证进行线上线下认证，现在很多产品已经出现在机场、酒店中。

从2017年开始，人脸识别技术开始应用于手机解锁功能，手机虽小但其要求更高，因为手机不但要识别准确，还要防止活体攻击，这其中还包含各种各样活体攻击方式，从照片到视频再到3D模型。

过去几年里，我们的SenseID人脸识别、活体检测水平持续提升，可以让这一项技术进入普罗大众的日常生活中。

据统计，现在人们每天使用手机人脸解锁这项功能超过100亿次。

如果1：1是相对简单的问题，1：N就更加复杂。

我们需要有数据库，这里的数据库可能是几万或者几十万量级。在门禁、闸机等通行场景中，一个大楼或者公司有1、2万人的数据库；智慧城市的数据库可能达到几十万的量级。

商汤所做的就是从几万到几十万人中识别和分析所需要找的人与物。随着场景不断的拓展，我们可以看到人脸渐渐的成为人的身份标志。

现在大家看到的是我们在上海西岸的“智慧公共空间管理平台”，这个区域有密集的摄像头，可以通过人脸识别、跟物体的关联等，寻找到我们想要找的人或者丢失的东西。

现在智慧城市应用里，我们可以看到有越来越多的摄像头具有AI的功能，越来越多的摄像头可以连接在同一个平台上。

为了数据安全和数据隐私的保护，我们会逐渐减少人工干预和标注，数据可以存储在客户那一端。

以前我们说算法性能的提升依靠人工标注，现在我们的数据量有几十亿甚至上百亿的量级，不太可能靠人工标注，我们需要依靠机器终身学习，使数据得到自动更新，部署系统和训练系统可以实现完美融合。

在3D应用方面，手机已经从单个RGB摄像头到多摄到3D摄像头。

2017年开始，苹果应用了结构光3D摄像头，后面我们可以陆续看到很多手机厂商不断地推出这样的机型，把有深度学习的摄像头装在手机上，可以带来很多新的研究课题和新的应用。

回顾一些大家比较熟悉的场景，看它如何从2D成长到3D并产生相应的应用。

比如最开始人脸的关键点，我们推出106个人脸关键点，主要是做人脸的属性、人脸特效，用在互联网直播等。

我们从106点到更稠密的240个人脸关键点，做的事情不仅是增加特效了，而且还有美妆，对人脸关键点的定位要求更准确。

化妆后出现关键点偏移，比如红嘴唇涂到牙齿上等等，这是我们不希望看到的，根据关键点，我们有智能的美颜、美妆，更多的功能需要更多稠密的关键点和定位。

现在手机上有了3D摄像头， 我们可以实现人脸3D重建，它对于技术的精度、计算复杂性、几何复杂性都提出了更高挑战。

目前，我们已经在OPPO、vivo手机上实现了商汤人脸3D重建，根据这个可以进行3D美颜、捏脸、微整形等。

商汤王晓刚：你所不知的商汤三维视觉产品世界丨CCF-GAIR 2019

正文

请到「今天看啥」查看全文