专栏名称: AI掘金志

雷锋网《AI掘金志》频道：只做计算机视觉 +「安防、医学影像、零售」三大传统领域的深度采访报道。

深度丨三维人脸识别的五大挑战与突围方法论

AI掘金志 · 公众号 · · 2019-08-27 19:14

正文

一文读懂三维人脸识别最新技术路径与商用模式。

作者 | 周蕾

AI掘金志按：本文为IEEE Fellow、前美国Fiserv东亚及东南亚总裁王强博士，在CCF-GAIR全球人工智能与机器人峰会中的演讲全文：

大家知道现在iPhone X可以做人脸支付，人脸支付也存在了好多年，表面看起来应用较为成熟，但其实它不断面临的难题和新挑战一直困扰着全球学术和产业界。行业有这么一个现象，每一项新技术的突破，背后也将不断涌现出新的安全破解方法。

其实苹果三维人脸识别的部分专利，是由我的团队所研究。而我今天在这里面将会给大家，分享什么样的三维人脸识别算法，可以在工业界达到顶尖的安全标准，抵御风险，并能高于指纹、声维等生物特征支付的安全性，并具备极高的防抵赖和防破解能力。

从二维到三维， 计算机视觉发展之路

我们知道，近些年ResNet和GAN的发展对AI起到了非常大的帮助。现在我们把时间拨回到上个世纪，计算机视觉之父David Marr曾把计算机视觉分为三个阶层。

二维基素图（2-D sketch）

视觉过程的第一个阶段，以人脸图像来看，是图像中强度变化剧烈处的位置及其几何分布和组织结构，人脸中用到的包括斑点、端点、边缘片断、有效线段、线段组、曲线组织、边界等基元，这些称为人脸基素图，都是在检测零交叉的基础上产生。目前人脸识别大都是二维图像，这也是处理第一步进行零交叉检测生产人脸基元。

Marr认为所有图像的变化，都是从视觉和感觉两个方向看待的。人脸一旦有明暗或者有一个完全突变的过程，他认为这就是一个元素。这一阶段的目的在于把原始人脸二维图像中的重要信息更清楚地表示出来。

2.5维要素图

这是视觉过程的第二阶段，拿人脸来说，通过RGB等处理，将线条、点和斑点以不同的方式组织起来而获得2.5维人脸图。以人眼的仿生视觉过程被称为中期视觉。2.5维人脸图是在以观察者为中心的坐标系中，可见表面的法线方向、大致的深度以及它们的不连续轮廓等要素，其中用到的基元包括可见表面上各点的法线方向、和各点离观察者的距离（Deep）、深度上的不连续点、表面法线方向上的不连续点等等。

由于这个阶段中包含了深度的信息，因而比二维人脸图像要多，但还不是真正的三维表示，所以得名2.5维人脸图，大家可能看得比较清楚。你用人眼视角看，不能完全看到整个三维的情况，后面会有遮挡的情况。按Marr的理论，这个阶段是由一系列相对独立的处理模块组成的。

这些处理模块包括：体现、运动、由表面明暗恢复形状、由表面轮廓线恢复形状、由表面纹理恢复形状等。它的作用是揭示一个图像的表面特征。Marr指出，早期任何视觉加工的目标就是要建立一个2.5维的要素图，这是把一个表面解释为一个特定的物体或一组物体之前的最后一步。

基于二到二点五到三维重建的技术的三维模型表征（3-D model representation）

他是以人脸为中心的坐标系中，用含有体积基元（即表示形状所占体积的基元）和面积基元的模块化分层次表象，描述形状和形状的空间组织形式，其表征包括容积、大小、形状及姿态变化后体积基元的变化，包括现在成熟一些的云三维重建技术等，这个领域全球的科学家从1980年耕耘到现在将近有40年。进度一直受限于很多原因：一是传感器和算力，二是摄像机和三维人脸样本库及标注。

早期三维摄像机都非常昂贵，动辄几十万美金，成本一般人确实无法承受，同时获取图像基素符号也受到距离和精度的影响。

在这其中，三维世界里最难处理的问题是姿态的调整，面对物体刚性的变化，三维重建比较容易解决；但面对柔性刚体的对象，比如人脸这类柔性姿态形变的时候，三维技术就很难处理。

三维视觉技术关键之一：三维重建

三维重建分为接触类、非接触类和透视类三大类。

接触式三维重建： 包括3D打印、3D扫描、三维机械铸造等；

透视类三维重建 主要在医学领域，包括MR和CT等医疗影像领域；

非接触式三维重建 包含光学与非光学两类：

非光学三维重建，比较常见为激光雷达和声纳等方式，现在激光雷达的发展非常迅速，但它的最大问题是效率较低；而声纳的优势在于扫描宽度很大，但精度不够。激光雷达和声呐的三维重建更多用于工业场景，对于生活场景和金融场景是做不到的。

光学重建有分为被动光学和主动光学的重建。三维重建里有三类最为重要光学重建技术：主动光学的TOF、结构光和被动光学的双目和夺目立体视觉；结构光有分为编码结构光和散斑结构光。

TOF

双目立体视觉

3D结构光

结构光最常见的应用场景就是iPhoneX的刷脸解锁。其实苹果十年前就在布局结构光技术，其中部分专利来自当时我所负责的团队和一家以色列公司合作研发的。其实苹果的3D结构光技术首先得感谢微软的一代Kinect，它是这一技术大规模应用的集大成者。

目前按照移动设备领域，据报道，TOF领域全球布局的手机巨头只有OPPO一家。应用编码结构光的有小米、VIVO、应用散斑结构光只有苹果一家；双目立体光主要是华为。

而主动光源主要基于RGB 及D（深度信息），研究者从RGB及灰度中提取斑点、端点、边缘片断、有效线段、线段组、曲线组织、边界等纹理变化基素；从D（Deep）提取表面上各点的法线方向、和各点离观察者的距离（Deep）、深度上的不连续点、表面法线方向上的不连续点等曲面特征和纹理特质进行三维点云重建等来打造工业场景。预估苹果也在被动光学里布局双目立体。

无论是TOF、结构光还是双目立体，他们目前在人脸识别领域还面临很多问题。

TOF是不可见的面积光，人脸面积最大也就是500-600平方厘米，TOF的一面光打过来大概会有30多万个有效深度信息点，30万点扫描到人脸时，像素的精度差不多到微米级，1/10毫米的精度。它所获得你的景深、RGB值、灰度值是非常准确的。同时它获得最关键的值是人脸的表面纹理、深度纹理及法线曲度等细粒度特征信息，其结果也非常精确。

结构光目前最多现在有10万个点，iPhone X的散斑结构光方案是3万个结构光点，所有投射过来通过类毛玻璃慢衍射形成的斑点集合，用统计学原理及互相关函数等来模拟三维结构化重建过程。

从光学的角度来说，采集到基素及要素信息之后，如何进行快速计算，然后再用三维场景重建，现在所有的方法都是2维变成2.5维。David Marr提到的方式，也是二维到二点五维到三维。在这个过程中大家用了很多方法包括几何方法、统计学方法及点云等进行三维重建，其实没有太多大的进展。

三维人脸识别五大挑战及解决思路

三维最高端的应用场景就是三维人脸识别，但它面临很多的挑战：

1.姿态的变化

比如苹果人脸解锁，人的双目需要紧盯着它的屏幕，否则就无法解锁；此外，如果人的身体有后仰或者张嘴大笑，也无法解锁，不过如果你经常笑，它可以自动学习进行解锁。

2.离线学习能力

iPhoneX如此大的出货量，仍旧保持超高体验的三维人脸识别率，可见其背后的离线学习能力之强大。像国内业内知名的人脸识别公司，他们的算法纵使厉害，但在如此大规模的实际场景中，它们的三维人脸可以脱离GPU或TPU，实现多大规模的高效离线计算呢？目前他们还没有这么大的用户量去考验。

三维人脸识别最大的障碍是算力不够，我们没有像样的芯片。据相关资料分析，目前能提供这样芯片的大概有5家，国内一家、微软、英特尔、苹果、Mantis Vision，同时这些芯片几乎都是输出RGB和D值，提供基素信息，但是复杂的要素检测、三维重建、标注、识别及姿态矫正、局部到全局的泛化需要具有嵌入各类模型算法的算力芯片。

从数据上看，我们认为目前算力最强的，还是苹果收购的PrimeSense，它可以做离线运算出RGBD值及三维重建模型匹配给苹果A11-A12运算器进行人脸模型计算，将复杂模型计算进行分布式部署，同时三维人脸模型数量远远低于二位人脸模型数量（以商汤240特征点模型为例来比较），降低芯片算力要求。

这里我需要强调一点，并不是所有算法都可以进行离线运算，它后台要有结构化分布式的算法逻辑模型及少量的模型数量才能保证降维情况下离线运算，要样本少、维度低才可以做到。

3.误解率

苹果号称有百万分之一的误解率，国内好几家也达到这个级别。目前没有足够的数据支撑它达到这么高，相关的原理也没有公开过。

4.算力

芯片的能力，具备结构化的分布式算法模型计算能力，要求基素、要素及特征模型分布式协调并行计算能力，既有分布式又有交互计算的运算框架，这个要求很高，对芯片的多框架计算能力设计非常严谨和苛刻。

5.第一次注册效率

第一次的注册用时非常关键，注册时需要很强的少样本带自标注的自学习能力。

来看下我们后面的方案：

原来我在CMU时的前辈团队用三维相机做几何建模，包括立体光几何的建模，这属于被动的建模。

深度丨三维人脸识别的五大挑战与突围方法论

正文

请到「今天看啥」查看全文