2.1、从实验室到落地应用,人脸识别商业化道阻且长
长久以来,技术创新不足、应用推广有限、价格成本高企是制约人脸识别发展的三大因素。研究人脸识别算法优化、轻量化的团队较少,算法的优化尚未完成,在功耗小的情况下保持一定的速度和精度是人脸识别应用发展的难点。因此最近几年人脸识别虽然被广泛应用到出入境通关、机场安检等政府部门中,但一直没能真正进入到更广泛的商业化应用领域中。
第一,在技术层面上,
人脸识别的精准度和核心算法的原始创新不足、技术标准制定还不完善,快速准确完成人脸识别需要解决很多技术上的难点:
自身生理变化。
在人脸比对的过程中,如果自身与数据库里面存储的人脸发生了较大的生理变化,例如经历剃须、换发型、戴眼镜遮挡等变化。即使外貌并没有发生太多变化,人通过脸部的变化产生很多表情,都有可能会引起比对失败。
外部环境影响。
人脸受到很多外部因素的影响:在不同的角度进行拍摄,人脸的视觉图像相差很大;容易受到光照条件影响,比如白天和黑夜、室内和室外的光照存在较大差异。
除了这两种情况,还有人为的整容行为、双胞胎等极端情况存在。如何规避这些外因对于人脸识别速度和识别效果的影响,一直都是科研的重点研究方向。
第二,应用方面上,
人脸识别基本局限在公安部门出入境管理等政府部门中,未能渗透到大规模商业级别应用和个人消费级别当中。在应用层面上,尽管在实验室等科研条件下,许多人脸识别技术的精准度已经达到99%、甚至99.5%以上的水平,但是这些技术和方案很难落地到实际应用层面上。人脸识别技术落地的过程中,需要考虑到不同的场景运用。在实际落地过程中,指纹识别等其他生物识别由于技术成熟,不易受到外界因素影响,早已经运用到考勤认证、智能手机账号登录中,可替代物的成熟发展也制约了人脸识别产业化的进程。
第三,价格方面,
市场竞争不足和技术不成熟导致价格处于高位。由于技术不成熟,人脸识别技术并未应用到商业场景和消费级领域,大部分被运用到政府和公安部门,且采用系统集成的方式交付,一套系统的成本和价格非常高昂。
但近几年来,这一情形开始转向,三大问题正在逐渐得到解决。
技术:
深度学习算法的成熟,使得人脸的准确率得到大幅提升。以深度学习算法为基础的计算机技术的进步,为人脸识别提供了强大的计算和分析工具。反过来,巨量的生物特征数据也为机器训练提供了丰富的素材,“大数据成为人工智能的燃料”。人脸识别方面,Face++团队创造了世界上最高的人脸识别正确率,曾在人脸检测FDDB评测、人脸关键点定位300-W评测和人脸识别LFW评测上,接连拿下了三项世界第一。
应用:
目前,生物识别的应用场景已经极大地拓宽。银行在客户身份核验场景下应用生物识别,覆盖了弱实名电子账户开户、结算账户开户和存取款等不同风险层级的场景。第三方支付和手机银行等移动支付应用开始使用生物识别方案。公安部门在视频监控和多类场所的人员进出管理中大力引入人脸识别技术。在政策推动下,人脸识别也已入驻社保、教育、医疗系统。近几年,国内智能手机消费剧增,手机用户的移动支付习惯逐渐养成,智能家居渐受青睐,三方面个人消费需求的增长推动手机端的消费级人脸识别开始爆发。
价格:
人脸识别设备近两年不断下降,汉王的500人规模人脸识别考勤机在2009年第一代推出时价格超过4000元,2010年第二代推出时已降至3000元左右,2012年第三代推出时进一步下降到2700元左右。
近年来,技术的进步和算法的改善让人脸识别技术迈上一个新的台阶,在国家政府推动和政策支持下,我国人脸识别技术和应用都取得了非常大的进步。受益于三大问题的逐步解决,国内人脸识别产业正迎来前所未有的发展机会,其应用范围和市场规模有望实现快速扩张。
2.2、驱动因素之一政策推动
国家政府部门的政策支持,为人脸识别的技术发展和商业落地提供了良好的环境。
我国推出系列支持政策,把人工智能提升到国家战略层面,并于2016年、2017年推出《互联网+人工智能三年实施行动方案》、《新一代人工智能发展规划》,对人工智能予以高度重视。人脸识别做为人工智能的应用方向之一也获得了国家政府的高度重视,尤其在社会治安保障上和金融效率加强和安全提高上皆有相应的政策支持,2015年人民银行就已经明确表示允许有条件的银行探索生物特征识别技术做为核验手段。
2.3、驱动因素之二技术升级
近红外人脸识别与可见光技术的结合、3D结构光、深度摄像头的发展都给人脸识别技术带来了技术革新。
1)、近红外人脸识别解决环境光线影响
如果使用普通的可见光图像进行识别,那么会容易受到环境光线变化的影响,因此在识别过程中往往需要采用预处理算法对光照进行处理。在光照预处理的过程中虽然能一定程度上消除光照的影响,但同时也会使图像损失一部分有用的信息。近红外人脸识别是为了解决光照问题提出的解决方案,使用强度高于环境光线的主动近红外光源成像,配合相应波段的光学滤片,可以得到与环境光照无关的人脸图像,人脸图像只会随着人与摄像头的距离变化而单调变化。
当人与光源距离不变时,近红外人脸图像非常稳定,因此近红外人脸识别非常适用于配合式处理的海关和自助通关系统中。近年来近红外人脸识别被广泛应用到如“深圳-香港生物护照自助通关系统”、“澳门-珠海生物护照自助通关系统”、“北京机场T3航站楼自助通关系统”等均取得了很好的效果。
虽然近红外人脸识别对比传统可见光人脸识别有了明显优势,但是这种办法也存在一些问题:第一,近红外主动光源会在眼镜上产生非常明显的反光,降低定位眼睛的准确度;第二,目前的大量视频和照片采用的相片都是可见光下采集的数据,因此不能用于逃犯追踪等场景;第三,近红外对距离有一定的限制,当人脸离摄像头较远时会影响精度。
2)、三维可形变模型解决姿态和表情问题
三维可形变模型用于解决人的姿态和表情变化的问题,具体是把输入的图像构建成一个三维的人脸模型,然后根据关键点的位置用三维模型把姿态扭转过来。当转至正面后,把这个表情进行归一化处理,变成一个中性的表情,最后输出的结果才进去人脸识别比对。3D可形变模型能够解决在大姿态、多表情的条件下人脸识别的准确率。
2.4、驱动因素之三算法改善
深度学习算法的突破大大促进了人工智能和人脸识别技术的发展,提高了识别的效率和精确度。
深度学习本质上是一种算法,通过模拟大脑的神经网络,使得计算机在某种程度上能够像人脑一样思考,它的主要特点是通过多层次的学习而得到对于原始数据的不同抽象程度的表示,进而提高分类和预测等任务的准确性。深度学习的概念源于人工神经网络的研究,是让计算机模拟大脑皮层神经网络的运作模式,达到计算机自己学习的目的。目前统治性的方法是Berkeley在2014年提出的全卷积网络(FCN),这个方法使得神经网络具有了有强大的结构化输出能力。
过去几年深度学习神经网络在解决人脸识别、语音识别、自然语言处理等诸多方面表现出非常好的性能,甚至能推进到很多中期和初期视觉理解问题上。
相对比以往的人脸识别,深度学习算法推动的人脸识别有以下巨大变化:
准确率更高。
应用深度学习算法的人脸识别技术,可以从原始数据中提取具有更高阶、表达能力更强的特征,这些特征往往使得分类效果更好,从而使得识别分类对象的准确率更高;
环境适应性更强。
同样是环境特征的提炼,深度学习算法可以自行提取更丰富、更适合的特征参数,从而达到更强的抗环境干扰能力。这意味着深度学习的人脸识别可以应用到更广泛的环境当中;
识别种类更丰富。
理论上只要有足够多的样本进行训练,深度学习能够实现比较精准的目标分类识别,自主特征识别的特点,又让深度学习特别适用于抽象、复杂的关于人的特征、行为的分析领域。
随着Facebook、Google、百度等科技巨头纷纷开源其深度学习框架,开发者可以在框架上建立自己的深度学习框架。
从2015年1月Facebook开源了自身的一个关注深度学习的开源软件项目Torch后,各大涉足人工智能领域的IT巨头谷歌、Facebook、IBM、微软、百度、雅虎等争相开源。科技巨头开源深度学习降低了人工智能应用的门槛,有助于产业的蓬勃发展。
深度学习发展推动下,众多人工智能创业公司搭建起深度学习框架。以商汤科技为例,商汤科技的深度学习框架包含以下三个主要部分:
高性能异构分布式平台:
分布式深度学习平台支持深度学习模型与算法的定制扩展,支持大量通用CPU,GPU或者CPU,GPU混合分布式运算。
深度学习并行训练集群系统:
由专为SenseTime深度学习定制的硬件平台以及针对硬件平台深度优化的软件组成。支持多机器多GPU分布式深度学习模型训练,极大提升了训练和迭代模型的速度。
高性能算法库:
包含了深度神经网络在内的各种机器学习算法与数学和图像处理算法;相对行业内开源平台库,带来2-5倍的性能提升。
Face++则使用完全自研的训练引擎“MegBrain”。除了核心引擎,Face++的体系结构组还搭建了一个强大的深度学习平台Brain++来管理庞大的GPU集群,完成数据标注和管理、模型训练、GPU集群中心化管理、产品化发布的自动化流程。
2.5、iPhone X 3D人脸解锁带来下一个技术风口
1)、解析苹果iPhone X人脸识别技术
与其他所有已存在的智能手机解锁和人脸识别产品不同,苹果iPhone X使用的3D解锁技术。
人脸解锁技术包括2D解锁和3D解锁
。
2D解锁
主要为软件级别解锁,运用非配合式活体和简单深度信息进行解锁;
3D人脸解锁
技术主要采集可见光影像叠加红外光深度影像,或侦测红外光投影光点变化。iPhone X运用3D双重结构光解决2D解锁的攻击,如过滤照片、视频。3D结构光解锁是还原级别的技术,可以过滤2D的信息。
对比小米Note 3和苹果iPhone X的人脸解锁,苹果iPhone 8采用结构光3D解锁技术,而小米采用的是单射2D解锁技术。两个产品的差异在于其底层技术的差异。3D技术通过结构光扫描信息还原人脸,2D技术不需要经过扫描信息并建模的复杂过程,两种技术的精确度相差不大。
根据2017苹果发布会的信息,iPhone X实现人脸解锁功能的组件可以分为前端的深度摄像头(包括红外镜头、点阵投影器、反光感应元件和前置摄像头四个组件)和配备A11生物神经网络引擎芯片。
前端:采用深度摄像头
iPhone X的FaceID人脸解锁运用的是3D 结构光技术。苹果iPhone X将整个系统称之为原深感摄像头(TrueDepth Camera System),包含四个重要部件:红外镜头(Infrared camera),点阵投影器(Dot projector),反光感应元件(Flood illuminator),前置摄像头(Front camera)。
点阵投影器将3万多个红外光侦测点投影在脸部,以3D形式记录和识别用户面部,绘制独一无二的面谱深度图,并将其存储起来。解锁时,iPhone X红外镜头投射出人脸看不见的红外光,并读取用户脸部的3D点阵图案、捕捉其红外图像、发送至处理器确认是否匹配,图片相近,即可解锁成功。整个系统除了能用于Face ID人脸验证,也可以扩展自拍功能,实现动画表情发布,和AR效果叠加。
后端:配备A11生物神经网络引擎芯片,人脸解锁达到毫秒级别
为了更好更快地完成实时面部数据比对,苹果根据A11芯片的能力专门构建了A11生物神经网络引擎,为人脸识别提供了足够强大的计算能力,从而让面部录入和解锁的过程顺畅而快速。神经引擎使用双核设计,每秒运算 6000 亿次,面部数据都由A11引擎在本地处理,使得人脸解锁速度可以达到毫秒级别。
A11芯片采用6核心设计,6个CPU内核可以同时使用,包括4个名为“Mistral核”的能效核(4*2.5Ghz)和2个名为“Monsoon”性能核,都具备独立寻址能力。A11里内置了苹果自研的3核GPU,可用于辅助人脸识别、语音识别等 AI 应用。
2)、三种3D感应技术
目前3D感应有3种主流方案:结构光,飞行时间(TOF)以及双目测距。
结构光(Structured Light):
结构光投射特定的光信息到物体表面后,由摄像头采集,这些光斑打在物体上后,因为与摄像头距离不同,被摄像头捕捉到的位置也不尽相同。根据物体造成的光信号的变化来计算物体的位置和深度等信息,进而复原整个三维空间。苹果iPhone X人脸识别技术即是采用了3D 结构光技术。
飞行时间TOF(Time Of Flight):
通过专有传感器,捕捉近红外光从发射到接收的飞行时间,判断物体距离。TOF的硬件实现方式和结构光类似,区别只是在于算法上,结构光采用编码过的光信息进行投射,而TOF直接计算光往返各像素点的相位差。此技术被微软用在了第二代的Kinct上。
双目测距(Stereo System):
原理类似人的双眼,在自然光下通过两个摄像头抓取图像,通过三角形原理来计算并获得深度信息,目前的双摄像头就是双目测距的典型应用。在移动设备上的应用较少,多用在户外机器人。(来源:雷锋网)
由于双目测距技术受限条件较多,不能在黑夜中使用,所以商用的3D深度视觉包括飞行时间和结构光两种技术。下面我们重点分析前两种3D深度视觉技术的特点。
结构光
3D 结构光双摄技术原理是主动发射特定红外结构光照射被检测物体,从而获取人像的3D 图像数据。这项技术将可以抵御目前所有的人脸识别破解手段,包括屏幕翻拍照片、翻拍视频、纸张打印、相片打印、立体模型等。
3D结构光的硬件目前由苹果公司垄断,苹果公司通过在2013年收购以色列公司PrimeSense获得此项技术。2005年PrimeSense在以色列成立,2009年E3大展微软发布了获得PrimeSense芯片授权的Kinect一代。2013年11月,苹果宣布3.6美元收购PrimeSense,此后PrimeSense再也没有对外发布过任何产品和技术。
PrimeSense主要提供传感器和中间件,可以让设备感知周边的三维环境,实现人机交互。这种技术用于前置摄像头,可以为拍照、背景虚化、人脸识别、手势识别带来便利。原理如下图所示,首先向空间投影一定图案,传感器获取反射回来的图案,与原图进行对比生成深度图。
在专利方面,苹果在15年获得人脸识别解锁设备的专利,特意保护红外传感器的使用。17年获得一项关于利用景深地图信息进行人脸识别技术的专利,其中提到采用特殊的红外线将将光辐射图投影到场景上,然后将其转换为深度图。如果在一个场景中如果出现了多个人时,可以根据不同人距离镜头距离的不同而识别面部。
飞行时间(TOF)
3D飞行时间(ToF)技术是计算光线飞行的时间:实现让装置发出脉冲光,并且在发射位置有个仪器接受目标物的反射光,飞行时间产生的时间差可以算出目标物的具体,从而创建人脸或者物体的3D深度图。
结构光和TOF两类技术特色各有千秋 。
两者都是利用了主动光源的技术,主动发射红外波段光源,照射场景,再根据反射回的成像来计算深度。结构光的优势在于技术成熟,深度图像分辨率较高,不需要特制感光芯片,只需要普通的CMOS感光芯片,让成本大大降低;但是缺点在于容易受到光照影响;TOF方案抗干扰性能好,深度精度和扫描速度更好,但是芯片并不成熟,集成难度高,成本短期内难降低。因此结构光方案是当前最为合理的智能手机3D感应技术,TOF则是未来发展方向。