三维最高端的应用场景就是三维人脸识别,但它面临很多的挑战:
1.姿态的变化
比如苹果人脸解锁,人的双目需要紧盯着它的屏幕,否则就无法解锁;此外,如果人的身体有后仰或者张嘴大笑,也无法解锁,不过如果你经常笑,它可以自动学习进行解锁。
2.离线学习能力
iPhoneX如此大的出货量,仍旧保持超高体验的三维人脸识别率,可见其背后的离线学习能力之强大。像国内业内知名的人脸识别公司,他们的算法纵使厉害,但在如此大规模的实际场景中,它们的三维人脸可以脱离GPU或TPU,实现多大规模的高效离线计算呢?目前他们还没有这么大的用户量去考验。
三维人脸识别最大的障碍是算力不够,我们没有像样的芯片。据相关资料分析,目前能提供这样芯片的大概有5家,国内一家、微软、英特尔、苹果、Mantis Vision,同时这些芯片几乎都是输出RGB和D值,提供基素信息,但是复杂的要素检测、三维重建、标注、识别及姿态矫正、局部到全局的泛化需要具有嵌入各类模型算法的算力芯片。
从数据上看,我们认为目前算力最强的,还是苹果收购的PrimeSense,它可以做离线运算出RGBD值及三维重建模型匹配给苹果A11-A12运算器进行人脸模型计算,将复杂模型计算进行分布式部署,同时三维人脸模型数量远远低于二位人脸模型数量(以商汤240特征点模型为例来比较),降低芯片算力要求。
这里我需要强调一点,并不是所有算法都可以进行离线运算,它后台要有结构化分布式的算法逻辑模型及少量的模型数量才能保证降维情况下离线运算,要样本少、维度低才可以做到。
3.误解率
苹果号称有百万分之一的误解率,国内好几家也达到这个级别。目前没有足够的数据支撑它达到这么高,相关的原理也没有公开过。
4.算力
芯片的能力,具备结构化的分布式算法模型计算能力,要求基素、要素及特征模型分布式协调并行计算能力,既有分布式又有交互计算的运算框架,这个要求很高,对芯片的多框架计算能力设计非常严谨和苛刻。
5.第一次注册效率
第一次的注册用时非常关键,注册时需要很强的少样本带自标注的自学习能力。
来看下我们后面的方案:
原来我在CMU时的前辈团队用三维相机做几何建模,包括立体光几何的建模,这属于被动的建模。