TUPU
「AI&CV谜题招聘」系列活动前三期海报
AI科技评论按
:近日,图普科技发起的
「
AI&CV谜题招聘
」
系列活动又迎来了全新的第四期。
图普科技的谜题系列活动坚持
将高难度和趣味性相结合,鼓励挑战自我和充分发掘技术带来的乐趣。
据 AI 科技评论了解,
该活动前三期吸引了不少业内人士的关注和参与,对于近日刚刚发布的以
3DMM(3D morphable model)
为核心的第四期谜题挑战,我们采访到了谜题设计者图普科技工程师Meepo,以下是相关内容整理。
关于3DMM技术
一、可否简单介绍下3DMM?
第四期难度如何?
Meepo
:3D morphable model是用于人脸 3D 重建的一个统计模型,直观的说就是先建立一个有很多形
态各异的3D人脸模板库,然后认为任意一个人的3D 人脸模型可以用这些模板人脸线性叠加来表示。所以当 3DMM 用于人脸 3D 重建的时候,要解决的问题就是找到这个线性表示,具体来说就是求得各个模板的权重系数。本期在设计题目时就意识到大部分参与者可能对3DMM并不熟悉,所以尽可能简化了问题和明确了题意,难度从通过数据上看是有所提升的。
二、能举个例子吗?比如用单张人脸图片,怎么利用3DMM来做重建呢?
Meepo
:我就以经典的方式来阐述下这个问题的一种求解过程。一般来说 3DMM 会包含至少两部分的模型,一个部分是人脸的几何模型,描述人脸的 3D 几何形状,一部分是人脸的皮肤材质模型,描述了几何模型上每个位置的皮肤材质(颜色),当我们已经有了这样的一个 3DMM 模型,我们就可以用 analysis by synthesis 的思路来求解这个重建问题。所谓的 analysis by synthesis,在这个场景下是一个 Inverse Rendering 问题,就是说,我们把当前的人脸 3D 模型渲染到 2D 图像上,然后比对渲染的结果图和要重建的那张人脸图,然后根据比对的差异来调整所有的参数,然后根据调整了的参数重新渲染,继续比对原图,继续根据差异调整参数,就这样迭代多次,直到合成图,即渲染图和原图差异非常小,就求得了相应的参数。这些参数包括了前面提到的人脸形状参数和材质参数,还包括渲染涉及的投影参数,光照模型相关的参数。当我们最终求得这些参数,那么我们就能根据人脸模型的参数来表示原图中的人脸的3D 模型,可以根据投影参数获得人脸姿态信息之类的。
三、能简单介绍一下3DMM和深度学习/视觉结合的一些研究工作吗?
Meepo
:3DMM fitting,即求取参数的过程,按上述的经典方法进行建模的话,计算效率非常低下,所以在 3DMM 的论文出来之后就一直有相关的改进工作被提出,近几年神经网络特别是卷积神经网络,在视觉领域甚至自然语言处理的一些场景大获成功, 因此也开始被应用到这个问题上。典型的一个例子 CVPR 2016 上 Xiangyu Zhu 等人的出色工作 Face Alignment Across Large Poses: A 3D Solution, 设计了一个基于卷积网络的方案替代迭代优化算法来求取 3DMM 相关的参数,并用于 3D 人脸对齐, 其中有 PNCC 等巧妙的综合考虑 3DMM 和神经网络的特征设计。该文作者之一的 Xiaoming Liu 教授所在的研究组,有更多相关的工作,包括新近发表在 ICCV 2017 上的 Dense Face Alignment 和 Pose-Invariant Face Alignment with a Single CNN 。这块近几年有相当数量新工作,并且有不小的挖掘空间。
四、那3DMM这类人脸重建技术有哪些应用呢?
Meepo
:应用方面, 3DMM 在人脸相关的应用很多, 包括虚拟3D形象的建立, 人脸的新角度合成, 人脸动画,人脸识别等多方面的应用。以其中的人脸动画为例,前阵子 iPhone X 里面的绑定人脸动作的动画表情就可以基于 3DMM 来实现。当然 iPhone X 因为有非常好的 3D 传感器,所以它并不需要借助 3DMM 来进行人脸的 3D 重建,但普通手机不具备这种传感器,故可以以普通摄像头的照片或者视频为输入,借助 3DMM 进行人脸重建,进而实现类似的功能。如果对虚拟形象、人脸动画感兴趣,可以参考浙大周昆老师组近几年的相关工作。
五、既然3DMM有这么多应用方向,那你觉得有什么缺陷和不足呢?