从感知到理解、从理解到改变,人类时时刻刻都在与身边的物理世界发生互动。声、光、色、触觉、味觉等感知信号辅助人类认知这个世界。在计算机视觉领域里,人们通过分析大量的图像数据来帮助机器理解世界;在语音信号处理领域里,人们借助机器学习从大量的语音数据中解析语言的魅力。随着三维数据的日益增多,让机器通过分析三维数据来理解物理世界也方兴未艾,优秀的工作也层出不穷。 其中做为三维理解的第一步,人们希望能从数据中学习三维形体空间。
简而言之,我们希望理解同类形体的共性、异类物体的差异、为什么“椅子是椅子、桌子是桌子”、三维世界有什么、现在发生了什么、将会有什么发生。传统的三维形状理解一般依靠规则、根据固定模式、借助具体特征,但是随着三维数据种类和数量的增多,这类理解方案变得低效和不准确,对人为定义特征的依赖也导致已有方案在大数据面前捉襟见肘。而随着深度学习尤其是卷积神经网络(CNN)这一利器在各领域里的卓越表现,如何将CNN运用到三维数据上成为计算机视觉和图形学一个焦点课题。
形状空间与3D CNN
三维形状在数字世界里可以有不同的表达,如三角网格、点云、体素、参数曲面、隐式曲面等。不同的表达和CNN也有着不同的结合方式。有的方法将网格参数化到二维空间,在二维空间编码几何特征,并利用CNN在二维定义域上类似图像空间进行卷积;有的将曲面局部处理成测地圆盘域并在其上编码几何信号,然后在圆盘上进行CNN卷积;也有的以三维空间的体素作为定义域,示性函数作为信号(即物体形状内部信号编码为1,外部为0)进行3D卷积,将CNN直接拓展到三维空间;还有一大类方法是利用空间投影将物体变为多个视图下的二维影像,然后当作图像来处理。在近年的视觉、机器学习、计算机图形学的会议上,如CVPR/ICCV/NIPS/SIGGRAPH,针对三维形状的深度学习网络已开始大放光彩。但这些方法各有利弊,对输入也各有不同的要求。
我们希望发明一个对输入鲁棒(如不对形状拓扑、曲面光滑程度、物体可见范围等做过多假设)的三维CNN网络,用来处理纷杂的三维数据。这里面最接近我们期望的就是基于体素的3D CNN。基于体素的3D CNN是图像空间CNN的自然推广,然而从二维推广到三维,CNN涉及的离散元素(2D是像素,3D是体素)个数是空间格点分辨率的三次方,即。庞大的存储量和计算量让基于体素的3D CNN畏足于高分辨率,徘徊于这样低分辨率的数据中,使得该方法在众多的三维学习任务中饮恨败北。
原文链接:
http://mp.weixin.qq.com/s/xWWKZmEnGtiwJy4iDu4Fsw