专栏名称: 映维网Nweon

映维网是一个始于2014年10月的增强现实（AR）、虚拟现实（VR）产业信息数据平台，专注于AR/VR产业发展及市场教育培养，致力于引导全球AR/VR产业发展，服务于全球各地的AR/VR创业者。

中外研究员提出用于实时多视图单手重建的新方法MLPHand

映维网Nweon · 公众号 · · 2024-12-29 11:50

正文

MLPHand可以将计算复杂度降低90%，同时实现与现有最先进基线相当的重建精度

（ 映维网Nweon 2024年12月27日 ）多视图手网格重建是虚拟现实和增强现实应用中的一个关键任务，但同时是一个艰巨的挑战。尽管现有的多视图手部重建方法取得了显著的准确性，但它们通常会伴随着大量的计算负担，阻碍了实时推断。

针对这个问题，中国科学院，南方科技大学，穆罕默德·本·扎耶德人工智能大学，中国人民大学，以及马里兰大学团队提出了一种用于实时多视图单手重建的新方法MLPHand。

MLP Hand由两个主要模块组成：

实验表明，MLPHand可以将计算复杂度降低90%，同时实现与现有最先进基线相当的重建精度。

手部网格重建在虚拟现实和增强现实领域中占有重要地位。它是一个基础组件，不仅可以增强游戏体验沉浸感，而且可以支撑众多应用程序。

给定捕获的信号（例如图像/视频/点云）作为输入，先进的手部重建方法通常采用深度学习模型来同时预测手的形状和姿势。最终的目标是恢复一个详细的手网格。基于这一目标，单视图手部重建方法近年来取得了显著进展。但由于深度模糊和自遮挡，从单个图像中恢复三维结构是一个不适定问题。

为了克服相关限制，使用多视图图像重建对象已经成为一种备受关注的方法，而且这种策略已证明可在人体姿势和形状估计任务中提高准确性。不过，相关研究主要集中在全身姿势和形状重建，忽视了单手重建的具体挑战。

为了解决这一差距，业界提出了用于多视图单手重建的POEM，并取得了令人印象深刻的精度。然而，其复杂的交叉特征交互带来了巨大的计算需求，从而限制了其推理速度。

快速的推理时间在手部重建任务中至关重要，在评估重建方法的有效性时，效率和准确性同样重要。所以，一个关键的问题出现了：我们能否在不牺牲精度的情况下开发一种实时手部重建方法？

针对这个问题，中国科学院，南方科技大学，穆罕默德·本·扎耶德人工智能大学，中国人民大学，以及马里兰大学团队提出了MLPHand。

研究人员表示，这是第一个实时多视图手部重建方法。它包含实现实时推理的两个关键创新。首先，受MLP几何建模的进展的启发，他们提出了一个轻量级的Skeleton2Mesh模型。模型采用纯MLP架构并选择定制的三轴模型Per-Bone重建方案，所以网络非常简单，支持实时前向传播进行手部网格恢复。

然后，团队提出了另一种基于MLP的多视图几何特征融合预测模块，以提高Skeleton2Mesh模型的性能。模块将多视图手部相关的视觉特征注入到Skeleton2Mesh模型中，从而在不影响推理速度的情况下提高手部细节的预测。

通过这两个关键设计，MLPHand可以从多视图图像中准确地重建人手，同时保持实时性能，显示了其作为一种实用、高效的多视图手部重建解决方案的潜力。

为了证实MLPHand的有效性和效率，研究人员在三个广泛采用的数据集进行了大量的实验。

结果表明，MLPHand不仅实现了实时性能，在3090 GPU以71 FPS的速度运行，而且与最先进的方法相比，参数大小（75%）和计算成本（90%）都显著降低。同时，MLPHand保持与现有基线相当的性能精度水平。