专栏名称: 我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿，“有价值有深度”，分享开源技术与最新论文解读，传播CVML技术的业内最佳实践。www.52cv.net 微博:计算机视觉与机器学习，QQ群:928997753，52CV君个人账号：Your-Word。

NeurIPS 2024 | 观物取象，穷理尽性：从视觉观测中推理物理运动规律

我爱计算机视觉 · 公众号 · 科技自媒体 · 2024-11-04 20:45

主要观点总结

本文介绍了NeurIPS 2024论文NeuMA: Neural Material Adaptor for Visual Grounding of Intrinsic Dynamics。文章关注从视觉观测中推理物理运动规律，提出了一种神经材质适配器（Neural Material Adaptor, NeuMA）来从视觉观测中推断物体的材质模型。该方法结合了物理仿真器和可微渲染器，具有良好的泛化性和可解释性。

关键观点总结

关键观点1: 研究背景

介绍了视觉动力学推断的重要性，以及现有方法的优缺点。引出本研究的核心问题：如何从视觉观测中准确地推断出物体的基本动力学属性。

关键观点2: 研究方案

提出了神经材质适配器（NeuMA）作为解决方案。通过将视觉动力学推断具象化为从视觉观测中推断物体的材质模型，设计了一种残差适配范式。该范式结合了专家设计的物理模型和基于视觉观测优化的校正项。

关键观点3: 实验结果

从视觉动力学推断、动态视频渲染、动力学泛化等方面进行了大量实验，验证了NeuMA的性能。展示了其在不同材质、不同初始条件下生成物理逼真的4D内容的能力。

关键观点4: 总结与展望

总结了NeuMA的优点和贡献，并展望了未来的研究方向，如AI设计和AI物理领域的发展。

正文

关注公众号，发现CV技术之美

本文分享 NeurIPS 2024 论文 NeuMA: Neural Material Adaptor for Visual Grounding of Intrinsic Dynamics ，观物取象，穷理尽性：从视觉观测中推理物理运动规律。

作者单位：上海交通大学，vivo
论文链接：https://arxiv.org/pdf/2410.08257>
项目主页：https://xjay18.github.io/projects/neuma.html

物有千种，材质不一而致动态过程各异。我们提出了一种神经材质适配器（Neural Material Adaptor, NeuMA），以从视觉观测中推理得到物体材质对应的运动规律（即物体的内在动力学表示）。通过这种方式得到的动力学表示具有良好的泛化性，可以直接应用于具有不同几何形状的物体，在不同初始条件下生成物理逼真的4D内容。

1 研究背景

1.1 视觉动力学推断

《易经·说卦》有言：“穷理尽性，以至于命”。穷究世间万物蕴含的根本原理，进而把握事物禀赋的全部德性，是古今学者修养追求的目标。在人工智能快速发展的今天，如何赋予机器像人类一样“观察、理解和推理”物理世界的能力，成为了机器学习和认知科学领域的研究重点。

试想当我们看到一个物体从高处下坠，落地后弹起的场景时，我们能很容易地定性描述这一物体的 基本动力学属性 ，比如初速度、材质构成等；并联想到具有相同材质、不同几何形状的物体下落后的动态。

这一认知能力通常被称为 视觉动力学推断 。为使人工智能系统也拥有这一能力，现有方法[1-2]采用的一般范式为： 将可微物理仿真器与可微渲染器结合，利用视觉观测的像素监督信号梯度更新物理参数，以推断得到物体的基本动力学属性。

1.2 物理仿真器

根据物理仿真器的实现方式，相关工作可以大致分为 黑盒方法 [2-3]与 白盒方法 [1,4]。黑盒方法使用神经网络来实现物理仿真器，并通过数据驱动的方式更新神经网络参数以对动态转换进行建模。

白盒方法则使用传统的数值仿真方法（如物质点法MPM、有限元法FEM等）通过偏微分方程来建模物体的动态转换过程。这类方法通过反向传播像素误差到物体的物理参数（例如杨氏模量、泊松比）来推理物体的动力学属性。

两类方法各有千秋。得益于隐式表征，黑盒方法能 更灵活 地逼近不同视觉动态，其 推理速度 相较于数值仿真器也 有明显优势 。

然而由于缺少显式的物理约束，黑盒方法容易 违背公认的物理规律 ，泛化能力不足。

另一方面，白盒方法使用数值仿真器，利用偏微分方程作为动态转移约束，因此无需采集大量数据以建模动态转移过程，天然具有 良好的泛化能力 。然而，白盒方法所依赖的偏微分方程大多是由专家通过数值分析拟合出来的，可能与现实场景中物体的实际动态 不完全一致 。

如何从视觉观测中准确地推断出物体的基本动力学属性 ，便是本研究的核心问题。

1.3 材质模型

材质模型（也称作本构模型）是连续介质力学中的一个基本概念。它描述了材质的力学特性，即 应变与应力之间的关系 。在动力学系统中，材质模型通过定义物体响应外力作用的方式，刻画了物体的 内在运动规律 。

例如，为人熟知的胡克定律（F=ks）描述了弹性形变与弹性力之间的关系。在弹性动力学系统下，需要定义两种类型的材质模型，分别为 弹性材质模型 与 塑性材质模型 。

前者描述了应力与弹性形变梯度的关系，后者则定义了一个返回映射，将弹性形变梯度投影到塑性屈服约束上，以建模塑性形变。通过选择合适的材质模型，我们可以准确模拟物体在外力作用下的运动和形变，从而预测系统的动力学行为。

2 研究方案

为了解答本研究的核心问题，我们提出了一种神经材质适配器（NeuMA）。如前所述，物体的内在运动规律可以由材质模型来刻画。因此，我们将视觉动力学推断具象为从视觉观测中推断物体的材质模型，并设计了一种残差适配范式：。其中，为专家设计的物理模型（例如Neo-hookean弹性模型、von Mises塑性模型等），表示基于视觉观测优化的校正项。

这一范式具有两大优点。

准确与灵活 ：与白盒方法完全依赖于专家定义的物理模型（）不同，NeuMA能通过优化来更好地推断物体的内在动力学，以与视觉观察结果保持一致；
泛化与可解释 ：与黑盒方法完全忽略物理先验不同，NeuMA根据普遍接受的物理模型（）来拟合实际动力学，以确保物理约束得到遵守。

具体实现： 我们借鉴了可微物理仿真的最新进展，使用神经本构模型（Neural Constitutive Laws, NCLaw）[5]作为物理先验（即）。为了保证对校正项的修改不会破坏原有的物理先验，我们使用低秩适配（Low-rank adaptation, LoRA）技术建模。

我们将神经材质适配器嵌入MPM中作为可微物理仿真器，并基于三维高斯泼溅（3DGS）提出以粒子空间位置为条件的Particle-GS作为可微渲染器。Particle-GS根据仿真粒子的空间位置等物理状态同步驱动高斯核，以渲染得到物理真实的图像序列。

Particle-GS作为仿真与渲染之间的桥梁，使得像素误差可以反向传播至材质模型，以更新校正项。

如上图所示，本研究进行视觉动力学推断的过程主要分为三个阶段：初始状态获取，物理仿真，动态场景渲染。

在第一阶段，我们利用3DGS重建得到表示物体外观的高斯核，并使用多视角几何重建得到表面网格。我们在表面网格内部均匀采样仿真粒子以满足连续介质假设，保证物理仿真的真实性。此后，粒子高斯泼溅技术将根据粒子与高斯核间的Mahalanobis距离计算绑定关系。

在第二阶段，我们使用MPM进行物理仿真，通过辛欧拉（Symplectic Euler）法进行时间积分以更新仿真粒子的物理状态。

在第三阶段，我们根据更新后的粒子属性与第一阶段计算的粒子-高斯核绑定关系更新高斯核，并利用高斯泼溅渲染二维图像。具体细节请参考论文第三章节的内容。

3 实验结果

我们从视觉动力学推断、动态视频渲染、动力学泛化等方面入手，在合成数据以及真实数据上进行了大量的实验以验证NeuMA的性能。

3.1 动力学推断

从上图中可以看出，对于不同材质，NeuMA均能够根据视觉观测纠正专家模型（即先验）的偏差，以推理得到符合实际的物体动态。

进一步地，我们还探究了两个相关问题。

仅依赖视觉观测来进行动力学推断是否可靠？
所提出的Particle-GS是否有效地将仿真与渲染联系起来，以使视觉监督可以用来优化物理材质属性？