本文约1000字,建议阅读5分钟
在本论文中,我构建了多个系统,用于从有限的图像观测中恢复场景表示。
随着我们开始与人工智能系统进行互动,我们需要它们能够以 4D 视角解读视觉世界——即感知世界中的几何结构和运动。然而,图像空间中的像素差异可能来自几何结构(通过相机运动)或世界中的场景运动。要从单一视频中解开这两种来源是极度欠约束的。在本论文中,我构建了多个系统,用于从有限的图像观测中恢复场景表示。具体来说,我研究了一系列问题,这些问题构建了通向 4D 单目恢复问题的路径,每个问题都解决了该问题欠约束的不同方面。首先,我研究了在没有场景运动的情况下从欠约束输入中恢复形状的问题。具体而言,我提出了 pixelNeRF,这是一种从单个或少数视图合成静态场景新视角的方法。我们通过在多个场景的图像特征上训练一个 3D 神经表示来学习场景先验。这种学习到的场景先验使得能够从单一或少量图像的欠约束输入中完成 3D 场景。接下来,我研究了在没有 3D 形状的情况下恢复运动的问题。特别地,我提出了 Deformable Sprites,一种从输入视频中提取动态场景中持久元素的方法。我们将每个元素表示为在视频中变形的 2D 图像层。最后,我介绍了两个关于从单一视频中联合恢复 4D 世界的形状和运动的研究。我首先研究了动态人类的特例,并提出了 SLAHMR,其中我们从单个视频中恢复了在世界坐标系中的所有人和相机的全局姿态。然后,我扩展到恢复单个视频中的任何动态对象的一般情况,即 Shape of Motion,在其中我们将整个场景表示为 4D 高斯分布,这可以用于动态新视角合成和 3D 跟踪。数据派THU作为数据科学类公众号,背靠清华大学大数据研究中心,分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识,努力建设数据人才聚集平台、打造中国大数据最强集团军。
新浪微博:@数据派THU
微信视频号:数据派THU
今日头条:数据派THU