点击下方
卡片
,关注
「3D视觉工坊」
公众号
选择
星标
,干货第一时间送达
来源:计算机视觉工坊
添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 论文信息
标题:GSTAR: Gaussian Surface Tracking and Reconstruction
作者:Chengwei Zheng, Lixin Xue, Juan Zarate, Jie Song
机构:ETH Zurich、HKUST(GZ)、HKUST
原文链接:https://arxiv.org/abs/2501.10283
代码链接:https://eth-ait.github.io/GSTAR/
1. 导读
3D高斯Splatting技术已经实现了静态场景的高效照片真实感渲染。最近的工作扩展了这些方法,以支持表面重建和跟踪。然而,由于复杂的拓扑变化,如表面出现、消失或分裂,用3D高斯曲线跟踪动态表面仍然具有挑战性。为了应对这些挑战,我们提出了GSTAR,一种新的方法,可以实现真实感绘制,精确的表面重建和对拓扑变化的一般动态场景的可靠三维跟踪。给定多视图捕捉作为输入,GSTAR将高斯面绑定到网格面来表示动态对象。对于具有一致拓扑的曲面,GSTAR维护网格拓扑并使用高斯函数跟踪网格。在拓扑发生变化的区域,GSTAR会自适应地解除高斯模型与网格的绑定,从而实现精确注册,并根据这些优化的高斯模型生成新的曲面。此外,我们引入了基于表面的场景流方法,为帧间跟踪提供了健壮的初始化。实验表明,我们的方法有效地跟踪和重建动态表面,提高一系列的应用。
2. 效果展示
图1.我们提出GSTAR,这是一种新颖的方法,它(a)能够在处理拓扑变化的同时实现动态场景的逼真渲染、表面重构和3D跟踪(b)GSTAR通过两种机制适应拓扑变化:对稳定表面进行一致跟踪(红色圆圈)和对新出现的几何体进行动态表面生成(橙色圆圈)。
外观和几何重建的比较。动态3D高斯函数和PhysAvatar导致次优的重建结果。HumanRF和2DGS缺乏跟踪能力,在严重遮挡下难以工作。相比之下,GSTAR在支持跟踪的同时提供高质量的重建。额外的比较在我们的补充材料中提供。
推荐课程:
实时400FPS!高精NeRF/Gaussian SLAM定位与建图
。
3. 主要贡献
我们的贡献如下。
一个新的框架,用于跟踪和重建三维高斯线性和网格,有效地管理拓扑变化。
一种高斯解约和表面重网格的方法,允许随着拓扑结构的发展生成新的表面。
·一种通过场景流变形处理帧间表面大或快速变形的方法。
4. 方法
我们的系统以多视图RGB-D视频作为输入。我们的目标是即使在表面拓扑发生变化时也能实现一致的重建和跟踪。为了表示动态物体,我们引入了高斯曲面--带有高斯贴图的网格这些贴图附着在它们的面上--这既可以实现准确的几何重建,又可以实现逼真的渲染(第2(c)图)。对于每一帧,我们首先通过从上一帧的场景流变形初始化表面位置(第2(b)图)。然后,我们使用多视图约束优化基于上一帧拓扑的高斯曲面。对于拓扑变化区域,我们通过我们的新高斯解绑权重进行检测,允许高斯从原始网格面中分离,并独立优化其位置。最后,我们进行重新网格化以更新拓扑变化几何,并确保我们的表示在其他区域保持一致(图2(e)
5. 实验结果
6. 局限性 & 总结
局限性。GSTAR可能会面临复杂或突然拓扑变化带来的挑战,例如当新人物突然进入场景时。它对多角度视频数据的依赖限制了其在一般公共场景下的适用性。与其他基于高斯的方法一样,它需要大量的资源进行高斯优化和网格优化,尽管它受益于实时渲染。
结论。我们提出了GSTAR,这是一种用于高质量外观重建、表面重建和3D跟踪的统一方法。我们的方法通过将高斯函数绑定到网格面来表示动态表面。对于拓扑变化的面,通过解绑高斯函数来重建新表面。GSTAR有效地处理了广泛的动态场景,为基于高斯函数的表示的新应用铺平了道路。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶
:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型、图像/视频生成等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: cv3d001,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d001
3D视觉工坊知识星球
「3D视觉从入门到精通」知识星球
(
点开有惊喜
)
,已沉淀6年,星球内资料包括:
秘制视频课程近20门
(包括
结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云
等)、
项目对接