专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
半导体行业联盟  ·  上海临港,2025重大签约:百亿项目1个,1 ... ·  2 天前  
Sir电影  ·  18岁以上谨慎观看! ·  2 天前  
桃桃淘电影  ·  刘亦菲,玫瑰盛放|赏色 ·  6 天前  
51好读  ›  专栏  ›  3DCV

透明物体都能重建!CMU开源FusionSense:结合常识、视觉实现稀疏视图3D重建

3DCV  · 公众号  ·  · 2024-10-15 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:3DCV

添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:FusionSense: Bridging Common Sense, Vision, and Touch for Robust Sparse-View Reconstruction

作者:Irving Fang, Kairui Shi, Xujin He, Siqi Tan, Yifan Wang, Hanwen Zhao, Hung-Jui Huang, Wenzhen Yuan, Chen Feng, Jing Zhang

机构:New York University、Carnegie Mellon University、University of Illinois, Urbana-Champaign

原文链接:https://arxiv.org/abs/2410.08282

代码链接:https://github.com/ai4ce/FusionSense

官方主页:https://ai4ce.github.io/FusionSense/

1. 导读

人类可以轻松地将常识知识与视觉和触觉的感官输入整合在一起,以了解周围环境。仿效这种能力,我们推出了FusionSense,一个新颖的3D重建框架,使机器人能够将基础模型的先验数据与视觉和感官传感器的高度稀疏观测数据融合。FusionSense解决了三个关键挑战:(i)机器人如何高效获取关于周围场景和物体的强健的全局形状信息?(ii)机器人怎样利用几何和常识先验策略性地选择物体上的触点?(iii)触觉信号等部分观测数据如何改善物体的整体表示?我们的框架采用3D高斯扫描作为核心表示,并纳入了涉及全局结构构建、物体视觉外壳修剪和局部几何约束的分层优化策略。这一进步在传统上具有挑战性的透明、反射或暗色物体的环境中,能够快速和强健地感知,从而实现更多的下游操作或导航任务。在现实世界数据上的实验表明,我们的框架优于先前最先进的稀疏观测量方法。所有代码和数据在项目网站上开源。

2. 引言

人类具有非凡的能力,能够无缝融合常识、视觉和触觉来感知周围环境,即便面对稀疏或不完整的视图也是如此。常识推理有助于填补感官数据的空白,视觉提供了对环境的广泛理解,而触觉则通过直接物理交互提供了关于纹理和材料特性的精细信息。认知输入与感官输入之间的这种协同作用,为复杂环境中的机器人感知带来了更加直观和高效的启发。

尽管取得了最近的进展,但当前的机器人感知系统尚未充分利用人类自然具备的多模态能力。诸如三维高斯溅射(3DGS)等新兴技术,展现出对复杂结构进行灵活高效三维重建的潜力。然而,基于视觉的方法,尤其是那些依赖于稀疏视图观测的方法,仍然面临着遮挡、光照条件不佳以及透明、反射或深色物体等复杂表面的挑战。其他方法利用预训练模型(如DeepSDF)进行形状补全,但它们在处理具有独特几何形状或精细细节的对象时仍然力不从心。相反,高分辨率光学触觉传感器[能够通过高分辨率的直接物理交互克服这些限制,但其感知范围有限。例如,强化学习策略需要协作机器人进行1631次触摸,才能完全探索YCB数据集中香蕉的表面,而该香蕉的表面积仅为216平方厘米。此外,虽然结合视觉和触觉数据的多模态方法在改善物体感知和三维重建方面展现出前景,但被动触摸策略通常会显著增加所需动作的数量。

为克服这些限制,我们提出了FusionSense,这是一个新颖的三维重建框架,它将来自基础模型的先验知识与来自视觉和触觉传感器的稀疏观测相结合。该框架的核心是三维高斯溅射,它提供了一种高效且可扩展的环境表示方法。在此框架中,表面法线监督被重点强调,以丰富全局和局部的几何细节。

具体而言,FusionSense建立在三个关键模块之上:

(i)鲁棒全局形状表示,其中引入了混合结构先验来初始化几何形状,并确保多视图一致性,同时采用外壳修剪约束来指导场景和对象的优化;

(ii)主动触摸选择,基于三维高斯溅射中高梯度代表复杂结构或溅射与图像之间不匹配的观察,并结合来自基础模型的常识知识进行决策;

(iii)局部几何优化,其中添加了新的锚点高斯分布来指导精细细节的优化,同时利用GelSight传感器提供的高分辨率触觉反馈来监督几何法线。

3. 效果展示

TLDR:机器人重建看得见地和用几何学精确的环境稀少的视觉和触觉数据

在稀疏观测条件下,对新视角合成、深度估计和法线估计进行了定性比较。比较结果展示了两个具有挑战性的对象(一只黑色兔子和一个透明的可口可乐杯)的场景。比较在以下三组之间进行:(i)参考组(真实RGB图像、来自RealSense相机的深度图像以及由DSINE单目法线基础模型生成的法线估计),(ii)所提出的FusionSense框架,以及(iii)DN-Splatter方法。在仅使用9个视角和10次触觉接触这些稀疏观测的条件下,与依赖9个视角的DN-Splatter相比,FusionSense实现了更高的图像保真度、更精确的深度和法线估计。 推荐课程: 为什么说colmap仍然是三维重建的核心?

4. 主要贡献

这些创新带来了以下关键贡献:

1)我们为场景和物体提出了一个新颖的三维重建框架,该框架融合了来自基础模型的先验知识与来自视觉和触觉传感器的稀疏观测,充分利用了每种模态的独特优势。我们还开发了一种由几何和常识线索驱动的主动触摸策略,通过减少机器人动作来增强感知粒度。该框架能够处理传统上对于三维重建而言具有挑战性的对象,如透明、反射或深色对象。

2)我们为三维高斯溅射提出了一种新颖的分层优化策略。该策略结合了对象外壳修剪来指导优化过程,并在局部层面引入了由触觉信号捕获的表面法线监督的锚点高斯分布,以精炼精细细节。我们的工作是首次将触觉信号原生地融入三维高斯溅射中。

3)我们在真实机器人上部署了我们的算法,证明了其在高度稀疏观测下对具有挑战性物体的周围环境进行重建的竞争能力。

5. 方法

这篇文章包含几个关键工作:

1. 鲁棒的全局形状表示:根据基础模型估计的视觉船体和深度启动3D高斯模型。使用RGB-D图像和基础模型估计的法线来监督后续训练。

2. 主动触摸选择:来自VLM的几何性质和常识引导机器人去触摸信息最丰富的区域。

3. 局部几何优化:添加触觉读数作为新的锚点高斯点,以改进原始的3D高斯点。

我们使用视觉外壳和估计的深度来初始化高斯模型,并使用RGB、深度和估计的法线来监督训练。

6. 实验结果

7. 总结 & 未来工作

在本工作中,通过融合视觉、触觉和常识信息,我们提出了一种新颖框架,该框架在针对具有挑战性的对象的场景和对象重建方面显著提升了当前最先进的技术水平。伴随着这一框架,我们提出了一种针对3D几何形状感知(3DGS)的分层优化策略,该策略利用视觉外壳剪枝,并且是首个在不限制触摸次数的情况下将触觉信号原生融入3DGS中的策略。

同时,我们也意识到了实验和方法的局限性。由于时间限制以及部分可比工作是闭源的,我们无法进行包含更多使用旧重建方法的研究的更全面的比较。此外,我们的触摸选择策略还需要更多的设计和实验。目前,其有效性仍然有限,且由于触摸次数极少,对该策略的研究也仍然有限。另一个局限在于从训练过的高斯基本元素中提取点云和网格的过程。尽管来自触觉传感器的高斯点被用作几何正则化,但精细的几何触觉细节无法从训练过的高斯场景中完全提取出来。这主要是因为,在水平集提取方法中,微小的触觉高斯点无法被完全采样。为了处理从场景到触觉的广泛多尺度几何细节,需要开发新的策略。

在未来,我们计划引入额外的约束,如理想的符号距离函数(SDF)损失,以确保高斯点在表面上最优分布。目前,触觉图像是通过远程操作的机器人控制获取的,但开发一种基于伺服控制的自动化方法可以显著增加我们可执行的触摸交互次数。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: dddvision,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d008







请到「今天看啥」查看全文