专栏名称: 3DCV

关注工业3D视觉、SLAM、自动驾驶技术，更专注3D视觉产业的信息传播和产品价值的创造，深度聚焦于3D视觉传感器、SLAM产品，使行业产品快速连接消费者。

斯坦福开源HAMMER：异构、多机器人语义高斯分布

3DCV · 公众号 · · 2025-01-30 00:11

正文

点击下方卡片，关注 「3DCV」 公众号
选择星标，干货第一时间送达

来源：3DCV

添加小助理：cv3d001，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群。

扫描下方二维码，加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 论文信息

标题：HAMMER: Heterogeneous, Multi-Robot Semantic Gaussian Splatting

作者：Javier Yu, Timothy Chen, Mac Schwager

机构：Stanford University Department of Aeronautics and Astronautics

原文链接：https://arxiv.org/abs/2501.14147

代码链接：https://hammer-project.github.io/

1. 导读

3D Gaussian Splatting提供了富有表现力的场景重建，对各种视觉、几何和语义信息进行建模。然而，利用来自多个机器人和设备的数据流进行有效的实时地图重建仍然是一个挑战。为此，我们提出了HAMMER，这是一种基于服务器的协作高斯分布方法，它利用广泛可用的ROS通信基础设施从异步机器人数据流中生成3D度量语义地图，而无需事先了解初始机器人位置和各种设备上的姿态估计器。HAMMER包括(I)帧对齐模块，该模块将局部SLAM姿态和图像数据转换为全局帧，并且不需要先前的相对姿态知识，以及(ii)用于从流数据训练语义3DGS地图的在线模块。HAMMER处理混合感知模式，自动调整不同设备之间图像预处理的变化，并将剪辑语义代码提取到3D场景中，用于开放词汇语言查询。在我们的现实世界实验中，与竞争基线相比，HAMMER创建了更高保真度的地图(2倍)，并且对于下游任务非常有用，例如语义目标条件导航(例如，“去沙发”)。

2. 效果展示

我们验证了HAMMER在实际流数据上的性能，这些数据来自一个由以自我为中心的人类可穿戴设备(Aria眼镜)组成的异构团队。[11)和带有立体摄像机的地面机器人。此外，我们通过同时优化3DGS地图和进行多机器人轨迹优化，展示了HAMMER的实际有效性。

渲染的评估图像 HAMMER的 RGB(左)和深度(右)以及跨设备的两条基线。HAMMER在视觉和几何上优于Di-NeRF。

3. 主要贡献

HAMMER的贡献是:

使用RGB图像进行健壮的机器人框架对齐以在具有不同图像传感器和SLAM算法的设备之间对齐坐标系统，·以及用于异构、异步设备的3DGS的在线训练方案。推荐课程：国内首个面向具身智能方向的理论与实战课程。

我们在2个实际环境中使用 3-4 台设备进行硬件部署演示了HAMMER。与 Di-NeRF相比，HAMMER 的均方误差(MSE)提高了 40% 以上。

4. 方法

HAMMER机器人对齐模块的示意图。通过位置识别特征提取器匹配对齐和未对齐机器人的图像当确认对应关系时，来自两个机器人的图像被分组，并传递给局部SfM管道，该管道估计图像之间的相对姿态。然后使用SfM姿态找到将未对齐机器人的局部帧对齐到对齐机器人的全局帧的单个变换然后，来自所有机器人的图像和对齐的SLAM姿态被流式传输到数据加载器以进行3DGS训练。

运行时从使用HAMMER训练的3DGS地图中提取的网格(左)和最终地图重建(右).。归属网格着色基于每个机器人贡献的地图部分。

5. 总结 & 未来工作 & 限制性

HAMMER是首个针对异构机器人团队设计的在线多机器人高斯溅射（Splatting）建图流程。使用HAMMER生成的地图可用于多种下游任务，如语言引导导航。我们证明，在真实数据集上，HAMMER的性能优于可比基线，并接近理想视觉保真度。

未来的工作将侧重于开发更好的数据整理方法，减少冗余数据量，并实现在更大区域上进行详细的场景重建。我们希望将HAMMER扩展到跟踪和绘制动态对象，并利用HAMMER地图中嵌入的语义信息来提取对象之间的智能空间关系。

HAMMER存在几个局限性。不提供位姿估计的设备不能在HAMMER中使用，而且HAMMER的姿态优化无法纠正噪声非常大的估计，并会生成质量较差的地图。此外，HAMMER的当前实现未考虑仅RGB设备（无几何数据）。然而，我们认为HAMMER可以扩展用于仅RGB的3DGS SLAM（即时定位与地图构建），这是一个活跃的研究领域。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉交流群，成立啦！

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉、最前沿、工业3D视觉、 SLAM 、自动驾驶、三维重建、无人机等方向，细分群包括：

工业3D视觉 ：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 ：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 ：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等。

无人机 ：四旋翼建模、无人机飞控等

2D计算机视觉 ：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 ：具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些，还有求职、 硬件选型 、 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001，备注：研究方向+学校/公司+昵称（如 3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ，已沉淀6年，星球内资料包括： 秘制视频课程近20门 （包括结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云等）、 项目对接 、 3D视觉学习路线总结 、