点击下方
卡片
,关注
「3DCV」
公众号
选择
星标
,干货第一时间送达
来源:3DCV
添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「
3D视觉从入门到精通
」知识星球
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门独家秘制视频课程
、
最新顶会论文
、计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
本文旨在解决传统道路场景合成技术中仅用车辆视角导致新视角合成鲁棒性较差的问题。为此,清华大学智能产业研究院赵昊老师团队提出了巧妙结合航拍与地面信息的道路场景合成新方法,该方法首次将跨视角不确定性融入3D-GS的训练之中,有效利用了航拍信息,全面提升了道路合成效果。
论文名称:
Drone-assisted Road Gaussian Splatting with Cross-view Uncertainty
论文链接:
https://arxiv.org/pdf/2408.15242
项目网址:
https://sainingzhang.github.io/project/uc-gs/
代码链接:
https://github.com/SainingZhang/uc-gs/
一.数据集&研究动机
3D-GS是近期备受瞩目的3D表示方法,因其高效和出色的质量在业内引起了广泛关注。然而,对于道路场景合成任务来说,受限于狭窄车辆视角数据集的影响,3D-GS很难实现鲁棒的新视角合成。因此,本文试图利用航拍图像丰富的视角信息辅助道路场景的合成。
为了更好地量化道路合成效果,本文基于虚幻引擎构建了真实城市道路场景的仿真数据集。为了模拟现实世界中的驾驶条件,我们在1.5米和1.8米的高度捕获前视图像,在20米的高度,向下60°采集航拍图像。在1.6米和1.9米高度的测试数据上评估视角变化。
图1. 地面数据视角示意图
本文首先进行了空地数据联合训练与仅地面数据训练的对比实验。从图2各个指标的虚实线对比可知,与仅使用地面图像训练相比,空地联合训练可以在道路视角平移与旋转时一定程度上减缓各指标的下降趋势。然而,联合训练在保留测试集上反而略有下降。这可能由于航拍图像中与道路场景不重叠的区域或对道路场景合成贡献很小的区域,不仅未能增强道路视角的合成,还对3D高斯的收敛也构成了更多挑战。这导致联合训练不能有效提升道路场景的合成效果。
本文采用
跨视角不确定性
的方法在训练过程中对航拍图像的像素进行加权,合理利用了航拍数据中对道路场景合成的有效信息,增强了仿真数据集上的测试效果。
图2. 不同方法在地面数据或地面和航拍数据训练的结果。(G)为仅用地面数据训练,(A+G)为空地数据联合训练。View(+0.1m)为上升0.1m测试,View(+0.1m 5°d)为上升0.1m向下倾斜5°测试。
二.方法
2.1 框架
本文首先采用基于
集合渲染
的方法来计算
不确定性
,量化3D高斯模型在地面图像上的学习结果。接下来,将地面不确定性投影到空中,构建
跨视角不确定性
。随后,我们将这种跨视角不确定性引入到3D高斯模型的训练中,作为损失函数中航拍图像的权重,同时保留地面图像的原始渲染损失。
图3.框架
2.1.1 不确定性计算
为了量化航拍图像各个像素对道路合成的贡献,本文从另一个角度出发,试图先量化地面数据单独训练的效果。因此,本文采用了一种基于集合渲染的不确定性计算方法,首先仅用地面数据训练了多个3D-GS,然后计算出地面视角上渲染结果的
RGB方差
作为地面不确定性。不确定性值越高,说明该区域的学习效果越不稳定,越需要对应航拍信息的补充。
2.1.2 跨视角不确定性的投影
为了将地面不确定性转换为航拍数据的权重,本文采用了最近在多个3D任务中创下了SOTA的端到端稠密立体模型——
DUSt3R
,作为航拍图像和地面图像之间的
2D-2D像素匹配器
。通过这种方式,地面不确定性通过地面图像与航拍图像之间的匹配对投影到空中,并对具有多个匹配的像素的不确定性进行平均,构建了用于训练的跨视角不确定性图。
图4. 跨视角不确定性可视化
2.1.3 基于跨视角不确定性的3D-GS训练范式
本文在Scaffold-GS研究的基础上展开,因此延用了Scaffold-GS的损失函数设置,包括RGB损失和SSIM损失。针对地面数据,本文采用了与3D-GS传统方法一致的训练策略,将所有像素的损失权重设置为1。对于航拍数据,本文首先对视角间的不确定性进行了
归一化和平滑处理
。随后,在训练过程中,利用这些处理后的不确定性值对航拍图像的每个像素损失的计算进行加权。
三.实验结果
为了验证本文方法的有效性,本文在两个城市道路场景的仿真数据集(NYC、SF)上进行了实验。
表1. 在NYC (a)和SF (b)上的实验结果。*为高清航拍数据。(G)、(A+G)分别为仅用地面数据训练与空地联合训练。
定量分析
由表1,本文方法在保留测试集与视角平移与旋转时,均优于所有仅在地面数据训练的方法。具体表现为在保留测试集上PSNR提高了0.68 (NYC)和0.41 (SF),视角平移与旋转时PSNR提高了0.90 (NYC) 和0.80 (SF),SSIM与LPIPS也均有进步。在Scaffold-GS的横向对比上,本文方法相比空地联合训练在保留测试集上PSNR提高了0.66 (NYC) 和0.59 (SF),视角平移与旋转时PSNR提高了0.47 (NYC)和 0.57 (SF) ,并且逆转了空地联合训练对SSIM与LPIPS的负面影响,全部指标甚至优于用高清航拍数据辅助训练的效果。
图4.与仅用地面数据训练的方法的定性对比
图5.Scaffold-GS上不同训练方法的定性对比
定性分析 定性上,无论是与仅用地面数据训练的方法还是在Scaffold-GS上的横向对比,本文方法在道路细节的渲染上明显优于其他方法。
四.结论
本文提出了一种创新的基于3D-GS的无人机辅助道路场景合成方法。为了利用无人机视角中的丰富信息来辅助地面数据的训练,我们首次将跨视角不确定性的概念融入3D-GS模型中,在训练过程中对航拍图像中的像素进行加权。这种方法减少了冗余信息的干扰,有效地利用航拍图像辅助道路场景合成。未来的工作将致力于可动态调节的不确定性权重,对于场景几何的讨论以及真实数据集上的应用。
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
最前沿
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
工业3D视觉
:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建
:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机
:四旋翼建模、无人机飞控等
2D计算机视觉
:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿
:具身智能、大模型、Mamba、扩散模型等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地、产品、行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如
3D点云+清华+小草莓
), 拉你入群。
▲长按扫码添加助理:cv3d008
「
3D视觉从入门到精通
」
知识星球
「3D视觉从入门到精通」知识星球