专栏名称: 将门创投

将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。

ECCV 2024 | CityGaussian：VR/AR时代的城市重建新标杆

将门创投 · 公众号 · · 2024-07-29 08:22

主要观点总结

本文主要介绍了一种新的实时大规模城市场景重建方法——CityGaussian算法。该算法基于3D Gaussian Splatting（3DGS）技术，针对大规模场景的重建提出了一种高效的并行训练算法以及快速的多细节层次（LoD）渲染算法。与传统的基于神经辐射场（NeRF）的隐式表征算法相比，CityGaussian算法具有更高的渲染质量、更快的训练及渲染速度，能提供更好的游览体验。此外，该算法还具有优秀的细节层次技术，能在不同视野范围内提供实时的渲染效果。

关键观点总结

关键观点1: CityGaussian算法基于3D Gaussian Splatting（3DGS）技术，用于大规模场景的重建。

这是一种新的实时三维场景重建方法，旨在提高渲染质量、训练及渲染速度。

关键观点2: CityGaussian算法提出了高效的并行训练方法和多细节层次（LoD）策略。

通过并行训练，可以提高训练效率；而多细节层次技术则可以在不同视野范围内提供实时的渲染效果。

关键观点3: 与传统的基于神经辐射场（NeRF）的隐式表征算法相比，CityGaussian算法具有更高的渲染质量。

NeRF算法在大规模场景下的细节还原度较低，而CityGaussian算法则通过3DGS技术提高了细节还原度。

关键观点4: CityGaussian算法在多个具有挑战性的场景测试中表现出优异的性能。

包括MatrxiCity、Mill19等多个测试场景，结果表明该方法在渲染质量以及实时性上显著优于已有的重建算法。

正文

大规模城市场景重建与实时渲染对国计民生的诸多领域具有重要价值，包括态势感知、空中搜索、自动驾驶仿真、文物景点保护、在线地图导航等。近期，我实验室在人工智能领域顶级会议ECCV 2024发布了一篇新工作，探讨城市三维重建技术。这篇工作提出了CityGaussian算法，能够基于无人机航拍数据对小至建筑物，大至2.5平方千米的城市进行逼真的三维重建，并使得消费级显卡上的训练时间从接近20小时压缩到数小时。

同时，基于我们所提出的LoD（Level of Detail）技术，能够实现在重建出的城市中以1080P以上的高清分辨率进行实时游览，这将给地图场景预览、VR及AR带来全新的使用体验。我们的方法在包括MatrxiCity、Mill19等多个具有挑战性的场景下进行了测试和评估，结果表明我们的方法在渲染质量以及实时性上显著优于已有的重建算法。

论文标题：

CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians

论文链接：

https://arxiv.org/pdf/2404.01133

项目网站：

https://dekuliutesla.github.io/citygs/

一、方法总览

我们提出的CityGaussian算法，它 基于3D Gaussian Splatting（3DGS）技术，针对大规模场景的重建提出了一种高效的并行训练算法以及快速的多细节层次（LoD）渲染算法 。传统的基于神经辐射场（NeRF）的隐式表征算法在大规模场景下细节还原度较低，训练以及渲染速度慢，严重影响了重建场景中的游览体验。而新近提出的显式表征算法3D Gaussian Splatting（3DGS）以其可编辑性以及高效渲染为场景重建带来了新的可能。然而，以显式的3DGS表征大规模场景往往意味着产生数以百万计的高斯点，这不仅导致训练时的显存溢出，也大大拖慢了渲染速度，特别是在希望以大的视野范围俯瞰城市的情况下。

为了解决这些问题，一方面提出了一种高效的分块并行训练框架，依据空间分布将高斯点切分为不同的子块，并自适应地为每个子块分配所需的训练数据。每个子块能够以低得多的训练开销在不同GPU上并行训练，训练完成后也能够以简单的策略融合为整个场景的统一3D表征。

另一方面，针对训练好的大规模3DGS表征，使用不同压缩率来得到不同细节层次的场景表征。在实际渲染时，我们对近距离的场景使用精细的细节层次，而远距离的区域则使用较为粗糙的细节层次，从而大大减少渲染时实际所需的高斯点数量，并极大降低大场景下的渲染延迟。

（1）训练阶段

首先训练一个体量较小、渲染质量较为粗糙的3DGS表征作为对场景的先验。以此为基础，我们在压缩后的坐标空间将高斯点划分为一系列互不重叠的区块。每个区块则根据其与训练样本的投影关系和空间坐标关系决定分配哪些数据用于训练。每个子块随后可以并行训练，并行训练的结果在融合后即可得到整个场景的3DGS表征。训练流程如下图所示。

图1.训练流程图

（2）渲染阶段

借助LightGaussian对训练结果进行压缩，不同压缩率分别对应不同的细节层次。实际渲染时，以训练阶段划分的区块为单位，快速判断哪些区块处在视锥范围内，以及区块离相机中心的距离。离相机中心越近的区块，算法会使用细节更丰富的、压缩率更低的GS点进行表征，从而减少渲染所需使用GS点数量，提高实时性。渲染流程如下图所示。

图2.渲染流程图

二、实验结果

可视化的渲染效果比较如下图所示，可以看到无论在实际采集的无人机数据还是仿真环境下采集的数据上，我们的算法都能显著地改善渲染质量，提高细节的还原程度，带来更加逼真的游览体验。

图3.在不同数据集上和SOTA方法的对比

此外，我们也在MatrixCity这一大规模数据集上对LoD的有效性进行了验证。从Table 2中可以看到，引入的LoD技术在保证逼真的渲染效果的同时，将渲染速度从21.6FPS提高到53.7FPS，并很好地平衡了渲染质量和实时性。Figure 6则展现了相机从不同高度俯瞰重建出的城市时的速度变化关系。可以看到，即便在最坏情况下，我们的LoD算法也能保持在25FPS以上的渲染速度，保证了不同视角范围的丝滑切换。

图4.验证LoD

三、视频效果演示

四、总结与展望

3DGS极大地推动了实时三维场景重建和新视图合成的进步。我们提出的CityGaussian算法运用一种新的并行训练训练方法和多细节层次（LoD）策略来进行高效的大规模3DGS训练和渲染，达到最先进的渲染质量，可在不同规格的尺度上对大规模场景进行实时渲染。

来源：公众号【模式识别实验室NLPR】

llustration From IconScout By TanahAir Studio

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（ www.techbeat.net ）。社区上线500+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

[email protected]

或添加 工作人员微信（ chemn493 ） 投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“ 投稿 ”二字，获得投稿说明。