专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

今晚开播 | 中科院最新CityGaussian：VR/AR时代的城市重建新标杆

计算机视觉工坊 · 公众号 · · 2024-05-18 00:00

正文

本次分享我们邀请到了中国科学院自动化所模式识别实验室博士生刘洋，为大家详细介绍他们的工作：

CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians

项目主页： https://dekuliutesla.github.io/citygs/

直播信息

时间

2024年5月18日（周六）晚上20：00

主题

CityGaussian：VR/AR时代的城市重建新标杆

直播平台

3D视觉工坊哔哩哔哩

扫码观看直播，或前往B站搜索3D视觉工坊观看直播

嘉宾介绍

刘洋

中国科学院自动化所模式识别实验室博士生，此前曾在图森未来实习。研究方向为3D场景重建和3D环境感知。曾获国家奖学金，省级优秀毕业生等。

直播大纲

三维重建问题与算法回顾
大场景重建相关论文和SOTA方法简介
目前领先算法CityGaussian论文讲解

参与方式

Demo展示(MatrixCity)

这篇文章干了啥？

我们提出了CityGaussian，能够基于无人机航拍数据对小至建筑物，大至2.5平方千米的城市进行逼真的三维重建。同时，基于我们所提出的LoD（Level of Detail）技术，我们能够实现在重建出的城市中以1080P以上的高清分辨率进行实时游览，这将给地图场景预览、VR及AR带来全新的使用体验。我们的方法在包括MatrxiCity、Mill19等多个具有挑战性的场景下进行了测试和评估，结果表明我们的方法在渲染质量以及实时性上显著优于已有的重建算法。

主要贡献

在本文中，我们提出了CityGaussian算法，它基于3D Gaussian Splatting（3DGS）技术，针对大规模场景的重建提出了一种高效的并行训练算法以及快速的多细节层次（LoD）渲染算法。传统的基于神经辐射场（NeRF）的隐式表征算法在大规模场景下细节还原度较低，训练以及渲染速度慢，严重影响了重建场景中的游览体验。而新近提出的显式表征算法3D Gaussian Splatting（3DGS）以其可编辑性以及高效渲染为场景重建带来了新的可能。然而，以显式的3DGS表征大规模场景往往意味着产生数以百万计的高斯点，这不仅导致训练时的显存溢出，也大大拖慢了渲染速度，特别是在希望以大的视野范围俯瞰城市的情况下。

为了解决这些问题，我们一方面提出了一种高效的分块并行训练框架，依据空间分布将高斯点切分为不同的子块，并自适应地为每个子块分配所需的训练数据。每个子块能够以低得多的训练开销在不同GPU上并行训练，训练完成后也能够以简单的策略融合为整个场景的统一3D表征。另一方面，针对训练好的大规模3DGS表征，我们使用不同压缩率来得到不同细节层次的场景表征。在实际渲染时，我们对近距离的场景使用精细的细节层次，而远距离的区域则使用较为粗糙的细节层次，从而大大减少渲染时实际所需的高斯点数量，并极大降低大场景下的渲染延迟。

本文的主要贡献包括：

我们基于分而治之思想提出了一种高效的大规模3DGS表征并行训练策略
借助所提出的LoD策略，我们在不同的视距范围内都达到了实时的大场景渲染速度
我们所提出的CityGaussian算法在公开的数据集上达到了领先现有算法的渲染速度与速度表现

方法总览

训练阶段 ：训练阶段的流程如下图所示。我们首先训练一个体量较小、渲染质量较为粗糙的3DGS表征作为对场景的先验。以此为基础，我们在压缩后的坐标空间将高斯点划分为一系列互不重叠的区块。每个区块则根据其与训练样本的投影关系和空间坐标关系决定分配哪些数据用于训练。每个子块随后可以并行训练，并行训练的结果在融合后即可得到整个场景的3DGS表征