点击下方
卡片
,关注
「3DCV」
公众号
选择
星标
,干货第一时间送达
编辑:3DCV
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群
扫描下方二维码,加入
3D视觉知识星球
,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:
近20门视频课程(3D视觉各个方向)
、
最新顶会论文
、
3D视觉最新模组
、
3DGS系列(视频+文档)
、
计算机视觉书籍
、
优质3D视觉算法源码
等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
读者个人理解
本文探讨了在大规模、高分辨率数据集上训练高参数 3D 高斯涂抹 (3DGS) 模型的可能性。我们设计了一种名为 RetinaGS 的一般 3DGS 模型并行训练方法,该方法使用适当的渲染方程,可以应用于任何场景和任意分布的高斯基元。它使我们能够探索 3DGS 在基元数量和训练分辨率方面的扩展行为,这些方面以前难以探索,并超越了以前最先进的重建质量。我们发现,使用我们的方法,随着基元数量的增加,视觉质量有明显的积极趋势。我们还展示了首次尝试在包含 14 万张图像的完整 MatrixCity 数据集上训练一个拥有超过十亿基元的 3DGS 模型,该模型达到了有希望的视觉质量。
论文信息
标题:
RetinaGS: Scalable Training for Dense Scene Rendering with Billion-Scale 3D Gaussians
作者:Bingling Li等人
单位:MThreads AI
方法
RetinaGS 的核心目标是实现大规模 3D 场景重建,克服传统 3DGS 模型在训练分辨率、数据量和视距等方面的限制。为了实现这一目标,RetinaGS 采用了一种基于模型并行的分布式训练方法,并结合了 KD 树分割和 MVS 初始化等技术。
主要步骤
:
-
KD 树分割
:使用 KD 树将场景空间分割成多个凸子空间。KD 树是一种二叉树结构,通过递归地将空间划分为更小的子空间,从而将场景分割成多个区域。
-
子模型生成
:根据 KD 树分割的结果,将场景中的 primitive 分配到不同的子空间中,从而生成多个子模型。每个子模型包含一部分 primitive,并由一个 GPU 进行训练。
-
MVS 初始化
:使用多视图立体匹配 (MVS) 技术对训练数据进行深度估计,并将估计的深度点云转换为 Gaussian primitive,从而初始化 3DGS 模型。MVS 初始化可以避免 3DGS 原有的 point-growing 策略带来的问题,并方便控制模型规模。
-
-
前向传播
:每个子模型独立计算其对应子空间内的颜色和透明度值。然后,通过跨 GPU 通信将部分结果合并,得到最终的渲染图像。
-
反向传播
:计算重建损失和梯度,并将梯度分发回每个子模型。每个子模型独立进行参数更新。
迭代训练
:重复进行前向传播和反向传播,直到模型收敛。
实验
实验结果表明,随着 Gaussian primitive 数量的增加,模型的 PSNR 指标也随之提高,证明了模型规模与重建质量之间的正相关关系。RetinaGS 在 MipNeRF-360、ScanNet++、MatrixCity-M 和 Mega-NeRF 等数据集上都取得了优异的性能,证明了其广泛的适用性。RetinaGS 可以有效地重建高分辨率场景,并在 ScanNet++ 数据集上取得了令人瞩目的结果。RetinaGS 可以有效地重建大型场景,并在 MatrixCity-ALL 数据集上取得了令人印象深刻的结果。
总结
RetinaGS 是一种基于模型并行的分布式训练方法,旨在实现大规模 3D 场景重建。该方法通过 KD 树分割场景空间,将模型参数分配到多个 GPU 上进行训练,并结合 MVS 初始化和分布式通信等技术,实现了高效、高质量的 3D 场景重建。RetinaGS 的实验结果表明,该方法在多个方面取得了显著的成功。与 3DGS 相比,RetinaGS 能够实现更高的重建质量和更低的内存占用,并且可以轻松扩展到十亿级规模的 3DGS 模型。RetinaGS 的成功为 3D 场景重建领域带来了新的突破,并有望推动该技术的进一步发展,为虚拟现实、游戏开发、电影制作等领域带来更多可能性。
本文仅做学术分享,如有侵权,请联系删文。
3DCV技术交流群
目前我们已经建立了3D视觉方向多个社群,包括
2D计算机视觉
、
大模型
、
工业3D视觉
、
SLAM
、
自动驾驶
、
三维重建
、
无人机
等方向,细分群包括:
2D计算机视觉:
图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:
NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:
相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM
:
视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:
深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。
三维重建:
3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:
四旋翼建模、无人机飞控等
除了这些,还有
求职
、
硬件选型
、
视觉产品落地
、
最新论文
、
3D视觉最新产品
、
3D视觉行业新闻
等交流群
添加小助理: dddvision,备注:
研究方向+学校/公司+昵称
(如3D点云+清华+小草莓)
, 拉你入群。
▲长按扫码添加助理
3D视觉技术星球
3D视觉从入门到精通知识星球、国内成立最早的3D视觉学习交流社区。包括:
星球视频课程近20门(价值超6000)
、
项目对接
、
3D视觉学习路线总结
、
最新顶会论文&代码
、
3D视觉行业最新模组
、
3D视觉优质源码汇总
、
书籍推荐
、
编程基础&学习工具
、
实战项目
&作业
、
求职招聘&面经&面试题
等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。
▲长按扫码加入星球
3D视觉课程官网:
www.3dcver.com