NeRF和3DGS是当前重建和渲染真实图像的最前沿技术。然而使用SfM获取相机姿态的先决条件限制了它们的完整性。虽然以前的方法可以从一些未经滤波的图像中重建,但当图像无序或密集捕获时,这些方法就不适用了。基于这个出发点,新加坡国立大学等团队提出了ZeroGS,其从数百张未经处理和无序的图像中训练3DGS。ZeroGS利用了预训练的foundation model作为神经场景表示。由于预测点图的精度不足以实现精确的图像配准和高保真图像渲染,ZeroGS进一步提出从种子图像初始化和微调预训练模型来缓解这一问题。然后,图像被逐步配准并添加到训练缓冲区中,该缓冲区进一步用于训练模型。ZeroGS还提出了通过最小化跨视角的点对相机光线一致性损失来优化相机位姿和pointmaps。在LLFF数据集、MipNeRF360数据集和Tanks and Temples数据集上的实验表明,ZeroGS比最先进的无姿态NeRF/3DGS方法恢复了更精准的相机位姿,甚至比具有COLMAP姿态的3DGS渲染了更高质量的图像。