标题:MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data
作者:Hanwen Jiang, Zexiang Xu, Desai Xie, Ziwen Chen, Haian Jin, Fujun Luan, Zhixin Shu, Kai Zhang, Sai Bi, Xin Sun, Jiuxiang Gu, Qixing Huang, Georgios Pavlakos, Hao Tan
机构:The University of Texas at Austin、Adobe Research、Stony Brook University、Oregon State University、Cornell University
原文链接:https://arxiv.org/abs/2412.14166
代码链接:https://hwjiang1510.github.io/MegaSynth/
1. 导读
我们建议通过用合成数据进行训练来放大3D场景重建。我们工作的核心是MegaSynth,这是一个由70万个场景组成的程序生成的3D数据集,比之前的真实数据集DL3DV大50多倍,极大地缩放了训练数据。为了实现可扩展的数据生成,我们的关键思想是消除语义信息,消除对复杂语义先验建模的需要,如对象启示和场景构成。相反,我们用基本的空间结构和几何图元来建模场景,提供可伸缩性。此外,我们控制数据复杂性以促进训练,同时将它与真实世界的数据分布松散地对齐以有利于真实世界的泛化。我们用MegaSynth和可用的真实数据来探索训练LRMs。实验结果表明,与MegaSynth的联合训练或预训练在不同的图像域上将重建质量提高了1.2到1.8 dB PSNR。此外,仅在MegaSynth上训练的模型与在真实数据上训练的模型表现相当,这突出了3D重建的低级本质。此外,我们对MegaSynth的属性进行了深入分析,以增强模型能力、训练稳定性和泛化能力。