专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
Insight数据库  ·  刚刚!康诺亚 IL-4R ... ·  2 天前  
金昌市场监管  ·  多款药品说明书修订 ·  2 天前  
药渡  ·  2025国产药第一大买家 ·  4 天前  
丁香园临床用药指南  ·  扩血管药「酚妥拉明」为何也能治疗咯血?与垂体 ... ·  3 天前  
51好读  ›  专栏  ›  计算机视觉工坊

爆火!Adobe重磅开源MegaSynth:利用合成数据扩大3D场景重建的规模!

计算机视觉工坊  · 公众号  ·  · 2024-12-27 07:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data

作者:Hanwen Jiang, Zexiang Xu, Desai Xie, Ziwen Chen, Haian Jin, Fujun Luan, Zhixin Shu, Kai Zhang, Sai Bi, Xin Sun, Jiuxiang Gu, Qixing Huang, Georgios Pavlakos, Hao Tan

机构:The University of Texas at Austin、Adobe Research、Stony Brook University、Oregon State University、Cornell University

原文链接:https://arxiv.org/abs/2412.14166

代码链接:https://hwjiang1510.github.io/MegaSynth/

1. 导读

我们建议通过用合成数据进行训练来放大3D场景重建。我们工作的核心是MegaSynth,这是一个由70万个场景组成的程序生成的3D数据集,比之前的真实数据集DL3DV大50多倍,极大地缩放了训练数据。为了实现可扩展的数据生成,我们的关键思想是消除语义信息,消除对复杂语义先验建模的需要,如对象启示和场景构成。相反,我们用基本的空间结构和几何图元来建模场景,提供可伸缩性。此外,我们控制数据复杂性以促进训练,同时将它与真实世界的数据分布松散地对齐以有利于真实世界的泛化。我们用MegaSynth和可用的真实数据来探索训练LRMs。实验结果表明,与MegaSynth的联合训练或预训练在不同的图像域上将重建质量提高了1.2到1.8 dB PSNR。此外,仅在MegaSynth上训练的模型与在真实数据上训练的模型表现相当,这突出了3D重建的低级本质。此外,我们对MegaSynth的属性进行了深入分析,以增强模型能力、训练稳定性和泛化能力。

2. 概述

我们建议通过训练来放大3D场景重建 合成数据 。我们工作的核心是 MegaSynth 一种3D数据集,包括 70万个场景 (这只需要 3天 生成)-比先前的真实数据集DL3DV大70倍-显著地缩放训练数据。为了实现可扩展的数据生成,我们的主要想法是 消除语义信息 ,消除了对复杂语义先验建模的需要,例如对象启示和场景构成。相反,我们用基本的空间结构和几何图元来建模场景,提供可伸缩性。此外,我们控制数据复杂性以促进训练,同时将它与真实世界的数据分布松散地对齐以有利于真实世界的泛化。我们探索用MegaSynth和可用的真实数据来训练LRMs 0.3秒内广覆盖场景重建

3. 数据生成

Megasynth使用以下方式合成数据 非学习型 前两代。我们首先生成场景平面图,其中每个3D框代表一个形状,不同的颜色代表不同的对象类型。我们用几何增强将形状图元组合成对象,这些对象进一步组合场景。我们随机化纹理和光照,并生成随机的相机进行渲染。MegaSynth将3D重建模型定义为:(1) 可量测性 ,因为程序数据生成是高效的;(2) 可控制性 ,因为我们已经完全控制了数据的复杂性、分布以及与现实世界的一致性;(3) 多样性 ,具有随机化的几何、照明、材料和空间结构;(4) 准确的元数据 ,提供几何监督和稳定训练。

4. 对比实验

我们与3个测试数据集上的基线进行了比较,包括DL3DV(真实,域内),Hypersim(合成,域外,室内)和MipNeRF360 + Tanks & Temples(真实,域外,室外)。我们在两种设置(分辨率128和256)下用两种不同的模型(GS-LRM和Long-LRM)进行实验。我们展示了使用MegaSynth相对于仅使用DL3DV的优势。

通过使用MegaSynth,我们的结果表明,在不同的实验设置、基础模型和测试数据集上,PSNR增益一致,为1.2至1.8 dB。

我们包括了分辨率为256的域内DL3DV和域外数据的长LRM结果。对于DL3DV,使用我们的MegaSynth,该模型在薄结构(例如,中左)、复杂照明(例如,左上)和杂乱场景(例如,中右)上表现得更好。

对于域外数据,我们在第一行和第二行分别包含Hypersim和MipNeRF360的结果。使用我们的MegaSynth,该模型在强光(例如,左上)、薄结构(例如,左中)和复杂材料(例如,右下)上表现更好。 推荐课程: 基于深度学习的三维重建MVSNet系列 [论文+源码+应用+科研]

5. 有趣的事情!3D重建几乎是非语义的!

我们实验仅使用MegaSynth来训练GS-LRM (res-128),这展示了与使用真实数据相当的结果。对于不同数量的输入图像,结果是一致的。这一现象意味着 3D重建几乎不需要语义信息 类似于基于非语义优化的方法(即COLMAP和NeRF)的成功,并表明 3D重建是个低级任务!

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉工坊知识星球

「3D视觉从入门到精通」知识星球







请到「今天看啥」查看全文