专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
51好读  ›  专栏  ›  计算机视觉工坊

2张图2秒钟3D重建!这款AI工具火爆GitHub

计算机视觉工坊  · 公众号  ·  · 2025-03-03 08:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

丰色 发自 凹非寺
量子位 | 公众号 QbitAI
只需2张图片 ,无需测量任何额外数据——
当当,一个完整的3D小熊就有了:


这个名为 DUSt3R 的新工具,火得一塌糊涂,才上线没多久就登上 GitHub热榜第二

网友实测 ,拍两张照片,真的就重建出了他家的厨房,整个过程 耗时不到2秒钟

(除了3D图,深度图、置信度图和点云图它都能一并给出)

惊得这位朋友直呼:

大伙 先忘掉sora 吧,这才是我们真正看得见摸得着的东西。

实验显示,DUSt3R在单目/多视图深度估计以及相对位姿估计三个任务上,均取得SOTA。

作者团队 (来自芬兰阿尔托大学+NAVER LABS人工智能研究所欧洲分所) 的“宣语”也是气势满满:

我们就是要让天下没有难搞的3D视觉任务。

所以,它是如何做到?

“all-in-one”

对于多视图立体重建 (MVS) 任务来说,第一步就是估计相机参数,包括内外参。

这个操作很枯燥也很麻烦,但对于后续在三维空间中进行三角测量的像素不可或缺,而这又是几乎所有性能比较好的MVS算法都离不开的一环。

在本文研究中,作者团队引入的DUSt3R则完全采用了截然不同的方法。

不需要任何相机校准或视点姿势的先验信息 ,就可完成任意图像的密集或无约束3D重建。

在此,团队将成对重建问题表述为点图回归,统一单目和双目重建情况。

在提供超过两张输入图像的情况下,通过一种简单而有效的全局对准策略,将所有成对的点图表示为一个共同的参考框架。

如下图所示,给定一组具有未知相机姿态和内在特征的照片,DUSt3R输出对应的一组点图,从中我们就可以直接恢复各种通常难以同时估计的几何量,如相机参数、像素对应关系、深度图,以及完全一致的3D重建效果。

(作者提示,DUSt3R也适用于单张输入图像)

具体网络架构方面,DUSt3R基于的是 标准Transformer编码器和解码器 ,受到了CroCo (通过跨视图完成3D视觉任务的自我监督预训练的一个研究) 的启发,并采用简单的回归损失训练完成。

如下图所示,场景的两个视图 (I1,I2) 首先用共享的ViT编码器以连体 (Siamese) 方式进行编码。

所得到的token表示 (F 1 和F 2 随后被传递到两个Transformer解码器,后者通过交叉注意力不断地交换信息。

最后,两个回归头输出两个对应的点图和相关的置信图。

重点是,这两个点图都要在第一张图像的同一坐标系中进行表示。

多项任务获SOTA

实验首先在7Scenes (7个室内场景) 和Cambridge Landmarks (8个室外场景) 数据集上评估DUSt3R在绝对姿态估计任务上性能,指标是平移误差和旋转误差 (值越小越好)

作者表示,与现有其他特征匹配和端到端方法相比,DUSt3R表现算可圈可点了。

因为它一从未接受过任何视觉定位训练,二是在训练过程中,也没有遇到过查询图像和数据库图像。

其次,是在10个随机帧上进行的多视图姿态回归任务。结果DUSt3R在两个数据集上都取得了最佳效果。

而单目深度估计任务上,DUSt3R也能很好地hold室内和室外场景,性能优于自监督基线,并与最先进的监督基线不相上下。

在多视图深度估计上,DUSt3R的表现也可谓亮眼。

以下是两组官方给出的3D重建效果,再给大伙感受一下,都是仅输入两张图像:

(一)

(二)

网友实测:两张图无重叠也行

有网友给了DUSt3R两张没有任何重叠内容的图像,结果它也在几秒内输出了准确的3D视图:

(图片是他的办公室,所以肯定没在训练中见过)







请到「今天看啥」查看全文


推荐文章
十点读书  ·  幸福不是靠运气,而是靠经营
7 年前
云头条  ·  开源商业模式遭围攻
7 年前
码农翻身  ·  爱炫耀的数据库老头儿
7 年前