专栏名称: 计算机视觉工坊
专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台,我们坚持工坊精神,做最有价值的事~
目录
相关文章推荐
新华社  ·  夜读|五种心态,成就更好的自己 ·  2 天前  
马靖昊说会计  ·  货币资金造假:胆大包天的财务“魔术” ·  4 天前  
江南晚报  ·  价格腰斩!无锡大量上市 ·  3 天前  
51好读  ›  专栏  ›  计算机视觉工坊

GenEx:创造一个可探索的世界

计算机视觉工坊  · 公众号  ·  · 2024-12-14 00:00

正文

点击下方 卡片 ,关注 「3D视觉工坊」 公众号
选择 星标 ,干货第一时间送达

来源:计算机视觉工坊

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入 「3D视觉从入门到精通」知识星球 ( 点开有惊喜 ) ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 论文信息

标题:GenEx: Generating an Explorable World

作者:Taiming Lu, Tianmin Shu, Junfei Xiao, Luoxin Ye, Jiahao Wang, Cheng Peng, Chen Wei, Daniel Khashabi, Rama Chellappa, Alan Yuille, Jieneng Chen

机构:Johns Hopkins University

原文链接:https://arxiv.org/abs/2412.09624

官方主页:https://arxiv.org/abs/2412.09624

1. 导读

理解、导航和探索3D物理现实世界一直是人工智能发展的核心挑战。在这项工作中,我们通过引入GenEx向这一目标迈出了一步,GenEx是一个能够规划复杂的具体化世界探索的系统,由它的生成性想象力引导,形成关于周围环境的先验(期望)。GenEx从一张RGB图像生成一个完整的3D一致的富有想象力的环境,通过全景视频流使其栩栩如生。利用从Unreal Engine收集的可扩展3D世界数据,我们的生成模型在物理世界中得到完善。它不费吹灰之力就捕捉到了一个连续的360度环境,为AI智能体提供了一个探索和互动的无限景观。GenEx实现了高质量的世界生成,在长轨迹上具有强大的循环一致性,并展示了强大的3D功能,如一致性和主动3D映射。在对世界的生成性想象的驱动下,GPT辅助的智能体能够执行复杂的具体化任务,包括目标不可知的探索和目标驱动的导航。这些智能体利用对现实世界中看不见的部分的预测性期望来完善他们的信念,根据潜在的决策模拟不同的结果,并做出更明智的选择。总之,我们证明了GenEx为在想象空间中推进嵌入式人工智能提供了一个变革性的平台,并为将这些能力扩展到现实世界的探索带来了潜力。

2. 引言

人类通过感知周围环境、采取行动和与他人互动来探索和交互三维物理世界。通过这些互动,他们形成了模拟环境复杂性的心理模型。仅仅一瞥,人类就能在脑海中构建出周围环境的内部三维表示,从而实现推理、导航和问题解决。这种非凡的能力一直是人工智能发展中的核心挑战。

在本文中,我们介绍了GenEx平台,该平台旨在通过生成可探索的世界并在该生成的世界中促进探索来突破这一界限。GenEx结合了两个相互关联的部分:一个想象的世界,它动态生成用于探索的三维环境;以及一个实体智能体,它与该环境进行交互以完善其理解和决策。这两个部分共同形成了一个共生系统,使人工智能能够以类似于人类认知过程的方式模拟、探索和学习。

我们首先构建了一个想象的世界,它捕捉了基于物理世界的360°三维环境,并利用了生成式人工智能的最新进展。从单张图像开始,该模型在保持连贯性和三维一致性的同时,扩展并动态地生成新的环境,即使在远距离探索时也是如此。这一无垠的景观为人工智能智能体提供了无尽的探索和交互机会。

环境以扩散视频生成的形式呈现,根据移动角度、距离和单个初始视图作为起点进行条件设置。为了解决视野限制问题,我们利用全景表示,并使用球面一致性学习技术训练视频扩散模型。这确保了生成的环境即使在远距离探索时也能保持连贯性和三维一致性。为了使我们的视频生成模型根植于物理世界,我们从Unreal Engine等物理引擎中整理训练数据,以实现逼真且身临其境的输出。

在这个想象的景观中,实体智能体发挥着至关重要的作用。通过GPT的增强,这些智能体能够利用想象的观测来探索物理世界中未见的部分,从而完善对周围环境的理解,基于潜在决策模拟不同的结果,并做出更明智的选择。此外,GenEx支持多智能体场景,允许智能体在心理上导航其他智能体的位置,共享想象的信念,并协作完善其策略。 推荐课程: 彻底搞懂大模型数学基础剖析、原理与代码讲解

综上所述,GenEx代表了人工智能发展中的一次变革性进步,它提供了一个将生成式世界和基于物理的世界联系起来的平台。通过使人工智能能够在无垠且动态生成的环境中探索、学习和交互,GenEx为从现实世界导航、交互式游戏、虚拟现实/增强现实到实体人工智能的广泛应用打开了大门。

3. 效果展示

GenEx探索了一个充满想象力的世界,它由单一的RGB图像创建,并作为一个生成的视频赋予生命。(视频链接https://generative-world-explorer.github.io/)

4. 世界初始化

在现实世界中收集多样化的世界探索数据是一项挑战,因为资源有限且环境多变。因此,我们利用图2中的Unreal Engine 5和Unity等物理引擎进行数据整理。这些引擎允许我们创建丰富多样的虚拟环境,在其中可以高效地模拟探索轨迹并收集相应的数据。

我们使用智能体的全景视图来表示360°的世界。全景图像可以从固定视角捕捉场景的完整360°×180°视图。一种常见的全景表示方法是立方体映射(cubemap),它将360°视图投影到立方体的六个面上。每个面捕捉90°的视野,从而生成六张可以无缝拼接在一起的透视图像。由于其简单性和与渲染引擎的兼容性,我们直接在物理引擎中收集立方体映射来表示以自我为中心的世界。值得注意的是,立方体映射、等距柱状图全景图和球体是360°全景世界的三种表示方法。整理后的立方体映射将投影为等距柱状图全景图,用于世界探索阶段的视频生成,并在改变探索角度时投影到球形空间。

给定预定义的探索轨迹,我们收集一系列立方体映射来表示虚拟世界中不同的探索结果。通过均匀采样大量探索方向,我们整理了一个广泛的世界探索场景数据集,作为我们模型的训练数据。

世界初始化模型

从单张输入图像𝑖0开始,我们的目标是构建智能体环境的完整360°全景表示𝑥0。为实现这一目标,我们在预训练的文本到图像扩散模型上同时输入图像𝑖0和所需3D世界的文本描述𝑙0,从而生成高动态范围的全景图。因此,𝑥0是从条件分布𝑝(𝑥 | 𝑖0, 𝑙0)中抽取的。

我们的世界初始化模型建立在最先进的文本到全景模型之上,该模型是从最先进的文本到图像模型FLUX.1调整而来的。文本到全景模型根据文本描述𝑙0生成全景图。

然而,如果不以单张图像为条件,这种方法无法保证生成的全景图𝑥0与提供的参考图像𝑖0的一致性。

我们将模型扩展为同时以文本输入和单张图像为条件。这种适应使模型能够生成与提供图像一致的全360°环境。

尽管这产生了连贯且与图像一致的全景图,但场景仍然是静态的,不允许动态移动或探索。为了在生成的世界中实现更深入的交互,我们引入了世界转换。

世界转换

本质上,世界转换步骤将智能体观察到的360°全景更新为新探索的视图序列。通过动作驱动的旋转、球形调整和基于扩散的视频模型,我们实现了无缝转换,并在智能体导航生成环境时保持连贯的全景表示。

5. 探索世界

GenEx框架使智能体能够通过基于当前单视图图像𝑖0和给定探索动作𝑎的视频流生成,在想象的世界中进行探索。

我们支持三种生成世界探索模式,包括(a)交互式探索,(b)GPT辅助的自由探索,和(c)目标驱动导航,如图6所示。

交互式探索:GenEx使智能体能够以无限的方向范围自由探索合成世界,从而增强对周围环境的理解。用户可以控制智能体的移动方向和距离,从而实现对虚拟世界的连续探索。

GPT辅助的自由探索:然而,人类提供的命令有时会导致模型崩溃。例如,如果用户指示智能体过度靠近墙壁,则所得视角可能会降低后续生成视频帧的质量。

为缓解这一问题,我们采用GPT-4o作为“领航员”来确定探索配置,包括可探索的360°方向和距离。鉴于生成质量可能随时间累积下降,GPT-4o作为策略选择动作,以最大化生成世界的保真度并避免模型崩溃。

目标驱动导航:智能体接收带有导航指令I的目标,例如,“移动到蓝色汽车的位置和方向。”GPT根据指令和初始图像进行高级规划,以迭代方式生成低级探索配置。

然后,GenEx逐步处理这些配置,在整个想象探索过程中逐步更新图像。这允许进行更精确的控制和有针对性的探索。

6. 推进具身人工智能

在我们的生成世界中,我们可以探索物理环境先前未观察到的区域,收集更全面的信息,并完善我们的信念以做出更明智的决策。我们将这一过程框架化为类人决策的形式——“想象增强策略”,这可能在塑造具身人工智能的未来中发挥关键作用。

初步:我们首先用𝜋𝜃(𝐴|𝑜, 𝑔)表示常见的具身策略,其中𝜃是基于GPT的规划器,𝑜是智能体的观察,𝑔是目标,用于回答诸如“前方有危险。停止还是前进?”等问题。在这里,𝐴表示更高级别的具身动作(例如,回答问题或生成导航计划),这与之前介绍的探索动作𝑎不同。然而,如果观察仅限于单张初始图像𝑖0,则执行arg max𝐴 𝜋𝜃(𝐴|𝑜 = 𝑖0, 𝑔)可能会失败,因为它无法看到环境的未见部分。

如果智能体对其周围环境有更清晰的理解,则决策可以变得更加明智(Fan et al., 2024)。通过导航物理空间,智能体收集有关其环境的额外信息(图7中青色表示的“物理”路径),从而能够进行更准确的评估和更好的选择。

然而,物理穿越空间在效率、成本方面存在局限,在危险场景中甚至无法实现。为简化这一过程,我们使用想象作为智能体模拟结果而不实际穿越的路径(图7中紫色表示的“想象”路径)。

关键问题是: 智能体如何通过在生成的360°世界中进行探索来做出更明智的决策?

7. 总结 & 未来工作

我们介绍了GenEx平台,该平台生成了一个可探索的世界,并使智能体(无论是受人类用户还是GPT指令控制)能够在这个想象的全景世界中自由探索。通过从单张图像生成3D一致的环境,我们的方法能够创建身临其境、交互性强的世界,提供一个以物理世界为基础的、由智能体探索的无边界景观。我们展示了GenEx的多样化应用,表明这种生成可探索世界的技术能够创建多样且一致的3D环境、构建主动3D映射,并通过允许智能体制定更明智和有效的计划来推进具身决策。此外,GenEx框架支持多智能体交互,为更先进和协作的AI系统铺平了道路。这项工作标志着向现实世界导航、交互式游戏以及实现具身人工智能中的类人智能迈进了一步。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶 :深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、图像/视频生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如







请到「今天看啥」查看全文