专栏名称: 机器之心

专业的人工智能媒体和产业服务平台

一图一3D世界，视频还可交互，昆仑万维「空间智能」开年首秀来了

机器之心 · 公众号 · AI · 2025-02-14 11:47

正文

机器之心报道

作者：杜伟

2025 年普遍被认为是智能体爆发元年，AI 应用将出现井喷式增长。然而，在大家纷纷将目光投向智能体的同时，另一个 AI 领域也可能迎来它的「ChatGPT 时刻」。

这个春节，动画电影《哪吒 2》爆火，不仅登上中国影史票房榜首，还不断地刷新全球票房榜单。3D 版本中的山河社稷图、石矶娘娘变身的石头山、最后的仙魔大战…… 这些场景让我们感受到了极度震撼的 3D 动效。

在 AI 领域，一项正在发展中的新兴技术有可能将 3D 动画的整体质量以及观众的沉浸感推向一个全新的高度。它就是 「AI 教母」李飞飞看好并押注的空间智能（Spatial intelligence） 。未来有了这项 AI 技术的加持，3D 动画的表现力有可能得到前所未有的加强。

在这位 AI 领域的顶级科学家看来，无论是人类还是机器，学会如何看待这个世界、如何与世界互动至关重要，而空间智能在其中将扮演重要角色。她坚信，像语言一样是 AI 根基之一的空间智能将成为 AI 下一发展阶段的前沿技术方向。去年 12 月初，李飞飞创业团队 World Labs 的首个产品向我们展示了单张图生成 3D 世界的惊艳效果。

从二维到三维，AI 要想真正理解与操控 3D 空间，需要解决不少痛点。比如大规模高质量 3D 数据匮乏限制了模型效果和泛化能力，生成的 3D 场景在几何结构和纹理细节上不够精细或存在瑕疵、不完整，多视角一致性很难保证；再比如效率问题，处理复杂图像和大规模场景时可能导致算力消耗过大、生成时间过长。

因此，空间智能真正突破传统 AI 的二维像素级视觉理解并不是那么容易。在国内，一家「All in AGI 和 AIGC」的大模型厂商，向真实世界的几何与物理规则发起了挑战，并率先在空间智能这个新兴领域搞出了一个大动作。

2 月 14 日，昆仑万维正式发布了 Matrix-Zero 世界模型 ，迈出了其探索空间智能的关键一步。 Matrix-Zero 包括 3D 场景生成大模型和可交互视频大模型，不仅可以将用户输入的图片转化为可自由探索的真实合理的 3D 场景，而且能够生成可交互视频。这意味着，Matrix-Zero 是一个功能「加强版」的 3D 物理世界与视频生成器。

随着 Matrix-Zero 的推出，昆仑万维在 AIGC 时代的定位又有了新的变化，成为 国内第一家同时推出 3D 场景生成、可交互视频生成模型的探索空间智能企业 。

昆仑万维表示，Matrix-Zero 预计将于 4 月份正式上线，届时用户便能上手体验了。

突破二维平面的 3D 虚拟世界原来是这样子的

从业界已有的工作来看，仅凭任意一张图片就可以生成遵循基本物理几何规则的 3D 世界，成为了探索空间智能的一项关键技术进展。通过训练出的感知、理解和交互能力，AI 想要在三维空间中像人类一样自由地导航、操作和创造。

从李飞飞 World Labs 首个 3D 世界产品，到谷歌 DeepMind 的第二代世界模型 Genie 2，空间智能正在努力完成从生成内容到构建世界的进化，这就要求不仅要理解像素，还要有能力解析空间坐标、几何关系与物理规律，从而实现尽可能真实的立体感和空间深度。

此次，昆仑万维的 Matrix-Zero 向着这些目标开始了自己的尝试，形成了领先的技术方案，并最终在 3D 世界生成领域展现出了一些独有优势。

一图一世界，AI 让 3D 世界一触即达

根据昆仑万维的介绍，Matrix-Zero 采用了与李飞飞 World Labs 不同的 3D 技术路线，实现了 可自由探索且更加真实合理的 3D 场景生成效果 。

在由单张静态图片转化成对应 3D 场景的过程中，保持与原图片的风格一致很重要。在这方面，Matrix-Zero 支持 不同风格的图片输入 ，比如写实风和卡通风（如下写实小巷和卡通蘑菇），严格地「继承」了图片原有风格。

Matrix-Zero 还进一步具备了 风格转换能力 ，在生成 3D 场景时将原图片丝滑地切换成另一种风格，可玩性相较竞品更高，如下示例将原图的房屋变成了红瓦白墙。

其次，Matrix-Zero 生成的 3D 场景实现 高度的全局一致性 ，解决了从单一视角图片生成广范围 3D 场景的前后不一致与空间合理性问题。

从粗糙的几何结构到细节丰富的场景，Matrix-Zero 利用空间扩散模型和可微渲染技术，在不断的细节细化中改善全局一致性，成功创建出了完整且一致的 3D 世界。

从下面两图可以看到，Matrix-Zero 通过自由的镜头移动（包括前进和 360 度环视），从 3D 场景中渲染生成一致的新视图，并确保生成的 3D 场景在空间、物体位置和全局尺度上的合理性。

接下来，Matrix-Zero 向我们展示了它的 最大亮点——支持在 3D 场景中任意方向的长距离、大范围自由探索 ，用户的可操作性更丰富、更强。

实现如此程度的自由探索，得益于 Matrix-Zero 生成的 3D 场景很好地解决了连续性、合理扩展、环境交互、空间感知与导航等多个技术层面的挑战。

Matrix-Zero 不仅可以做到丝滑流畅的前进、后退、左右转、环视等单一移动，还能够执行更复杂的 360 度俯视（下图上）以及先前进后右转等复合移动（下图下）。

最后，Matrix-Zero 生成的 3D 场景中还能 加入动态物体，并实现水流、光照、云雾等看起来自然且符合物理规律的动态效果 。

达成这些目标，需要昆仑万维团队融合深度学习、图形学和实时计算等技术。更具体地，只有在物理仿真、光照与材质模拟、物体交互、实时渲染等多个领域的融合，才有可能从静态图片中捕捉、预测并最终正确模拟出合理的动态物理行为。

Matrix-Zero 实现了丰富的物理动效，包括光照水流混合效果（下图上）、云雾效果（下图下）、海浪效果等。这对于未来帮助 AI 更好地提升 3D 世界的物理属性具有积极意义。

以上结果一一看下来，我们可以得出这样一个初步结论：Matrix-Zero 生成的 3D 场景以及表现出来的亮点，让国内厂商在空间智能领域有了匹敌甚至一些层面上超出国外竞品的实力，其中大范围自由探索增强了 AI 的物理推理、空间认知等能力，有望为构建通用世界模型和 AGI 提供强大助力。

可交互视频让人的参与度更高

Matrix-Zero 的第二个子模型 支持可交互的视频生成 ，其最大的亮点是 更关注实时交互和大范围场景 。

一方面，Matrix-Zero 泛化能力很强，可以适应不同环境，并能以极高的效率生成流畅、一致和合理的高质量视频。另一方面，Matrix-Zero 超出了已有视频生成的能力范畴，极大地强化了视频内容的可操作性，让用户能够自由地调整视角、操控场景元素，并实时影响视频内容，更符合他们的需求和预期。可以说，人在视频生成中的参与度更高了。

从下面生成的城市和沙漠两个环境的视频来看，Matrix-Zero 的可交互性展现得一览无遗。用户可以通过任意的键盘或鼠标移动来控制方向，包括前后左右移动和自由视角移动。这样一来，用户能以极高的自由度来探索视频内容，并使它们更满足自己的意图。

这种强交互性还将进一步优化世界模型在虚拟环境中的的适配性，为构建更强、用户更友好的交互式应用提供驱动力。

从以上一系列 3D 场景和可交互视频的表现来看，在 Matrix-Zero 创建的虚拟世界中，人机交互、自由度和沉浸感均大大加强。可以遇见，未来更强大的昆仑万维 Matrix-Zero 将在可控游戏场景构建、具身智能场景模拟以及 3D 影视镜头高效生成中开辟无限的应用可能性。

一模两用，Matrix-Zero 如何炼成？

当然，Matrix-Zero 的进步，是昆仑万维在自研 3D 场景生成、基础视频生成模型以及用户输入交互模型上全方位升级的结果。

对于 3D 场景生成，Matrix-Zero 由背后强大的 3D 场景生成大模型驱动，它包含两个核心模块，分别是 场景布局生成模块和纹理生成模块 。作为单张图生成 3D 世界的两个核心环节，场景布局生成和纹理生成决定了 3D 世界的几何结构和视觉细节，还直接影响空间完整性与交互体验。

因此，Matrix-Zero 要解决一系列挑战，包括推测不可见部分的合理性（如深度关系、物体语义）、物理一致性（如材质、空间关系的合理性）以及计算资源优化（即高质量 3D 生成的计算开销），这样才可能提高 3D 世界生成的真实感和可用性。

Matrix-Zero 的场景布局生成模块融合了可微渲染和扩散模型技术，创造出与输入图片一致的 3D 场景布局；纹理生成模块在图片生成和视频生成模型的基础上进行训练，可以生成符合场景布局且运镜精准控制的视频。两个模块相辅相成，结合 3D 高斯泼溅（Gaussian Splatting）进行端到端优化，就得到了初始 3D 场景。

接下来，为了确保用户在任何位置、任何角度都能看到合理、一致的场景，3D 场景生成大模型发挥关键效用，对场景缺失区域进行几何和纹理补全，构建出了完整、合理、自然的 3D 世界。

而相较于 3D 场景，Matrix-Zero 可交互视频生成背后采用的技术路线又有所不同。我们了解到，该方法以自研的生成式视频模型为基础，依托大规模开放数据的预训练模型，并结合了自研用户输入交互模型，最终形成了 以用户输入为核心驱动的空间智能视频生成方案

一图一3D世界，视频还可交互，昆仑万维「空间智能」开年首秀来了

正文

请到「今天看啥」查看全文