【新智元导读】
中国首个全自研空间智能AI诞生了,单图即可生成360度无限3D场景,实时互动自由探索。这不仅是技术的革新,更预示着,游戏电影等领域即将迎来颠覆性的变革。
就在刚刚,昆仑万维正式发布了一款全新自研的Matrix-Zero世界模型。
Matrix-Zero世界模型包含两款子模型:昆仑万维自研的3D场景生成大模型与昆仑万维自研的可交互视频生成大模型。包括两部分功能:
-
支持将用户输入的图片转化为可自由探索的真实合理的3D场景;
-
支持根据用户输入实时生成互动视频效果。
至此,昆仑万维正式成为中国第一家同时推出3D场景生成、可交互视频生成模型的探索空间智能的企业。
大模型赛道卷了两年,谁都在观望,下一个破局的方向在何方。
李飞飞躬身入局,仅3个月就估值10亿的World Labs令业内恍然大悟:AI教母瞄准的,就是能进行推理的空间智能!
各家的重磅布局说明,做3D场景生成、视频生成模型、空间智能的必要性,已经迫在眉睫。
诚如英伟达高级计算机科学家Jim Fan所言,「空间智能,是计算机视觉和实体智能体的下一个前沿」。
不过仔细看就会发现,目前市面上相关的技术路线,尚存一些痛点未被解决。
比如市面上的一些2D图像或视频生成工具,仍然受制于像素空间和3D空间的差异,生成结果往往不一致、物理不合理。
由于2D图像或视频仅限于二维,创建复杂的动作和摄像机角度就极有挑战性,不适合动作场景
而TripoAI、Meshy等3D工具,则更关注单个物体的生成,因而无法生成完整、合理的3D场景。
即使已经走在前面的WorldLabs,也存在不少限制。比如在探索空间上的不足,就会极大地影响游戏制作和视频渲染。
巧了,看完Matrix-Zero,你会收获大大的惊喜!
这次昆仑万维推出的Matrix-Zero,主要包括3D场景生成和可交互视频生成两部分。
3D场景生成
首先,它支持将用户输入的图片,转化为可自由探索的真实合理的3D场景,同时极大避免了一些视频模型或自回归方法中极易出现的前后不一致现象。
那么如何从3D场景渲染出视频的呢?正如下图所示,在3D场景中放置一个摄像机(橘红色线框所示),并指定其运动控制。
每一个时刻都可以根据相机位置和朝向将3D场景渲染为图片,将这些图片拼接即可得到视频。
这样,不仅视频内容非常符合用户意图,还能拓展在虚拟环境、交互式应用和沉浸式体验中的应用场景,可以用在3D游戏场景中快速可控建模,以及在具身智能中快速搭建模拟场景。
另外,Matrix-Zero可以支持在场景中进行任意方向长距离、大范围的探索,这就为电影、短剧场景镜头生成,提供更多可能。
在这些场景中,你可以先环视再前进、前进后右转、360度俯视、180度回头等等,各种操作只有你想不到,没有它做不到。
而且,无论你输入的是卡通或写实风格的图片,都能生成合理的3D场景。
Matrix-Zero还支持风格迁移,我们可以把一张写实图片转化为卡通风格,或者干脆把房屋变为红瓦白墙。
最后,Matrix-Zero生成3D的场景中的动态物体,也绝对令人惊喜。
无论是光照、海浪、云雾、水流,动态都极度符合真实世界的物理规律,因而可以由之构建真正的世界模型。
为何Matrix-Zero的3D场景生成能有如此惊艳的效果?
它包含了两个核心模块,场景布局生成模块和纹理生成模块。
前者能借助可微渲染和扩散模型技术,创造出和输入图片一致的3D场景布局;后者则是在图片生成模型和视频生成模型基础上训练的,能实现符合场景布局的纹理材质生成。
而用户在场景中运动时,3D场景生成大模型就会不断对场景缺失区域进行几何和纹理的补全,因此用户无论在任何位置、任何角度,都能看到合理、一致的场景。
可交互视频生成
AI视频模型不断推陈出新,但真正能让创作者「身临其境」地参与生成过程的AI,却是凤毛麟角。
Matrix-Zero,正是打破这一僵局的革命性产品。
无论是在虚拟环境、交互应用,还是沉浸式场景中,它都能以惊人的效率输出高质量视频。
更重要的是,生成的视频始终保持流畅连贯,符合情境逻辑。
在案例中,它展现出令人惊叹的自由度,以及更加真实的3D场景生成。
当你在键盘上点击方向键,或是移动鼠标,AI会立即响应你的指令,生成与你意图完美契合的画面。
好比这张街景图生成的视频画面,你可以前后左右移动,随心所欲地调整视角,就像在真实世界中探索一样。
还有这张科幻风图片的交互,瞬间给人一种错觉:这不就是Martix中的世界么。
团队的方法建立在自研的生成式视频模型之上,依托大规模开放数据的预训练模型,同时结合了自主研发的用户输入交互模型。
最终,实现了一种以用户指令输入为核心驱动的空间智能视频生成方案。
这就保证了在开放视频领域生成能力的同时,进一步增强了对视频内容中视角移动的精确控制,从而更符合用户的交互需求和预期。
具体来说,Matrix-Zero包括基础视频生成模型和用户输入交互模型两个核心部分。
Matrix-Zero 主要由两个核心部分组成:一个是视频生成模型,另一个是用户交互模型。
前者是整个系统的核心,相当于一位「元帅」。而后者,则是一位「军师」。
元帅负责根据初始视频帧生成连贯的视频内容,军师则负责解析用户输入信息,转化为视频调整信号。这样,Matrix-Zero就既能生成清晰、稳定、有逻辑的视频,还能准确响应,让交互更直观流畅。
-
「离散运动控制模块」负责处理基本运动指令如前进、跳跃等;
-
「连续视角控制模块」用于实时处理视角变化等连续控制信号;
-
「3D场景位置追踪模块」通过空间定位技术确保视角转换的稳定性;
-
「滑动窗口机制」利用历史输入预测用户操作,优化控制响应。
总之,以上特性让Matrix-Zero真正成为一款足够实用性的产品,在电影、短剧、游戏、具身智能等领域有广泛的应用空间。
游戏开发者和影视剧从业者等相关人员,可以用它实现明显的降本增效。
比如,游戏开发者可以用它轻松实现3D游戏场景搭建。
影视剧从业者,则可以轻松生成电影/短剧中的镜头。为了一个镜头动辄烧上百万甚至上千万美元经费的情况,从此可以彻底告别。
《阿凡达:水之道》是史上经费最高的电影之一,整部电影的预算为4.6亿美元左右,但单个VFX的成本可能就达到每秒数百万美元
由此显露的产品领先性也体现出,昆仑万维在科研、产品、应用上具备足够的前瞻性,已经形成了闭环的产业链。
在「AI教母」李飞飞看来,空间智能不仅仅是让AI看见世界,还要让AI理解三维世界,并具备与之互动的能力。
ImageNet所代表,只是对「智能」一半的理解,另一半还存在于物理世界中。
回顾AI发展历程,我们见证了其从文本到2D图像、视频的跨越。
以往的一些经验也告诉我们一个深刻的道理:高维度的理解和生成,绝非低维度模型所能企及。
不论是LLM还是多模态语言模型(MLLM),其底层架构仍局限于一维的表征。
这种一维表示在处理语言方面得心应手,但当处理图像、视频等其他模态数据时,本质上不过是将多维信息「压缩」进一维序列中,就不会可避免地造成信息损失。
NeurIPS 2024上,李飞飞提到最领先的多模态模型在HourVideo基准上依旧与人类有很大差距
就像文字难以完整描绘出图像的细节,2D模型在处理3D世界时也面临着严峻的挑战。