专栏名称: 科普中国
公众科普,科学传播
目录
51好读  ›  专栏  ›  科普中国

大语言模型还没搞懂,“大世界模型”又来了

科普中国  · 公众号  · 科学  · 2024-12-25 15:30

主要观点总结

某AI科技公司推出了一款名为“大型世界模型”(LWM)的AI系统,可以通过输入图片生成完整的3D世界。系统允许用户以第一人称视角探索场景,具有真实物理感和动态效果。该系统的推出解决了像素生成的不一致性和稳定性问题,为创作提供了新的工具。虽然存在一些问题,如移动限制和画质模糊,但该公司表示这只是早期预览版,正在努力提高生成世界的规模和细节质量。该系统的应用前景广泛,可用于游戏开发、文学创作、梦境复现等领域。

关键观点总结

关键观点1: 新型AI系统通过图片生成3D世界。

输入任何图像,系统可以将其转化为3D场景,提供第一人称视角的探索体验。

关键观点2: 系统解决了像素生成的问题。

该系统克服了像素层面生成的不一致性和稳定性缺陷。

关键观点3: 系统具有真实物理感和动态效果。

用户可以在生成的空间内移动,并调节场景、添加动效,如光影、景深、色调。

关键观点4: 系统存在的问题与未来改进方向。

目前存在移动受限、画质模糊等问题,但公司表示正在努力提高生成世界的规模和细节质量。

关键观点5: 系统的广泛应用领域。

该系统可应用于游戏开发、文学创作、梦境复现等领域,为创作者提供新的创作工具。


正文


某 AI 行业科技公司刚刚推出了第一个项目:仅通过一张图片像就生成一个完整 3D 世界的 AI 系统


一键生成中世纪小镇丨World Labs


介绍博客里这样写道:“输入任何图像后,可以以 3D 方式探索它”——给它一张图,它能将图中场景三维化,还不是静态的“2D 转 3D”,你能像游戏里的第一人称一样控制视角,探索场景。


五花八门的场景丨World Labs


他们们管这叫“大型世界模型”(Large World Model, LWM),他们也称自己为空间智能 AI 公司。


完整系统还在邀请内测阶段,该公司在官网开放了即时演示,用户不仅可以看,还可以在浏览器直接操控视角转换,感受它塑造的世界。


大震撼。


 “一图一世界” 


这个系统同之前英伟达曾开发过的“2D 转 3D”模型 Instant NeRF 完全不同—— Instant NeRF 的视角没有深度变化、受阻没有物理碰撞,甚至会发生直接穿越;而新的这一工具生成的场景符合基本空间原理和物理定律。


英伟达的 2D 图片转 3D 场景的大模型 Instant NeRF 就有物理问题丨Instant NeRF


这更不会像上个月推出的 AI 即时生成 3D 可交互游戏 Oasis 里面的“鬼打墙”——切换个视角再回来,世界就成了另外一番样子那般诡异。该科技公司的这个系统生成的是完整三维场景而非像素,克服了像素层面生成不具备一致性和稳定性的缺陷。


看得人都晕 3D 了丨World Labs


在它生成的场景里,你可以用“前后左右”在生成的空间内移动,用鼠标转换视角,并能调节场景、添加动效,比如光影、景深、色调,效果能直接在浏览器里实时渲染出来。


当你让树叶“沙沙作响”,为街角小巷营造出不同光影,让水面泛起涟漪,能感受到系统并非简单的动效添加,而是识别出了场景里的实体。


希区柯克变焦丨World Labs


想象一下,与其他工具结合或随着这个系统功能变多,你可以“化身”舞台置景,控制这一场景的布光和色调,甚至插入一个角色进入场景,改变画面的运镜,比如利用系统里自带的滑动变焦(俗称希区柯克变焦,算法算好了摄影机的位置和景深,用户直接拖动就能实现该效果),就能实现那股“诡异”的感觉。


 可远观而不可近玩 


惊喜巨大,但一上手还是会暴露一些问题。


首先,就是类似游戏里的“空气墙”,你在场景里的移动十分受限,物理感觉只有 1-2 平米的移动范围,移动几步就会提示“越界”。


真·处处碰壁丨World Labs


其次是类似 VR 的问题,越靠近边缘的视野越模糊,动态场景的画质也不如静态的清晰,但这对非写实风格的场景来说不是问题。


交互上,镜头控制选项也较少,景深控制只能选择距离,不能选择具体的对焦点,运镜也只能滑动变焦。


“真实物理感”虽然说满足了最基本的不能穿墙,画面随第一视角移动,和点哪(光源)亮哪,但有限的交互和行动半径,却还是附着了另一层虚拟感。


光也可以指哪儿打哪儿丨World Labs


不过该公司也表示,这只是“早期预览版”。他们正在努力提升生成世界的规模和细节质量,并探索更多交互方式。

World Labs 核心团队丨World Labs


 这些工具出的比用的都快,有啥用? 


“我们计划构建对艺术家、设计师、开发人员、电影制片人和工程师等专业人士有用的工具。允许任何人想象和创造自己的世界,将生成性人工智能的潜力从 2D 图像和视频扩展到 3D 世界。”


我理解是,该公司要给创作先“打个底”。


静谧酒馆一键穿越进画中诡谲世界丨World Labs


创造一个符合真实世界规律的虚拟世界,首要的应用之一就是游戏。


3D 场景开发占游戏制作成本中很大比重,许多独立游戏开发者都会卡在这一步,退而求其次去选择其他方式,比如 2D 像素风、手绘、低多边形、平面、插画、立绘等等方式。


YouTuber 把著名(但画风简陋)的独立游戏《Undertale》3D 化丨YouTube


这个系统可以结合市面上的 AI 工具,比如 Midjourney(图像生成)、Flux AI(优化画质)等,生成3D游戏场景,自由设计镜头运动,这对于开发者来说是新的创作方式。


分分钟带入恐怖游戏视野,这味太对了丨World Labs


电子游戏中最早出现的游戏类型之一 AVG 文字冒险游戏,此前最常见的形式就是一个角色立绘在一个场景背景板前,靠对话框传递信息(比如著名的《逆转裁判》)。


有了上述的创作工具,即便我没有任何绘画和建模基础,只凭一个剧本和脚本编辑器,就有可能打造出一款 AVG 游戏。


AI 工具搭配起来用,事半功倍丨World Labs


还记得前一阵的“3A”大作《沙威玛传奇》吗?越来越多独立开发者考虑用 AI 降低小游戏开发成本。专业的大厂可以用最先进的图像引擎,生成一个完整的世界。现在这个系统恰好弥补了游戏开发中的一个空白区:它小范围的场景生成远未到替代专业引擎的程度,但又极大地降低了游戏场景设计的门槛,从视觉甚至交互层面,给予了独立游戏更多可能。


似漫画,似动画,似《职场浮生记》游戏开局丨World Labs


游戏之外,再想象一下类似 3D 物理世界生成系统与其他媒介结合的可能性。


把你手绘的几个分镜头脚本输进去,它给你生成了一个虚拟的拍摄场地,你甚至可以在里面运镜,做出一个简单的样片也不是问题。


把文学作品丢进这个 AI 系统,你可以真的进入乔治·马丁笔下的君临,J·K·罗琳描绘的巫师大街对角巷,看一下三日恒空的三体世界。


这或许是更符合原著《哈利波特》里描绘的对角巷丨World Labs


把梵高的画作输入进系统,你可以真的坐进《夜晚露天咖啡座》,或是看到莫奈所见的《圣达特特勒斯的海滩》,站在《夜游者》的酒吧门口,像一个等待进入的顾客。


生成模型后,场景依旧保有了爱德华·霍普《夜游者》中都市的寂寥感丨World Labs


甚至有天,你做了一晚上超现实的梦,在醒来后打开电脑,把梦境记录下来,然后就得到了一次梦境的复现。



策划制作

来源丨果壳

作者丨糕级冻雾

责编丨杨雅萍

审校丨徐来、林林


相关推荐

1.以为是痔疮,结果是肠癌!竟是被这件常见“小事”给耽误了……现在知道还不晚

2.“顶流”上市!比白菜鲜,维C含量高!它是四川人冬日餐桌上的灵魂

3.为什么我不建议你,凡事都和伴侣“掏心掏肺”?

4.冬天必吃的神仙菜!营养美味还抗癌,答应我一定要试试

5.5 种疼痛可能是骨质疏松的信号,可惜很多人不知道,错过最佳治疗时间!


本文封面图片及文内图片来自版权图库

转载使用可能引发版权纠纷
原创图文转载请后台回复“转载”


点亮“在看”

一起涨知识!