专栏名称: 极市平台
极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台,为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯,行业动态,在线分享信息,线下活动等。 网站: http://cvmart.net/
目录
相关文章推荐
白鲸出海  ·  “重”关税时代到来,海外仓或成出海必选项 ·  13 小时前  
百度智能云  ·  @所有企业,您有四款AI原生应用DeepSe ... ·  3 天前  
白鲸出海  ·  2025年1月成功出海的中国手游:《Whit ... ·  昨天  
中油工程建设  ·  公司与大庆建设公司签署合作框架协议 ·  3 天前  
51好读  ›  专栏  ›  极市平台

3个月估值10亿,李飞飞空间智能首个模型诞生!一张图生成3D世界,视频游戏要变天

极市平台  · 公众号  ·  · 2024-12-03 22:13

正文


↑ 点击 蓝字 关注极市平台
来源丨新智元

极市导读

李飞飞的World Labs首个「空间智能」模型,刚刚诞生了! 一张图生成一个3D世界,网友惊呼: 太疯狂了,我们进入了下一轮革命,这就是视频游戏、电影的未来。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿

AI生成3D世界成真了!
就在刚刚,AI教母李飞飞创立的World Labs首次官宣「空间智能」模型,一张图,即可生成一个3D世界。
用李飞飞的话说,「无论怎样理论化这个想法,都很难用语言描述一张照片或一句话生成3D场景的互动体验。」
这是迈向空间智能的第一步。

交互传送门:https://www.worldlabs.ai/blog#footnote1
所有场景都能在浏览器中实时渲染,还能实现可控的相机效果、可调节的模拟景深。
未来,游戏NPC的虚拟世界可以随意切换,都是分分钟生成的事情。
英伟达高级研究科学家、李飞飞高徒Jim Fan总结道,「GenAI正在创造越来越高维度的人类体验快照。Stable Diffusion是2D快照;Sora是2D+时间维度的快照;而World Labs是3D、完全沉浸式的快照」。
今年4月,李飞飞被曝出开始自创业,专注于空间智能,新公司私下融资直接晋升10亿美元独角兽。
直到9月,这家名为World Lab正式亮相,并在新一轮融资2.3亿美金,得到了AI大牛Geoffrey Hinton、Jeff Dean、谷歌前CEO Eric Schmidt等人的鼎力支持。

World Labs创始人团队,左起依次为Ben Mildenhall、Justin Johnson、Christoph Lassner和李飞飞
如今酝酿半年多,空间智能终见雏形。
网友们激动地表示,太疯狂了,我们即将迎来一个像是80年代、90年代那样的革命。这将让许多人实现他们的创意,有望降低开发成本,帮助工作室的新知识产权更大胆冒险。
这就是视频游戏、电影的未来。
VR从此有了更多可能性。

探索一个新世界


不论是Midjourney、FLUX,还是Runway、DreamMachine,我们熟知的大多数GenAI工具仅能制作图像/视频2D内容。
若是实现了在3D中生成,视频的控制性、一致性能得到极大的改善。
这也就意味着,制作电影、游戏、模拟器等其他物理世界的数字表现形式,将会发生翻天覆地的变化。
World Labs成立开始的初衷便是,空间智能的AI对世界进行建模,还能3D时空中物体/地点/交互进行推理。
这次,他们首次展示了这个3D生成的世界。
如下,是在浏览器中进行的实时渲染演示(注:AI图像均由FLUX 1.1 pro/Ideogram/Midjourney生成)。
输入一张AI生成的古色古香的村庄图像,然后就可以得到一个3D的世界。

提示:这是一个古色古香的村庄,鹅卵石铺就的街道,茅草屋顶的小木屋,中央广场上有一口石井,周围是花坛
一座富丽堂皇的宫殿,AI把光与影都展现得淋漓尽致。
一幅AI生成的折纸类图片,立刻活灵活现了起来。
又或者输入一张博物馆取景照片,谁又能想到这周围是什么样子的呢?
AI帮你设想出了一切,出入门,下一间相邻的展馆、展品.....
再比如这张实景图,AI也能想象出周围的世界。

相机效果


你还可以体现不同相机效果,场景生成后,会使用虚拟相机在浏览器中进行实时渲染。
通过对这个相机的精准控制,便可以实现艺术摄影特效。
比如模拟不同的景深,让只有在相机特定距离范围内的物体保持清晰:
还可以模拟滑动变焦(dolly zoom),通过同时调整相机的位置和视场角来实现这一效果:
左右滑动查看

3D特效


大多数生成式模型都是预测像素的。而预测3D场景有很多好处:
- 场景持久性:一旦生成了一个世界,它就会稳定存在。即使你转开视线后再次观看,场景也不会在你看不见时发生变化。
- 实时控制:生成场景后,你可以在其中实时移动。你可以仔细观察花朵的细节,或是探头查看角落后面有什么。
- 几何精确性:这个生成的世界遵循基本的3D几何物理规则。它们具有真实的立体感和空间深度,与某些AI生成视频的虚幻效果形成鲜明对比。
可视化3D场景最简单的方法是,就是使用深度图(depth map)。在深度图中,每个像素都会根据其到相机的距离来着色:
我们不仅可以利用3D场景结构来创建交互特效:
还可以创建自动运行的动态效果,为场景注入生命力:
左右滑动查看
名画中的3D世界也可实时交互了。

走进梵高的露天咖啡馆


现在,我们可以以全新的方式,体验标志性的艺术作品了!
原画中没有任何东西,是由模型生成的。
下面,就让我们走进从梵高、霍珀、修拉和康定斯基最喜欢的作品中生成的世界。

左右滑动查看

创意工作流


现在,3D世界生成可以十分自然地和其他AI工具组合在一起,创作者们可以使用已知的工具,获得无比丝滑的全新体验了。
首先,可以通过使用文本到图像模型生成图像,来从文本创建世界。
不同的模型都有自己的不同风格,而空间智能世界可以继承这些风格。
下面就是使用不同的文本到图像模型生成同一场景的四个变体, 它们使用的都是相同的提示。
提示:一间充满朝气的动漫风格青少年卧室,床上铺着五颜六色的毯子,书桌上杂乱地摆着一台电脑,墙上贴满了海报,各种运动器材随意地散落在房间里。一把吉他斜靠在墙边,房间中央铺着一块带有精美图案的舒适地毯。窗外透进的阳光为整个房间营造出温馨活力的青春氛围。






请到「今天看啥」查看全文