来源:图灵人工智能
北京时间今天凌晨,AI学者、斯坦福大学教授李飞飞公布了她的第一个创业项目。这是一个能用单张图片、一句话生成3D世界的神奇项目。生成式 AI,从此进入了3D化、完全沉浸式的新时代。
“无论怎样理论化,我们还是很难用语言来描述与照片或句子生成的3D场景交互的体验” 李飞飞说道。
只用一张图生成的 3D 世界会有多精细?World Labs 表示,效果是这样的:
这里是更多效果展示:
此前,我们已经见证了一系列会制作 2D 内容的生成式 AI 工具,它们可以输出图像或视频。相比之下,生成 3D 内容的方法并不多见。直接生成 3D 内容可以提高对内容的控制力和一致性,这将改变我们制作电影、游戏、模拟器和其他物理世界数字表现的方式。
英伟达高级研究科学家、李飞飞高徒Jim Fan总结道,「GenAI正在创造越来越高维度的人类体验快照。Stable Diffusion是2D快照;Sora是2D+时间维度的快照;而World Labs是3D、完全沉浸式的快照」。
的确,当我们把 AI 生成的内容提升到 3D 物体层面上之后,「想象力」与可操作性终于得到了统一,这就为以后的无数应用打开了大门。
在 World Labs 的博客中,团队展示了他们如何探索 3D 生成式世界,并在浏览器中实时呈现,包括相机效果、3D 效果和经典绘画。
01
探索世界
下面展示了由奇幻图片和日常照片生成的 3D 世界一些官方示例。
02
相机效果
一旦场景生成完,之后会使用虚拟相机在浏览器中实时渲染。精确控制该相机可实现艺术摄影效果。
可以模拟景深,只有距离相机一定距离的物体才能聚焦:
还可以模拟滑动变焦,同时调整摄像机的位置和视野:
03
3D 效果
大多数生成模型预测像素,但预测 3D 场景有很多优势:
-
持久现实:一旦生成一个世界,它就会一直存在。即使你移开视线再回来,场景也不会改变。
-
实时控制:生成场景后,你可以在场景中实时移动。你可以停留在一朵花的细节上,也可以窥探角落里的一举一动。
-
正确的几何形状:生成的世界符合三维几何的基本物理规则。它们具有实体感和深度感,与某些人工智能生成的视频的梦幻性质形成鲜明对比。
可视化 3D 场景的最简单方法是绘制深度图,其中每个像素都按其与摄像头的距离着色:
我们可以利用 3D 场景结构来构建交互效果:
还可以构建特效,让场景活跃起来:
走进世界名画
World generation 还有一个应用方式:体验标志性艺术作品。这里是根据梵高、霍珀、修拉和康定斯基的最爱作品生成的,模型没有生成原画之外的任何东西。
04
创意工作流
World Labs 让 3D 世界生成自然地与其他 AI 工具组合在一起。这使得创作者可以使用他们已知的工具来实现新的体验。
例如,可以通过首先使用文本到图像模型生成图像来从文本创建世界。不同的模型有自己的风格,World Labs 生成的 3D 世界可以继承这些风格。
例如,使用不同的文本到图像模型生成同一场景的四个变体,全部使用相同的提示:
一间充满活力的卡通风格的青少年卧室,里面有一张铺着彩色毯子的床,一张杂乱的桌子,上面有一台电脑,墙上贴着海报,还有散落的运动装备。一把吉他靠在墙上,中间是一张舒适的带图案的地毯。窗外的光线为房间增添了温暖、年轻的氛围。
World Labs 已经让一些创作者提前了解了技术,开始尝试 3D 原生生成 AI 工作流带来的可能性。
Eric Solorio 展示了 World Labs 的模型如何填补其创意工作流中的空白,使场景中的角色轻松上演并指导精确的摄像机移动:
Brittani Natali 使用将 World Labs 技术与 Midjourney、Runway、Suno、ElevenLabs、Blender 和 CapCut 等工具相结合的工作流程,在生成的世界中精心设计了摄像机路径,以唤起三部短片的不同情绪:
最后,World Labs 表示这些结果是他们生成 3D 世界的第一个早期预览。他们正在努力改善生成的世界的大小和保真度,并尝试用户与其交互的新方式。
参考链接:https://www.worldlabs.ai/blog
阅读最新前沿科技研究报告,
欢迎
访问欧米伽研究所的“未来知识库”
未来知识库
是“
欧米伽
未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。
目前拥有超过8000
篇重要资料。
每周更新不少于100篇世界范围最新研究
资料
。
欢迎扫描二维码或点击本文左下角“阅读原文”进入。
截止到11月25日 ”未来知识库”精选的100部前沿科技趋势报告
-
Air Street Capital《2024 年人工智能现状报告》
-
未来今日研究所:2024 技术趋势报告 - 广义计算篇
-
科睿唯安中国科学院 2024 研究前沿热度指数报告
-
文本到图像合成:十年回顾
-
《以人为中心的大型语言模型(LLM)研究综述》
-
经合组织 2024 年数字经济展望报告加强连通性创新与信任第二版
-
波士顿咨询 2024 全球经济体 AI 成熟度矩阵报告
-
理解世界还是预测未来?世界模型的综合综述
-
Google Cloud CSA2024 AI 与安全状况调研报告
-
英国制造商组织 MakeUK2024 英国工业战略愿景报告从概念到实施
-
花旗银行 CitiGPS2024 自然环境可持续发展新前沿研究报告
-
国际原子能机构 2024 聚变关键要素报告 - 聚变能发展的共同愿景
-
国际可再生能源署 IRENA2024 年全球气候行动报告
-
Cell: 物理学和化学 、人工智能知识领域的融合
-
智次方 2025 中国 5G 产业全景图谱报告
-
未来今日研究所:2024 技术趋势报告 - 移动性,机器人与无人机篇
-
Deepmind:AI 加速科学创新发现的黄金时代报告
-
PitchBookNVCA2024 年第三季度全球风险投资监测报告
-
德科 2024 年未来全球劳动力报告
-
高工咨询 2024 年协作机器人产业发展蓝皮书
-
国际能源署 IEA2024 年全球能源效率报告
-
基因慧基因行业蓝皮书 2024 - 2025
-
普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战
-
中国互联网协会 2024 面向未来网络的数字孪生城市场景应用白皮书
-
中移智库 2024 先进感知新技术及新应用白皮书
-
智次方研究院 2025 中国 AIoT 产业全景图谱报告
-
未来今日研究所:2024 技术趋势报告 - 人工智能篇
-
国际电联:迈向衡量数字经济的通用框架的路线图
-
联合国粮食与农业组织:2024 年世界粮食安全和营养状况
-
大语言模型综述
-
李飞飞等,AI 智能体:探索多模式交互的前景综述
-
哈尔滨工业大学 - ChatGPT 调研报告
-
2024《美国核部署战略报告》最新文件
-
清华大学:AIGC 发展研究 3.0 发布版 b 版
-
OpenAI:2024 年 OpenAI o1 大模型技术报告
-
Verizon2024 年世界支付安全报告
-
皇家学会哲学学报 从复杂系统角度评估人工智能风险
-
复旦大学 大模型 AI 代理的兴起和潜力:综述
-
经合组织 OECD2024 年气候行动监测报告
-
Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态
-
2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch
-
《全球金融稳定报告》 把舵定航 不确定性、人工智能与金融稳定
-
瑞士洛桑联邦理工学院 《人工智能中的 - 创造力:进展与挑战》
-
《你所需要知道的理 - 论:人工智能、人类认知与决策》牛津大学最新 53 页报告
-
世界经济论坛 新兴技术时代的网络弹性导航:应对复杂挑战的协作解决方案 2024
-
ADL 理特咨询 2024 汽车出行未来展望报告
-
2024 中国硬科技创新发展白皮书 - 开辟未来产业新赛道
-
科学时代的大语言模型中的人工智能
-
Gartner2025 年重要战略技术趋势报告
-
CBInsights2024 年第三季度全球人工智能投融资状况报告
-
TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻
-
天津大学 2024 大模型轻量化技术研究报告
-
欧洲海洋局 2024 导航未来报告将海洋置于更广泛的地球系统中第六版
-
美国安全与新兴技术中心 2024 AI 生成代码的网络安全风险研究报告
-
国际原子能机构 2024 年世界聚变展望报告
-
复旦大学 2024 大语言模型的能力边界与发展思考报告
-
安盛 AXA2024 年气候与生物多样性报告气候过渡计划路线图
-
YouGov2024 美国公众对人工智能 AI 的态度调研报告