专栏名称: 3DCV
关注工业3D视觉、SLAM、自动驾驶技术,更专注3D视觉产业的信息传播和产品价值的创造,深度聚焦于3D视觉传感器、SLAM产品,使行业产品快速连接消费者。
目录
相关文章推荐
笔吧评测室  ·  小米首款 AI PC ... ·  昨天  
笔吧评测室  ·  戴尔全新命名 14/16 Plus ... ·  2 天前  
笔吧评测室  ·  新一代 ROG XG 显卡扩展坞发布:可选 ... ·  3 天前  
笔吧评测室  ·  惠普将推 RTX 5060/5050 ... ·  3 天前  
笔吧评测室  ·  聊一个“知名老品牌”推出的新型笔记本 ·  3 天前  
51好读  ›  专栏  ›  3DCV

一句话爆改三维场景!斯坦福吴佳俊团队新作:场景语言,智能补全文本到3D的场景理解

3DCV  · 公众号  ·  · 2024-11-28 11:00

正文

点击下方 卡片 ,关注 「3DCV」 公众号
选择 星标 ,干货第一时间送达

来源:机器之心

添加小助理:cv3d001,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。

扫描下方二维码,加入「 3D视觉从入门到精通 」知识星球 ,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料: 近20门独家秘制视频课程 最新顶会论文 、计算机视觉书籍 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。 投稿邮箱:[email protected][email protected]

从文字生成三维世界的场景有多难?

试想一下,如果我们要 “生成复活节岛的摩艾石像”,AI 怎么才能理解我们的需求,然后生成一个精美的三维场景?

斯坦福的研究团队提出了一个创新性解决方案:就像人类使用自然语言(natural language)进行交流,三维场景的构建需要 场景语言(Scene Language)

  • 项目主页: https://ai.stanford.edu/~yzzhang/projects/scene-language/

  • 文章地址: https://arxiv.org/abs/2410.16770

这个新语言不仅能让 AI 理解我们的需求,更让它能够细致地将人类的描述转化为三维世界的场景。同时,它还具备编辑功能,一句简单指令就能改变场景中的元素!物体的位置、风格,现在都可以随意调整。
智能的场景理解
再比如,输入 “初始状态的国际象棋盘”,模型可以自动识别并生成如下特征:
  • 64 个黑白相间的格子
  • 按规则排列的 32 个棋子
  • 每个棋子的独特造型
最终生成的 3D 场景完美还原了这些细节。
这个方法支持多种渲染方式,能适应不同的应用场景:
更具吸引力的是其编辑能力:只需一句指令,就能调整场景中的元素:
支持图片输入
动态生成
不仅限于静态,Scene Language 还能生成动态场景,让 3D 世界生动起来。
技术亮点
Scene Language 的核心在于三大组件的融合:
1. 程序语言(program) :用于精确描述场景结构,包括物体间的重复、层次关系;
2. 自然语言(word) :定义场景中的物体类别,提供语义层面的信息;
3. 神经网络表征(embedding ):捕捉物体的内在视觉细节。
这种组合就像给 AI 配备了一套完整的 “建筑工具”,既能整体规划,又能雕琢细节。
对比传统方法的优势
与现有技术相比,Scene Language 展现出显著优势:
  • 用户偏好测试中获得 85.65% 的偏好,相比现有方法提高了近 7 倍;
  • 在物体数量控制方面,测试集中的准确率达到 100%,而现有方法只有 11%。

这一研究展示了 AI 理解和创造 3D 世界的全新可能性,期待它在游戏开发、建筑设计等领域引领新一轮的创新!
作者简介
该篇论文主要作者来自斯坦福大学吴佳俊团队。
论文一作张蕴之,斯坦福大学博士生。主要研究为视觉表征及生成。
吴佳俊,现任斯坦福大学助理教授。在麻省理工学院完成博士学位,本科毕业于清华大学姚班。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉交流群,成立啦!

目前我们已经建立了3D视觉方向多个社群,包括 2D计算机视觉 最前沿 工业3D视觉 SLAM 自动驾驶 三维重建 无人机 等方向,细分群包括:

工业3D视觉 :相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM :视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建 :3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机 :四旋翼建模、无人机飞控等

2D计算机视觉 :图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿 :具身智能、大模型、Mamba、扩散模型、视频\图像生成等

除了这些,还有 求职 硬件选型 视觉产品落地、产品、行业新闻 等交流群

添加小助理: cv3d001,备注: 研究方向+学校/公司+昵称 (如 3D点云+清华+小草莓 ), 拉你入群。

▲长按扫码添加助理:cv3d001

3D视觉从入门到精通 知识星球

「3D视觉从入门到精通」知识星球 ,已沉淀6年,星球内资料包括: 秘制视频课程近20门 (包括 结构光三维重建、相机标定、SLAM、深度估计、3D目标检测、3DGS顶会带读课程、三维点云 等)、 项目对接 3D视觉学习路线总结 最新顶会论文&代码 3D视觉行业最新模组 3D视觉优质源码汇总 书籍推荐







请到「今天看啥」查看全文