专栏名称: 映维网Nweon
映维网是一个始于2014年10月的增强现实(AR)、虚拟现实(VR)产业信息数据平台,专注于AR/VR产业发展及市场教育培养,致力于引导全球AR/VR产业发展,服务于全球各地的AR/VR创业者。
目录
相关文章推荐
调研纪要  ·  机器人破圈 ·  20 小时前  
调研纪要  ·  机器人破圈 ·  20 小时前  
ChatAI42技术与产品  ·  估计KL散度的艺术:平衡偏差与方差的实用指南 ·  昨天  
山西省人民政府  ·  山西商务事业发展专项资金项目开始申报 ·  昨天  
老乡俱乐部乡宁站  ·  选址公布!全球500强企业再与山西签约... ·  2 天前  
JC万事通  ·  晋城降雪!最新消息! ·  2 天前  
51好读  ›  专栏  ›  映维网Nweon

中外研究员介绍新型3D室内场景布局设计器LLplace,基于轻量级微调开源LLM Llama3

映维网Nweon  · 公众号  ·  · 2024-12-13 11:55

正文

通过LLM生成和编辑3D室内场景

映维网Nweon 2024年12月12日 )三维室内场景设计是一项重要的任务,在虚拟现实等领域有着重要的应用。现有的3D布局设计方法要么依赖于利用空间关系先验的扩散模型,要么大量利用专有的大型语言模型的推理能力,而它们在泛化和动态场景编辑方面往往存在局限性。

所以,南方科技大学,华威大学,西安交通大学,约克大学团队介绍了基于轻量级微调开源LLM Llama3的新型3D室内场景布局设计器LLplace。

LLplace绕过了对空间关系先验和上下文范例的需求,仅根据用户输入指定房间类型和所需对象来实现高效可靠的房间布局生成。团队在3D-Front数据集的基础上策划了一个新的对话数据集,扩展了原始数据量,并结合了对话数据来添加和删除对象。数据集可以增强LL,的空间理解能力。

另外,通过对话,LLplace激活了LLM理解3D布局和执行动态场景编辑的能力,从而可以添加和删除对象。方法表明,LLplace可以有效地交互式生成和编辑3D室内布局,并且在提供高质量的3D设计解决方案方面优于现有方法。

三维室内场景设计和优化在虚拟现实等应用中发挥着至关重要的作用。尽管人工智能领域取得了重大进展,特别是在自然语言处理和计算机视觉方面,但从原始文本中灵活生成和动态编辑3D室内场景的任务依然是一个复杂的挑战。

现有的室内场景布局设计方法主要分为两类。第一个是基于扩散模,利用模型以及各种空间特征先验来生成3D布局。第二类依赖于现有LLM的推理能力,使用大量提示生成相应的3D布局,如LayoutGPT和Holodeck。

然而,现有方法存在明显的缺陷。首先,大多数布局生成模型依赖于空间关系先验或样例作为模型输入来指导生成。如果用户不提供关系,或者系统无法检索到准确的范例,则模型就无法获得令人信服的结果。在这里,当遇到新的不同场景时,先验启发策略显著地限制了模型的泛化能力,而高质量的先验或样本十分昂贵。

其次,目前大多数基于LLM的布局模型只支持一次性静态布局生成,不能进行动态场景编辑。这与LLM的交互性不一致。

所以,团队对探索不依赖于强大先验或预先准备上下文范例的LLM作为动态3D场景布局设计的潜力特别感兴趣。

研究人员介绍了一种全新的三维室内场景布局设计器LLplace (Large Language Model for indoor Placement)。他们首先为3D室内场景设计精心设计了一个格式友好的元提示模板,然后重建规则的3D- Front数据集以用于多回合对话格式的静态场景生成和动态场景编辑

在设计管道中,首先将用户输入指定为房间类型和房间内对象的描述。然后,使用对象描述从3D- Front数据集中检索3D asset和相应的边界框。接下来,将用户输入和对应对象的对应边界框转换成LLM可以接受的JSON格式。

在将用户请求JSON嵌入元提示模板后,整个转录最终完成。整体管道不仅用于训练数据的构建,而且用于推理的执行。根据输入的JSON格式,团队设计使用JSON对训练数据的标签进行标准化。“JSON-in”和“JSON-out”模式有利于半结构化自然语言请求和辅助结构化编程的耦合。

基于检索到的3D asset及其边界框,研究人员要求LLM报告其包含房间中物体的坐标和旋转角度的设计。这超越了传统的静态3D室内布局生成,同时考虑了动态场景编辑。

他们将前面提到的指令和标签开发成对话框,添加额外一轮的编辑请求,比如添加或删除对象。然后,LLM相应合理地修改其进一步的输出。另外,团队能够在对话的每个回合将用户的输入JSON和LLM的输出JSON重构为空间3D边界框布局,然后可以将其呈现为一系列3D表示。







请到「今天看啥」查看全文