团队提出了Idea23D,从用户的混合交错多模态输入(文本指令、图像、3D 模型)中生成 3D 内容。Idea23D结合大型多模态模型和现有生成式方法构建智能体,在完全自动化的循环中相互协作,无需人工干预,自动化地生成 3D 内容。
与直接从输入生成3D的方法不同, Idea23D使用查找差异任务作为反馈进行比较分析,使得输出的 3D模型能够更加接近人类偏好 ,实现了将用户提供的高层次、抽象的多模态交错输入转换为具体3D模型。Idea23D能够完全自动化地进行3D AIGC任务,展示了基于 LMM 的智能体在改进、评估和验证 3D 模型生成方面的有效性。
同时该团队首次提出了基于多模态输入的 3D AIGC 任务评估数据集Eval3DAIGC-198,并通过用户偏好研究和定量实验证明了Idea23D的有效性,为今后的 3D AIGC任务提供了一个可供参考的评估标准。
论文题目:
Idea23D: Collaborative LMM Agents Enable 3D Model Generation from Interleaved Multimodal Inputs
论文链接:
https://arxiv.org/abs/2404.04363
项目主页:
https://idea23d.github.io/
团队提出了Idea23D,这是一种创新的3D生成框架,能够处理交织的多模态输入(IDEAs),包括文本、图像和3D模型。Idea23D通过协作式大型多模态模型(LMM)、文本到图像(T-2-I)和图像到3D(I-2-3D)模型,实现了从复杂多样的用户输入自动生成高保真3D模型的目标。
随着2D扩散模型的成功,2D人工智能生成内容(AIGC)已经深刻改变了人们的生活。近期,这一成功被延伸至3D领域,最先进的方法能够从单张图像或文本生成带纹理的3D模型。然而,现有的3D AIGC方法尚未充分释放人类的创造力。人们常常希望从多模态输入中生成3D内容,例如“如果我的宠物兔子正在桌子上吃甜甜圈,它会是什么样子?”。为此,团队提出了一种全新的3D AIGC方法:从人类想法(Idea)生成3D内容。Idea定义为由文本、图像和3D模型交错而成的一个多模态输入。最近 3D AIGC 端到端基础模型在识别用户想法上取得了明显的进步,但仍然面临着巨大的挑战:
1、无法处理交错的多模态输入指令,也无法处理高层次、抽象的指令输入
2、3D模型的生成过程缺乏人类反馈优化,导致生成的 3D模型和用户想法之间存在偏差图 1. 和baseline 的对比。每个案例中红色虚线框内为输入,左侧结果是GPT-4V,DALLE和 zero123 的简单 pipeline,右侧结果是经过 Idea23D 框架之后的输出。Idea23D框架结合了三个基于大型多模态模型(LMM)的代理和现有算法工具。这三个代理分别负责提示生成、模型选择和反馈反思,通过协作和互相批评,实现全自动的3D设计与生成迭代优化,简要流程如下:
图:该框架利用大型多模态模型(LMM)代理,通过迭代自我优化,充分发挥T-2-3D模型的潜力,为用户输入的IDEA提供更优质的T-2-3D提示。绿色圆角矩形表示由LMM代理完成的步骤。紫色圆角矩形表示T-2-3D模块,包括T-2-I模型和I-2-3D模型。黄色圆角矩形表示现成的3D模型多视角生成算法。蓝色表示记忆模块,用于保存之前各轮的所有反馈、最佳3D模型和最佳文本提示。请注意,该循环由LMM代理全自动执行,无需任何人工干预。(1)初始提示生成:Idea23D框架将复杂的多模式用户输入转换为用于生成3D模型的文本提示。具体来说,采用LMM来理解这些输入并将其表达为文本格式。每个3D模型通过渲染生成六个图像,从不同角度描绘模型:前、后、左、右、上、下。将这些图像与文本组件结合,生成下一轮的输入。
(2)3D模型生成与草稿选择:文本到图像模型生成2D图像,经过细化处理后输入到图像到3D模型中,产生3D模型。然后,Idea23D中用于模型选择的Agent根据与用户 意图的一致性从生成的3D模型集合中选择最佳草稿 3D 模型。这一关键步骤可以过滤掉低于标准的模型,确保高质量的迭代生成。
(3)反馈生成与迭代优化:在识别出最佳草稿模型之后,Agent决定是否最终确定该模型作为结果或继续细化。在后一种情况下,目标是生成文本反馈来指导最佳模型的增强。该决定取决于迭代计数是否超过最大阈值或者代理是否认为不需要进一步修改。在迭代中,每个文本提示都用作生成3D模型的输入,迭代细化,直到输出与用户的意图一致。每次迭代的最后阶段,Agent再次进行修订提示生成,利用文本反馈和记忆模块创建精致的模型生成提示,有效解决反馈中的问题。
莫奈《睡莲》的装饰性雕塑:第一列提示语简单,仅说明雕塑是基于莫奈《睡莲》的灵感。生成的3D模型质量较低,颜色和形态模糊,未能表现出《睡莲》的艺术氛围。第二列提示语更加详细,描述了雕塑的材料(陶瓷)、颜色(柔和的绿色、蓝色、粉色)以及艺术风格(印象派)。生成的3D模型显著改进,色彩更协调,造型更贴近提示语。第三列提示语进一步改进,增加了关于雕塑层次感、抽象风格以及柔和对比色的描述。生成的3D模型更加精致,体现出多层次的细节,颜色与形态高度一致,表现了印象派艺术的核心特质。
披萨店的展示雕塑:第一列提示语简单,仅提到雕塑适合在披萨店展示。生成的3D模型非常粗糙,形态抽象,难以看出与披萨店的关联。第二列提示语详细描述了雕塑的现代风格、材质(耐用材料)和颜色(红色与白色结合)。生成的模型具有了更明确的形态,能够反映出提示语中提到的设计理念。第三列提示语进一步完善,增加了几何形状、光滑线条和高雅基座的描述。生成的3D模型体现了更清晰的几何美感,结构简洁且与披萨店的主题紧密关联。兔子抓着甜甜圈的样子:第一列提示语简单,仅描述兔子用爪子抓着甜甜圈吃。生成的3D模型质量低,兔子的形态和甜甜圈的细节都不清晰,显得笨拙。第二列提示语更详细,描述了兔子的毛皮纹理、甜甜圈的糖霜和颜色细节。生成的模型更接近现实,兔子和甜甜圈的细节都有显著改进。第三列提示语进一步完善,强调场景自然性和整体和谐,要求甜甜圈的质感、兔子的姿态和背景细节和谐统一。生成的3D模型表现力极佳,兔子和甜甜圈的互动生动,整体视觉效果自然流畅。
一个具体的案例:“An elephant sitting on a wooden four-legged chair”(一只大象坐在一个四条腿的木椅子上)
Draft Prompt and 3D Model:
"A realistic scene of an actual elephant sitting on a wooden chair with four legs. The chair is large and robust, made of sturdy wood to support the elephant’s size. The elephant is depicted in a natural, life-like manner, showcasing its grandeur and size. The setting is outdoors, possibly in a safari or nature reserve, with the chair placed on the ground amidst a natural environment. The scene captures the unusual and amusing juxtaposition of a majestic elephant comfortably seated on a human-made chair."但是,根据提示语生成了一组初始3D模型(Draft 3D Model * N)。这些模型质量参差不齐,其中一些模型未能很好地表现提示语中的内容,例如:椅子的形状、材质和比例不准确。大象的纹理或姿势不自然。
Draft 3D Model Selection:从生成的模型中挑选出最符合提示语的一个模型作为进一步改进的基础。
问题描述:如果模型在纹理、透视或细节方面存在问题,例如不自然或失真,需要进一步修改。确保大象的皮肤纹理和颜色准确表现;调整模型的比例,使椅子和大象的比例一致;增加细节,特别是椅子和大象的交互部分,以提升整体真实感。
文本反馈(Text Feedback):
针对初始模型和提示语的改进建议,提供具体的修改方向:纹理与颜色、透视一致性、细节增强。
修订后的提示语和模型(Revised Prompt and 3D Model):在收到反馈后,进一步完善提示语,强调了更多细节和设计风格,例如椅子的外观、大象的姿态和整体场景的趣味性:“An imaginative scene featuring an elephant sitting on a wooden four-legged chair. The elephant is depicted with a whimsical, cartoonish style, adding an element of playfulness to the scene. The chair is sturdy, made of dark brown wood, and is proportionally large enough to support the elephant. The background is simple and unobtrusive, focusing attention on the unusual and amusing sight of the elephant comfortably seated on the chair.”
3.2 基于 Eval3DAIGC-198 数据集的定量结果团队提出的Eval3DAIGC-198 数据集包含198个IDEA,涵盖纯文本、文本与图像、文本与3D模型以及文本、图像与3D模型的多种组合,精心设计以模拟真实场景,并展示了多样化的标签分布。这些案例涵盖了多种复杂程度:9个仅包含文本,57个包含文本和图像输入,68个包含文本和3D模型输入,64个包含文本、图像和3D模型输入。每个测试案例都经过精心设计,以代表真实世界的情景。该数据集还包括标签的分布:9个不含标签,62个有1个标签,127个包含2个标签。每个案例的真实文本标签 GT 均由人工标注。
图:Eval3DAIGC-198 数据集中案例的分布。团队在Eval3DAIGC-198 数据集的基础上对 Idea23D 进行了定量测试。T-2-3D所在列表示使用 LMM 作为图像、3D 模型注释生成,然后拼接到文本指令之后进行3D 生成的结果。Idea23D 所在列的结果更加接近于使用真实提示词(GT prompt)的结果。GPT-4o 、Flux和InstantMesh的组合效果最好,生成的3D模型质量最高,CLIP 和 ULIP-2 的分数作为评价文本到3D生成模型性能的重要参考。Idea23D显著提高了对用户意图的理解能力,超越了以往text23D模型的简单组合。
表:Eval3DAIGC-198 数据集上的定量结果
3.3 可视化对比
可视化对比结果显示,Idea23D生成的3D模型在质量和与用户意图的一致性方面显著优于现有方法。图:使用 GPT-4o、FLUX 和 InstantMesh 作为 Idea23D 组件的结果,案例来自Eval3DAIGC-198 数据集。图:和baseline 的对比。每个案例中红色虚线框内为输入,左侧结果是GPT-4V,DALLE和 zero123 的简单 pipeline,右侧结果是经过 Idea23D 框架之后的输出。
本文介绍了Idea23D,一种利用 LMM 代理协作框架,通过从高级、交错的多模式用户输入 (IDEA) 自动创建模型,拓宽了3D AIGC领域的研究范围。这一框架集成文本、图像和 3D 模型,并以反馈纠错迭代过程为基础,增强了生成的 3D 模型与人类意图的一致性。人类偏好测试突出了其在满足用户输入和生成质量方面的优越性,同时提出了首个用于 3D AIGC 任务的评估数据集Eval3DAIGC-198,为未来的工作提供了一个评估标准。未来工作将优化框架结构,便于更精准的进行多模态融合和反馈,同时也将扩展输入范围以应用于更多样的下游任务。
llustration From IconScout By IconScout Store
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
[email protected]
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”: