为了解决这些问题,来自美国英特尔研究院的Zhipeng Cai等人提出了L-MAGIC(Language Model Assisted Generation of Images with Coherence),通过使用语言模型控制图像扩散模型有效实现高质量,多模态,零样本泛化的360度场景生成。L-MAGIC的live demo已被选为英特尔公司2024年的5个技术突破之一在ISC HPC 2024上展示。
项目主页:
https://zhipengcai.github.io/MMPano
论文:
https://arxiv.org/pdf/2406.01843
代码:
https://github.com/IntelLabs/MMPano
Youtube视频介绍:
https://youtu.be/XDMNEzH4-Ec
Intel ISC HPC 2024 live demo:
https://www.intel.com/content/www/us/en/events/supercomputing.html
Intel Featured Blog:
https://community.intel.com/t5/Blogs/Tech-Innovation/Artificial-Intelligence-AI/Advancing-Gen-AI-on-Intel-Gaudi-AI-Accelerators-with-Multi-Modal/post/1603746
方法
如图3所示,L-MAGIC是一个结合了语言模型及扩散模型的场景生成框架。L-MAGIC通过自然图像连接各类不同模态的输入。当输入不是一张自然图像时,L-MAGIC使用成熟的条件扩散模型如ControlNet从各种模态的输入(文字,手绘草图,深度图等等)生成一张自然图像。在获得自然图像之后,L-MAGIC通过iterative warping and inpainting来生成360度场景的多个视角。在每一个iteration中,warping step将已生成的多视角warp到一个新的视角,实例中的黑色部分代表新视角中的缺失像素。Inpainting step使用基于扩散的图像inpainting模型(Stable Diffusion v2)生成缺失像素。为了使图像扩散模型能够生成多样的全局场景结构,L-MAGIC使用语言模型控制扩散模型在每个视角需要生成的场景内容。除了生成360度场景的全景图,利用深度估计模型,L-MAGIC还能够生成包含相机旋转及平移的沉浸式视频,以及场景的三维点云。由于无需微调,L-MAGIC能够有效地保持语言及扩散模型的泛化性,实现多样化场景的高质量生成。