0. 论文信息
标题:AVID: Adapting Video Diffusion Models to World Models
作者:Marc Rigter, Tarun Gupta, Agrin Hilmkil, Chao Ma
机构:Microsoft Research, Cambridge UK
原文链接:https://arxiv.org/abs/2410.12822
代码链接:https://github.com/microsoft/causica/tree/main/research_experiments/avid
官方主页:https://sites.google.com/view/avid-world-model-adapters/home
1. 导读
大规模生成模型已经在许多领域取得了显著的成功。然而,对于机器人等顺序决策问题,行动标记数据通常很少,因此扩大决策基础模型仍是一个挑战。一个潜在的解决方案在于利用广泛可用的未标记视频来训练模拟行为后果的世界模型。如果世界模型是准确的,它可以用于优化下游任务中的决策。图像到视频扩散模型已经能够生成高度逼真的合成视频。然而,这些模型不是以行动为条件的,最强大的模型是闭源的,这意味着它们不能被微调。在这项工作中,我们提出调整预训练的视频扩散模型,以适应行动条件世界模型,而无需访问预训练模型的参数。我们的方法AVID在一个小的特定领域的动作标记视频数据集上训练一个适配器。AVID使用学习到的遮罩来修改预训练模型的中间输出,并生成精确的动作调节视频。我们在电子游戏和真实世界机器人数据上对AVID进行了评估,结果表明它在扩散模型适应方面优于现有基线。我们的结果表明,如果正确利用,预训练的视频模型有可能成为嵌入式人工智能的强大工具。
2. 引言
基于网络规模数据训练的大型生成模型在自然语言处理、图像生成和视频生成领域推动了快速进步。其在顺序决策领域(如机器人技术、游戏和虚拟代理)中通过扩展规模来解锁进展的潜力,引发了人们对决策代理基础模型的浓厚兴趣,特别是在机器人技术方面。然而,这些领域中带有动作标签的数据量仍然是一个重大瓶颈。这引发了如何利用广泛可用的未标记视频来启动学习的问题。一种有前景的方法是使用视频数据来学习世界模型,即一个预测动作结果并作为学习到的模拟器运行的模型。此类模型可用于优化下游任务的决策制定。
当前的图像和视频扩散模型非常擅长生成文本条件合成数据。如果动作可以用自然语言来表达,这些模型就有可能被直接用于决策制定。然而,在许多现实世界中,核心挑战在于优化低级动作,如机器人技术中的关节角度,因此仅使用自然语言作为唯一接口是不够的。为了克服这一限制,一种选择是对预训练模型进行微调,使其根据特定领域的低级动作进行条件设置。另一种可能是应用现有的适配器架构,如ControlNet,通过修改原始模型内部的激活来添加动作条件。然而,最先进的视频扩散模型的参数通常不会公开,从而排除了这些方法。
在本文中,我们解决了如何利用预训练的视频扩散模型生成动作条件预测的问题,而无需访问预训练模型的参数。受Yang等人近期工作的启发,我们假设只能访问预训练扩散模型的噪声预测。我们提出了AVID,这是一种针对特定领域的适配器,它根据动作对预训练模型的噪声预测进行修改,以生成准确的动作条件预测。为了训练适配器,我们假设可以访问一个带有动作标签的视频的特定领域数据集。
3. 效果展示
对于RT1数据集的实验,我们使用动力工匠作为基础预训练模型。下面,我们将AVID与从头开始使用相同数量的参数和计算(28 GPU天)训练动作条件扩散模型进行比较。我们看到AVID与调节图像保持了更好的一致性。
通过调整不同的动作,AVID可以在给定相同初始帧的情况下生成替代视频:
对于预训练的图像到视频模型,我们在来自Procgen排除其中一个游戏,共润。预训练数据集的示例如下:
然后,我们使用AVID调整这一预训练扩散模型,为Coinrun生成动作调节视频:
4. 主要贡献
我们的工作主要贡献如下:
• 提出了一种方法,即在不访问预训练模型参数的情况下,将预训练的视频扩散模型适配为动作条件世界模型。
• 分析了Yang等人提出的适配方法的局限性。
推荐课程:
扩散模型入门教程:数学原理、方法与应用
。
• AVID,一种向预训练扩散模型添加条件的新方法。AVID将学习到的掩码应用于预训练模型的输出,并将它们与特定领域适配器学习到的条件输出相结合。
我们在视频游戏数据和现实世界中的机器人数据上评估了AVID,其中我们使用了在互联网规模数据上训练的14亿参数模型作为预训练模型。结果表明,我们的方法优于现有基线,并证明了AVID即使对模型访问有限,也能从使用预训练模型中获得显著收益。我们主张闭源视频模型的提供者在其API中提供对中间模型输出的访问,以促进这些模型的更灵活使用。
5. 方法
AVID是一种新的扩散模型适配方法,无需访问预训练模型。AVID的动机在于,虽然预训练的图像到视频模型可以生成逼真的视频,但它们无法生成与给定动作序列相准确的视频。为了实现准确性,必须引导预训练模型朝着动作序列的正确生成方向发展。然而,如我们的实验所示,在这种设置下,分类器指导(或无分类器指导)等技术效果不佳。AVID通过训练一个轻量级适配器来调整预训练模型的输出,从而实现准确的动作条件视频预测来解决这一问题。
6. 实验结果
7. 限制性 & 总结 & 未来工作
局限性:AVID适配器是为特定的预训练模型定制的,因此不能与其他不同的模型组合使用。开发一种能在不同预训练模型上工作的方法是未来研究的一个激动人心的方向。AVID不需要访问预训练模型的权重,但在去噪过程中确实需要访问中间预测结果,在潜在扩散的情况下,包括编码器和解码器的输出。许多闭源API不提供对这些量的访问,因此我们主张模型提供者提供API访问去噪模型和自编码器的输出,以便更灵活地使用他们的模型。
在RT1领域,我们发现从头开始训练一个动作条件扩散模型能获得最佳的动作错误率,尽管生成的视频在视觉上不够准确。对于一些下游应用来说,动作一致性可能是最重要的性能指标。如果是这样,对于某些领域来说,从头开始训练可能是首选方法。
我们提出了一个新问题,即在不访问预训练模型参数的情况下,将预训练的视频扩散模型适配到动作条件世界模型中。我们提出的方法AVID能够生成准确的视频,其性能与控制网(ControlNet)变体相当,同时无需访问预训练模型的参数。AVID在整体性能上优于现有的、不需要访问预训练模型内部信息的基线方法。我们的结果表明,AVID通过在与初始图像在像素空间和潜在扩散模型中保持更好的一致性,从而受益于预训练模型。
随着通用图像到视频扩散模型的能力不断提升,我们的研究强调了将这些模型适配到适合规划和决策的世界模型中的巨大潜力。这项工作代表了朝这个方向迈出的第一步。在未来的研究中,我们旨在探索使用AVID适配器生成的合成数据来进行规划任务,并将AVID与更强大的预训练模型集成在一起。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~