24年12月来自华东师范、美的空调和上海大学的论文“Diffusion-VLA: Scaling Robot Foundation Models via Unified Diffusion and Autoregression”。
DiVLA,是一个将自回归模型与扩散模型无缝结合用于学习视觉运动策略的框架。方法的核心是下一个token预测目标,使模型能够在当前观察的背景下有效地推理用户的查询。随后,附加扩散模型以生成强大的动作输出。为了通过自我推理增强策略学习,引入一个推理注入模块,将推理短语直接集成到策略学习过程中。整个框架简单灵活,易于部署和升级。
用多个真实机器人进行广泛的实验,验证 DiVLA 的有效性。测试包括一项具有挑战性的工厂分类任务,其中 DiVLA 成功地对目标进行了分类,包括训练期间未见过的目标。推理模块增强了可解释性,使观察者能够理解模型的思维过程并确定策略失败的潜在原因。此外,在零样本拾取任务上测试 DiVLA,在 102 个之前未见过的目标上实现了 63.7% 的准确率。该方法对视觉变化(例如干扰项和新背景)表现出了很强的鲁棒性,并且可以轻松适应新的实施例。此外,Di-VLA 可以遵循新指令并保留对话能力。而且,DiVLA 数据效率高且推理速度快。最后,将模型从 2B 扩展到 72B 参数,随模型大小的增加,改进泛化能力。
自回归模型在大语言模型中占主导地位,通过序贯预测离散token来操作,其中每个token的生成都依赖于前一个token。这种方法也影响了机器人技术,导致了视觉-语言-动作 (VLA) 模型的发展,该模型将动作预测作为下一个token预测(NTP)任务。虽然这些模型(即 RT-2 [9] 和 Open-VLA [26])取得了显著的成功,但它们面临着内在的局限性。首先,将连续动作数据离散化为固定大小的token会破坏动作的连贯性和精确性。其次,NTP 本质上对于动作生成效率低下,尤其是在性能至关重要的实时机器人应用中。
自回归模型。预测下一个token已被视为实现通用人工智能的关键方法,因为它在训练语言模型方面取得了成功 [1, 4, 47–49]。RT-2 [9] 率先将下一个token预测应用于机器人学习,它通过将连续动作转换为离散token来预测动作,以学习机器人运动。在此基础上,OpenVLA [26] 推出了一个开源的、改进的、更小的 RT-2 [9] 版本,采用类似的方法,而 ECoT [64] 开发了一种思维链方法。
同时,基于扩散模型在内容生成方面的成功 [15、16、36、38、43],用于学习视觉运动策略的基于扩散模型 [10] 在过去两年中获得了极大的欢迎。通过将动作序列生成建模为噪声去噪过程,许多方法在操作任务中表现出色。与基于 NTP 的 VLA 模型相比,这种方法更好地捕捉了机器人动作的多模态性质,并能够更快地生成序列。然而,尽管扩散模型在策略学习方面具有优势,但它们缺乏 VLA 模型有效解决复杂任务所必需的推理能力,而推理能力是 LLM 明显改进的组成部分。
扩散模型。扩散模型已成为视觉生成领域的主导。扩散策略 [10] 将扩散模型的应用扩展到机器人学习,证明了其在处理多模态动作分布方面的有效性。后续工作通过将扩散策略应用于 3D 设置 [24, 62, 66, 68]、扩大其规模 [74]、提高其效率 [21, 56] 并引入架构创新,推进了扩散策略 [5, 6, 11, 30, 39, 42, 50, 51, 55, 71]。例如,TinyVLA [57] 将扩散模型与轻量级视觉语言模型集成在一起,而 pi0 [7] 利用流匹配而不是扩散来生成动作。
机器人基础模型。现有研究 [3、8、9、12、14、20、22、75] 利用 RL [19、32、41、45、63、65、67] 和 LLM [2、18、23、29、40、58、73] 将多模态理解与具身控制分离。另一项研究利用预训练的视觉语言模型 (VLM),并直接在机器人数据上对其进行微调 [9、26、57、64]。
统一的自回归模型和图像生成。最近的工作重点是将多模态理解与图像生成统一起来。这些努力包括使用自回归方法生成图像 [28、33、46、52、54]、使用扩散模型生成文本,或将两种方法结合成统一模型 [13、31、59、70],例如 Show-O [61]、Transfusion [72] 和 Vila-U [60]。
这样就提出一个问题:能否结合双方的优势,特别是自回归模型的推理能力和扩散模型提供的高频动作生成的稳健性?
给定任何交错的图像、文本和视频序列,首先使用 SigLIP [69] 将图像编码为密集的视觉特征。然后通过 Transformer 将这些编码转换为固定数量的 N 个视觉嵌入。值得注意的是,机器人学习中的典型视觉输入通常包括多个摄像机视图。为了管理这一点,将共享的 SigLIP 视觉主干应用于每个视图,随后连接生成的视觉token。
对于视觉语言处理,用 Qwen2-VL [53] 视觉语言模型,有三种大小:2B、7B 和 72B 参数。用公开发布的检查点初始化 VLM 主干。也可以使用任何其他预训练的 VLM 作为主干,因为将视觉语言理解与动作生成分离,使整体架构灵活,以适应先进的新模型。
动作解码器
。用SD模型将视觉和指令嵌入解码为动作。具体来说,用 LLM 生成一组token,并将这些token作为动作解码的条件输入给扩散模型。架构遵循标准DP [10] 的设计,具有随机初始化的模型权重。该组件还结合了来自 LLM 的推理。MLP 层附加到动作解码器底部的最后一层,以预测机器人的关节空间。如果演化出多个具身,只需初始化一个新的 MLP 层进行训练和评估,而不是复制单独的动作解码器 [34]。此步骤可确保保留来自预训练数据的知识,从而可以快速适应新的具身。
推理注入模块
。方法的核心在于将显式推理引入视觉-语言-动作 (VLA) 模型。与大多数需要递归设置(将推理输出转换为后续模型运行的输入)的自回归 VLA 不同,该方法提出了一种更高效、更简化的推理集成。通过将推理直接嵌入策略模型中,避免迭代输入输出循环的计算和操作复杂性,从而实现了更快、更无缝的推理集成。推理注入模块通过从推理组件的token化输出中获取最终嵌入并通过特征线性调制 (FiLM) [37] 将其直接注入策略模型来运行。这种注入技术的灵感来自 RT-1 [8] 和 YAY [44] 中的方法,其能够根据推理信号调节策略网络的层。将此过程称为“注入”,因为在设计中,策略网络主要关注特定于动作的token,而推理模块则起到辅助增强的作用,提供上下文深度而不会主导主要决策流程。这种方法确保推理不仅存在,而且在策略模型训练期间得到积极利用。
用 OXE [35] 和 Droid [25] 数据集进行预训练。用 Droid 数据对 DiVLA-2B 和 DiVLA-7B 进行预训练。对于 DiVLA-72B,将 OXE 和 Droid 一起使用进行预训练。原始 Droid 数据仅包含机器人动作,部分与观察结果和语言指令配对。这些数据仅包含机器人动作,部分与观察结果和语言-指令配对。为了增强模型的语言泛化能力,利用 GPT-4o 自动将这些数据转换为包含推理的形式。因此,网络架构在预训练和微调阶段都保持一致。