基于扩散模型的实时规划框架DiffuserLite

自动驾驶之心 · 公众号 · · 2025-03-04 07:45

正文

作者 | 紫彤编辑 | 具身智能之心

原文链接： https://zhuanlan.zhihu.com/p/15071859831

点击下方卡片，关注“ 具身智能之心 ”公众号

本文只做学术分享，如有侵权，联系删文

>> 点击进入→ 具身智能之心 技术交流群

更多干货，欢迎加入国内首个具身智能全栈学习社区 ： 具身智能之心知识星球 (戳我) ，这里包含所有你想要的。

在人工智能领域， 扩散模型 （Diffusion Models，简称DMs）凭借其强大的生成能力，在图像、文本以及轨迹规划等任务中展现了巨大的潜力。然而，当扩散模型应用于决策规划领域时，其低效的迭代采样成为了一个主要瓶颈。许多现有方法，如 Diffuser 和 Decision Diffuser ( DD )，在生成高质量轨迹的同时，由于复杂的建模过程，其决策频率往往低于 1Hz。这种性能远不能满足机器人控制、游戏 AI 等实际场景对实时响应的要求。

为解决上述问题， DiffuserLite 应运而生。它通过引入一种创新性的 渐进式精细规划 （ Progressive Refinement Planning, PRP ）方法，在减少冗余信息建模的同时，实现了更高效的轨迹生成。令人印象深刻的是，DiffuserLite 的决策频率达到了 122Hz，比主流框架快 112 倍以上 ，并在多个基准任务中实现了 State-of-the-Art （ SOTA ）性能。本文将深入讲解 DiffuserLite 的核心原理与技术亮点，剖析其在实际应用中的潜力，并探讨这一框架可能带来的广泛影响。

问题

在决策规划领域，DiffuserLite 所面临的任务可以描述为一个基于离线强化学习（Offline Reinforcement Learning）的优化问题，其核心目标是生成一条满足目标属性的轨迹。

系统的状态由离散时间动力学方程控制，公式如下：

其中：

表示系统在时间 t 的状态。
为在时间 t 的动作。
f(.)表示系统的动态模型。

Diffusion Planning 的目标是找到一条最符合目标的轨迹：

其中：

d 是一个度量轨迹属性与目标属性之间距离的函数。
C是一个评价器（Critic）。

在离线强化学习的背景下，轨迹的属性通常被定义为其累积奖励：

核心在于从离线数据中生成符合目标属性的轨迹，并从中提取执行动作

扩散模型

扩散模型被引入来解决轨迹生成问题。其通过对轨迹分布的建模，能够生成满足目标条件的长时序轨迹。与传统的逐步生成方法不同，扩散规划直接生成完整轨迹，避免了步进式方法中常见的累积误差。现有扩散规划方法的一个主要瓶颈在于高复杂度的采样过程，这需要多次前向传播和复杂的去噪处理，导致决策频率极低。

DiffuserLite

DiffuserLite 是一种高效轻量级的扩散规划框架，旨在解决现有扩散规划方法中因冗余信息建模而导致的低效率问题。它通过引入渐进式精细规划（Progressive Refinement Planning, PRP）方法，减少了不必要的计算。此外，DiffuserLite 使用 DiT（Transformer 变体）替代传统的 UNet 模型。DiffuserLite 的规划过程分为以下几个阶段：

初始粗略规划 ：在较大的时间间隔内多次生成关键状态点，忽略中间冗余细节。
评价：使用评价器（Critic）选择最优轨迹。
逐步精细化 ：在每一层细化关键状态点之间的轨迹（执行多次），利用评价器选择最有轨迹。
快速执行 ：通过简化的模型架构和条件采样技术，快速生成动作决策。

渐进式精细规划

渐进式精细规划 （ PRP ）是 DiffuserLite 的核心创新之一，用于在生成轨迹时逐步减少冗余建模，提升效率和准确性。PRP 的核心理念是将轨迹生成过程分解为多个逐层优化的阶段，从最初的粗略规划逐步细化，直到生成精确的完整轨迹。在扩散规划中，完整轨迹的生成通常涉及大量冗余信息，尤其是远端状态的细节对于当前决策的影响微乎其微。例如，在长时间跨度的轨迹规划中，远端的状态可能由于环境噪声或动态变化而无法准确到达，因此建模这些细节不仅无益，反而增加了计算负担。冗余信息导致模型需要处理更高维度、更复杂的概率分布，这显著降低了推理速度。PRP

粗略规划：
初始阶段仅生成关键点（Key Points），间隔较大的状态点被视为轨迹的主要参考，而中间状态被忽略。
逐层精细化：
从关键点轨迹出发，逐层填补两点之间的细节，逐步将轨迹分辨率提高到所需的精度。
示例：
优化终结： 最后一层完成全轨迹的生成，生成的轨迹既包括整体的长远性，又有足够的局部细节。

例如：对于规划范围为 128 的轨迹，第一层只生成 [0,32,64,96,128] 这几个点。第二层生成[0, 8, 16, 24, 32]，第三层生成[0,1,2,3,4,5,6,7,8]。相比于传统的one-shot方法，能够快速生成出理想的轨迹。

训练

将完整轨迹按层次划分为子轨迹，每层生成的轨迹采用扩散模型拟合其概率分布，优化目标为最小化噪声预测误差。为指导模型生成目标轨迹，DiffuserLite 使用了无分类器指导（CFG）。

Critic设计

Critic 是 DiffuserLite 中的关键部分。Critic的两个核心作用：

提供生成条件

基于扩散模型的实时规划框架DiffuserLite

正文

问题

扩散模型

DiffuserLite

渐进式精细规划

训练

Critic设计

请到「今天看啥」查看全文