作者 |
紫彤
编辑 | 具身智能之心
原文链接:
https://zhuanlan.zhihu.com/p/15071859831
本文只做学术分享,如有侵权,联系删文
>>
点击进入→
具身
智能之心
技术交流群
更多干货,欢迎加入国内首个具身智能全栈学习社区
:
具身智能之心知识星球
(戳我)
,
这里包含所有你想要的。
在人工智能领域,
扩散模型
(Diffusion Models,简称DMs)凭借其强大的生成能力,在图像、文本以及轨迹规划等任务中展现了巨大的潜力。然而,当扩散模型应用于决策规划领域时,其低效的迭代采样成为了一个主要瓶颈。许多现有方法,如
Diffuser
和
Decision Diffuser
(
DD
),在生成高质量轨迹的同时,由于复杂的建模过程,其决策频率往往低于 1Hz。这种性能远不能满足机器人控制、游戏 AI 等实际场景对实时响应的要求。
为解决上述问题,
DiffuserLite
应运而生。它通过引入一种创新性的
渐进式精细规划
(
Progressive Refinement Planning, PRP
) 方法,在减少冗余信息建模的同时,实现了更高效的轨迹生成。令人印象深刻的是,DiffuserLite 的决策频率达到了 122Hz,比主流框架快
112 倍以上
,并在多个基准任务中实现了
State-of-the-Art
(
SOTA
) 性能。本文将深入讲解 DiffuserLite 的核心原理与技术亮点,剖析其在实际应用中的潜力,并探讨这一框架可能带来的广泛影响。
问题
在决策规划领域,DiffuserLite 所面临的任务可以描述为一个基于离线强化学习(Offline Reinforcement Learning)的优化问题,其核心目标是生成一条满足目标属性的轨迹。
系统的状态由离散时间动力学方程控制,公式如下:
其中:
Diffusion Planning 的目标是找到一条最符合目标
的轨迹:
其中:
在离线强化学习的背景下,轨迹的属性通常被定义为其累积奖励:
核心在于从离线数据中生成符合目标属性的轨迹,并从中提取执行动作
扩散模型
扩散模型被引入来解决轨迹生成问题。其通过对轨迹分布的建模,能够生成满足目标条件的长时序轨迹。与传统的逐步生成方法不同,扩散规划直接生成完整轨迹,避免了步进式方法中常见的累积误差。现有扩散规划方法的一个主要瓶颈在于高复杂度的采样过程,这需要多次前向传播和复杂的去噪处理,导致决策频率极低。
DiffuserLite
DiffuserLite 是一种高效轻量级的扩散规划框架,旨在解决现有扩散规划方法中因冗余信息建模而导致的低效率问题。它通过引入 渐进式精细规划(Progressive Refinement Planning, PRP) 方法,减少了不必要的计算。此外,DiffuserLite 使用 DiT(Transformer 变体) 替代传统的 UNet 模型。DiffuserLite 的规划过程分为以下几个阶段:
-
初始粗略规划
:在较大的时间间隔内多次生成关键状态点,忽略中间冗余细节。
-
-
逐步精细化
:在每一层细化关键状态点之间的轨迹(执行多次),利用评价器选择最有轨迹。
-
快速执行
:通过简化的模型架构和条件采样技术,快速生成动作决策。
渐进式精细规划
渐进式精细规划
(
PRP
) 是 DiffuserLite 的核心创新之一,用于在生成轨迹时逐步减少冗余建模,提升效率和准确性。PRP 的核心理念是将轨迹生成过程分解为多个逐层优化的阶段,从最初的粗略规划逐步细化,直到生成精确的完整轨迹。在扩散规划中,完整轨迹的生成通常涉及大量冗余信息,尤其是远端状态的细节对于当前决策的影响微乎其微。例如,在长时间跨度的轨迹规划中,远端的状态可能由于环境噪声或动态变化而无法准确到达,因此建模这些细节不仅无益,反而增加了计算负担。冗余信息导致模型需要处理更高维度、更复杂的概率分布,这显著降低了推理速度。PRP
-
粗略规划:
初始阶段仅生成关键点(Key Points),间隔较大的状态点被视为轨迹的主要参考,而中间状态被忽略。
-
逐层精细化:
从关键点轨迹出发,逐层填补两点之间的细节,逐步将轨迹分辨率提高到所需的精度。
示例:
-
优化终结:
最后一层完成全轨迹的生成,生成的轨迹既包括整体的长远性,又有足够的局部细节。
例如:对于规划范围为 128 的轨迹,第一层只生成 [0,32,64,96,128] 这几个点。第二层生成[0, 8, 16, 24, 32],第三层生成[0,1,2,3,4,5,6,7,8]。相比于传统的one-shot方法,能够快速生成出理想的轨迹。
训练
将完整轨迹按层次划分为子轨迹,每层生成的轨迹采用扩散模型拟合其概率分布,优化目标为最小化噪声预测误差。为指导模型生成目标轨迹,DiffuserLite 使用了无分类器指导(CFG)。
Critic设计
Critic
是 DiffuserLite 中的关键部分。Critic的两个核心作用:
-