专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
目录
相关文章推荐
吃什么情报局  ·  原来不是智商税!日本 30+ ... ·  昨天  
企鹅吃喝指南  ·  无痛可持续减脂餐网购指南!(较好吃版) ·  3 天前  
润农畜牧报价  ·  2025年3月11日 ... ·  2 天前  
格上财富  ·  巴菲特:不及时纠正错误是最大的错误 ·  2 天前  
51好读  ›  专栏  ›  自动驾驶之心

基于扩散模型的实时规划框架DiffuserLite

自动驾驶之心  · 公众号  ·  · 2025-03-04 07:45

正文

作者 | 紫彤 编辑 | 具身智能之心

原文链接: https://zhuanlan.zhihu.com/p/15071859831

点击下方 卡片 ,关注“ 具身智能之心 ”公众号

本文只做学术分享,如有侵权,联系删文

>> 点击进入→ 具身 智能之心 技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区 具身智能之心知识星球 (戳我) 这里包含所有你想要的。

在人工智能领域, 扩散模型 (Diffusion Models,简称DMs)凭借其强大的生成能力,在图像、文本以及轨迹规划等任务中展现了巨大的潜力。然而,当扩散模型应用于决策规划领域时,其低效的迭代采样成为了一个主要瓶颈。许多现有方法,如 Diffuser Decision Diffuser ( DD ),在生成高质量轨迹的同时,由于复杂的建模过程,其决策频率往往低于 1Hz。这种性能远不能满足机器人控制、游戏 AI 等实际场景对实时响应的要求。

为解决上述问题, DiffuserLite 应运而生。它通过引入一种创新性的 渐进式精细规划 Progressive Refinement Planning, PRP ) 方法,在减少冗余信息建模的同时,实现了更高效的轨迹生成。令人印象深刻的是,DiffuserLite 的决策频率达到了 122Hz,比主流框架快 112 倍以上 ,并在多个基准任务中实现了 State-of-the-Art SOTA ) 性能。本文将深入讲解 DiffuserLite 的核心原理与技术亮点,剖析其在实际应用中的潜力,并探讨这一框架可能带来的广泛影响。

问题

在决策规划领域,DiffuserLite 所面临的任务可以描述为一个基于离线强化学习(Offline Reinforcement Learning)的优化问题,其核心目标是生成一条满足目标属性的轨迹。

系统的状态由离散时间动力学方程控制,公式如下:

其中:

  • 表示系统在时间 t 的状态。
  • 为在时间 t 的动作。
  • f(.)表示系统的动态模型。

Diffusion Planning 的目标是找到一条最符合目标 的轨迹:

其中:

  • d 是一个度量轨迹属性与目标属性之间距离的函数。
  • C是一个评价器(Critic)。

在离线强化学习的背景下,轨迹的属性通常被定义为其累积奖励:

核心在于从离线数据中生成符合目标属性的轨迹,并从中提取执行动作

扩散模型

扩散模型被引入来解决轨迹生成问题。其通过对轨迹分布的建模,能够生成满足目标条件的长时序轨迹。与传统的逐步生成方法不同,扩散规划直接生成完整轨迹,避免了步进式方法中常见的累积误差。现有扩散规划方法的一个主要瓶颈在于高复杂度的采样过程,这需要多次前向传播和复杂的去噪处理,导致决策频率极低。

DiffuserLite

DiffuserLite 是一种高效轻量级的扩散规划框架,旨在解决现有扩散规划方法中因冗余信息建模而导致的低效率问题。它通过引入 渐进式精细规划(Progressive Refinement Planning, PRP) 方法,减少了不必要的计算。此外,DiffuserLite 使用 DiT(Transformer 变体) 替代传统的 UNet 模型。DiffuserLite 的规划过程分为以下几个阶段:

  • 初始粗略规划 :在较大的时间间隔内多次生成关键状态点,忽略中间冗余细节。
  • 评价 :使用评价器(Critic)选择最优轨迹。
  • 逐步精细化 :在每一层细化关键状态点之间的轨迹(执行多次),利用评价器选择最有轨迹。
  • 快速执行 :通过简化的模型架构和条件采样技术,快速生成动作决策。

渐进式精细规划

渐进式精细规划 PRP ) 是 DiffuserLite 的核心创新之一,用于在生成轨迹时逐步减少冗余建模,提升效率和准确性。PRP 的核心理念是将轨迹生成过程分解为多个逐层优化的阶段,从最初的粗略规划逐步细化,直到生成精确的完整轨迹。在扩散规划中,完整轨迹的生成通常涉及大量冗余信息,尤其是远端状态的细节对于当前决策的影响微乎其微。例如,在长时间跨度的轨迹规划中,远端的状态可能由于环境噪声或动态变化而无法准确到达,因此建模这些细节不仅无益,反而增加了计算负担。冗余信息导致模型需要处理更高维度、更复杂的概率分布,这显著降低了推理速度。PRP

  • 粗略规划:
    初始阶段仅生成关键点(Key Points),间隔较大的状态点被视为轨迹的主要参考,而中间状态被忽略。

  • 逐层精细化:
    从关键点轨迹出发,逐层填补两点之间的细节,逐步将轨迹分辨率提高到所需的精度。
    示例:

  • 优化终结: 最后一层完成全轨迹的生成,生成的轨迹既包括整体的长远性,又有足够的局部细节。

例如:对于规划范围为 128 的轨迹,第一层只生成 [0,32,64,96,128] 这几个点。第二层生成[0, 8, 16, 24, 32],第三层生成[0,1,2,3,4,5,6,7,8]。相比于传统的one-shot方法,能够快速生成出理想的轨迹。

训练

将完整轨迹按层次划分为子轨迹,每层生成的轨迹采用扩散模型拟合其概率分布,优化目标为最小化噪声预测误差。为指导模型生成目标轨迹,DiffuserLite 使用了无分类器指导(CFG)。

Critic设计

Critic 是 DiffuserLite 中的关键部分。Critic的两个核心作用:

  1. 提供生成条件






请到「今天看啥」查看全文