专栏名称: 智能车情报局
聚焦智能汽车关键技术与创新产品
目录
相关文章推荐
跨境电商鹰熊汇  ·  人祸!4.2万商标被美国撤销!大部分为中国商 ... ·  2 天前  
上下五千年故事  ·  黑豆用醋泡一泡,没想到作用这么大,老祖宗的中 ... ·  3 天前  
51好读  ›  专栏  ›  智能车情报局

自动驾驶的未来:轨迹大模型的扩展预测与规划革命

智能车情报局  · 公众号  ·  · 2024-03-25 16:59

正文


智猩猩与智东西将于 4月18-19日 在北京共同举办 2024中国生成式AI大会 ,阿里巴巴通义千问大模型技术负责人周畅,「清华系Sora」生数科技CEO唐家渝,云天励飞“云天天书”大模型技术负责人余晓填,Open-Sora开发团队潞晨科技创始人尤洋,鸿博股份副总裁、英博数科CEO周韡韡,优必选研究院执行院长焦继超,科大讯飞人形机器人首席科学家季超,腾讯研究科学家张驰等20+位嘉宾已确认带来演讲和报告,欢迎报名。


👀


导读

本文来自公众号【深蓝AI】, 编译 匡吉。本文 提出一个新的概念----轨迹大模型,一个运动预测器和规划器,通过将观测、状态和行动整合为一个统一的序列建模任务,重新定义了运动预测和运动规划问题。


原文链接:https://mp.weixin.qq.com/s/ZlSgru6tIPPREhNRXmqUyQ


本文只做学术/技术分享,如有侵权,联系删文。


01

摘要


运动预测和规划是自动驾驶中的关键任务,近期该领域的工作已经转为基于机器学习的方法。主要的挑战包括:各种道路拓扑结构的理解,在较长时间范围内推理交通动态变化,解释场景下异构行为和在一个大型持续的状态空间中生成策略。受到大模型成功案例的启发,它通过模型扩展解决相似复杂的任务,本文因此也引入一个可扩展的轨迹模型,叫做状态Transformer(STR)。STR 通过将观测、状态和行动整合为一个统一的序列建模任务,重新定义了运动预测和运动规划问题。本文方法将轨迹生成问题归类为其他序列建模问题,在语言建模等相似领域取得突破,为快速迭代提供动力。实验结果揭示大型轨迹模型(LTMs),例如:STR,表现出突出的适应性和学习效率,遵从扩展原则。定性结果进一步证明,LTMs 能够在与训练数据分布有很大差异的场景下做出可信的预测。LTM 还能在没有明确的损失函数设计或昂贵的注释的情况下,学会为长期规划进行复杂的推理。

02

引言


自动驾驶中运动规划和预测,依赖于具备语义上理解复杂驾驶环境以及与各种道路车辆行人交互的能力。基于学习的方法对于克服这种复杂任务是至关重要的,因为基于规则的特点场景的策略常常无法充分涵盖所有可能场景,并且在操作过程中可能会发生异常事件。这样的学习问题可以被看做条件下的序列到序列任务,其中网络模型使用过去的轨迹来预测未来轨迹,这样的预测过程主要依赖于观测数据。值得注意的是,这类问题和其他的序列建模问题具有结构相似性,比如语言生成问题。这种在问题设定(即预测序列中的下一个状态与预测序列中的下一个语言标识)和挑战(即根据观察结果学习不同的驾驶行为与根据提示进行回答)方面的并行性引发了一个引人注目的问题:
能否通过轨迹大模型,来破解自动驾驶中运动预测和运动规划的复杂性?
近期已有研究证明LLMs不仅是适用于自然语言生成任务,同样可以被用来解决一系列的序列建模问题和时间序列预测挑战。基于这些见解,之前的许多研究已经将运动规划看作一个大型序列建模问题,高效利用条件因果transformer来解决它,同时具有行为克隆和强化学习功能。此外,还有研究用语言模型替换transformer基干,展示了在一个大型序列中将运动规划和其他模式合并为LLM的潜力。
但是,自动驾驶要想从大规模真实世界数据集中学习,仍存在其他一些复杂问题:
●极为复杂且多变的地图拓扑结构;

●在一个大幅度连续空间中预测;

●来自于人类驾驶者嘈杂且模糊的驾驶操作。
此外,与之相关的评估指标可测量长达8秒的准确性,这对不同方法的长期推理能力提出了更多挑战。
本文中,作者提出一个新颖可扩展的条件因果transformer,叫做状态Transformer(STR)。文中实验结果揭示,扩展GPT-2模型基干显著提高了学习效率,并且当把所有组件组成一个序列进行学习缓解了复杂地图拓扑结构中的泛化问题。在此序列中,作者重组了编码地图、过去道路轨迹和交通灯状态的嵌入,作为未来状态序列生成的预测条件。STR的设计不仅准确,而且可通过插入额外的嵌入向量进行扩展,例如:给语言生成模型添加提示,STR可以和其他监督相匹配。特别的,本文在序列中的关键点之后引入推荐分类,有助于缓解庞大输出空间的问题。推荐分类已被证明是一项有用的技术,可以指导模型在单个物体的多模态混合分布上学习信息。而使用关键点主要有两个目标:
●在训练阶段提高模型长期推理的能力;

●类似锚点框的功能,助力模型生成高级指令和规则。
最后,作者实现一个基于扩散模型的关键点解码器,用来训练由多个道路用户交互导致的多模态未来分布信息。
作者在两个扩展真实世界数据集上,通过严格的实验评估STR:在NuPlan上实施运动规划任务;在Waymo开放运动数据集上实施运动预测任务。NuPlan数据集覆盖两个国家,4个独立城市,超过900小时的驾驶经历视频。特别的,NuPlan数据集的训练子集,包含超过10亿个规划车辆的人类驾驶道路点。为了全面评估本文方法的扩展性,作者在训练集基础上实施横跨3个数量级的实验,并且横跨4个数量级的模型大小。在GPT-2 基干中,模型大小通过可训练参数数量来衡量。实证结果表明,在训练 LLMs 和 LTMs 时,两者的缩放行为有着惊人的相似之处。进一步作者观察到,LTMs 在没有见过的地图场景上测试时,展现了优异的性能。未来状态预测挑战与快速发展的语言建模任务领域之间的相似之处,为利用新兴语言模型架构提高未来运动预测和运动规划的学习效率提供了机会。

03

相关工作


运动规划是自动驾驶的一个基础研究领域。本文中,作者主要聚焦于基于学习的那部分运动规划,认识到基于学习的方法只是运动规划问题的一部分。更准确的,作者将运动规划问题,定义为一个未来状态预测问题。在本文后续部分,作者将用“轨迹生成”,“轨迹预测”,“状态预测”和“位姿预测”描述相同含义。上述所有描述都是指向相同目标,也就是预测未来状态,包含本体车辆的位置和偏航角。
■3.1 运动预测
近年来,针对多种复杂类型的交通道路情况,基于学习的轨迹预测已经取得重大发展。图神经网络被引入作为一种有效方式,对地图向量化的几何和拓扑信息进行编码。给定未来运动的多模态特性,相应提出了各种解码器头,包括:基于锚点的模型、基于目标的模型、基于热图的模型。为了用简单且通用的架构实现早期融合,Transformer架构也被应用在运动预测任务,以及联合预测和规划。为了提供关于多物体交互之间的全面理解,未来预测模型也取得了发展,包括因子预测模型和联合预测模型。
■3.2 运动规划
模仿学习(IL)和强化学习(RL)是机器人运动规划中的两个主要学习范式。IL早已被应用在自动驾驶,但是,IL受限于协变量转移问题,也就是累积误差导致超出分布的场景,带来了严重的安全问题。强化学习规避了协变量转移问题,通过在一个闭环模拟器中学习。尽管如此,强化学习引入几个挑战:奖励设计,高质量交通模拟以及模拟--真实转换。尤其是奖励设计方面,要反映人类复杂的驾驶礼仪,是非常有挑战性的。
■3.3 扩散模型用于预测和规划
扩散模型作为一个新的范式被提出,主要用于生成任务。近来,扩散模型已经被用于规划任务,并且在训练不确定多模态分布方面展现强大性能。在机器人领域,通过迭代轨迹去噪将扩散模型应用在运动规划领域,并且额外提出一个方法,学习条件去噪扩散过程中的策略。对于轨迹预测扩散模型主要用来捕获,自动驾驶中多物体运动预测的多模态分布。
■3.4 大语言模型中的缩放规则
有学者通过经验证明,基于Transformer的模型在一系列自然语言处理任务中的性能与模型参数数量、训练数据量和用于训练的计算资源成幂律函数关系。这项研究为了解扩展如何影响语言模型的功效奠定了基础。其他人进一步研究了图像、视频、视觉语言和数学问题的自回归生成模型中的缩放规律。这些研究表明,缩放规律对神经网络的性能有重要影响。

04

前言和问题设定


■4.1 轨迹生成
运动预测和规划是自动驾驶中两类经典问题。运动预测的目标是估计其他道路车辆的可能未来轨迹。更准确地说,给定一个静态场景上下文 ,可能是一个高精地图,本体车辆状态 ,对于其他道路车辆的观测状态 ,我们的目标是在固定时间 下预测其他车辆的未来状态。整体的概率分布为
另一方面,运动规划的定义如下:给定场景上下文 ,本体车辆状态 ,道路其他车辆的观测状态 ,一个来自于导航系统的路径 ,虚招针对本体车辆的策略 ,用来最大化期望结果 ,定义为:。如果给定运动规划中专家证明 ,那么公式就变成估计专家策略的概率分布 。这一目标非常相似于运动预测,因此,使用一个通用框架,将不同任务建模为轨迹生成任务是可行的。
■4.2 条件扩散模型
关于轨迹生成任务的条件扩散模型,主要任务是生成给定上下文的未来状态。特别的,给定一个条件向量 和一个输出向量 ,那么捕获这种关系的概率框架可以定义为: ,这是扩散模型所估计的概率分布。本文中,作者用 标识潜在特征, 则是通过一个基干网络经过前向传播 之后,获得的特征。
▲图1|STR模型的架构©️【深蓝AI】编译
特定条件的去噪扩散概率模型,主要基于两个过程:前向过程和反向过程(去噪)。在前向过程, 通过 的扩散步骤,转变为噪声张量 。在每一个diffusion步骤 ,数据点都是通过高斯噪声 加扰:

其中, ,并且 是一个噪声调度参数。可以表示为:

在去噪阶段,主要目标是从 中采用获得生成 。这里的关键问题是估计噪声 ,相对于 而言。给定估计项 可以通过公式计算得到。通过迭代实施逆向过程,可以在 条件下生成 。注意的是,通过学习 来估计






请到「今天看啥」查看全文