专栏名称: 深蓝AI
专注于人工智能在线教育
目录
相关文章推荐
苏州新闻  ·  刚刚,破30亿!前三名已开分! ·  9 小时前  
银幕穿越者  ·  春节档首日票房创纪录 6部影片狂揽17亿 ·  昨天  
中央戏剧学院就业创业指导中心  ·  星海音乐学院和星海音乐学院附属中等音乐学校2 ... ·  3 天前  
中央戏剧学院就业创业指导中心  ·  中国东方演艺集团有限公司2025年度舞蹈演员 ... ·  3 天前  
51好读  ›  专栏  ›  深蓝AI

DiLU:首个利用GPT4.0大模型进行知识驱动的自动驾驶框架

深蓝AI  · 公众号  ·  · 2024-03-06 11:38

正文

论文题目:

DiLu: A Knowledge-Driven Approach to Autonomous Driving with Large Language Models

论文作者:

Licheng WenDaocheng FuXin LiXinyu CaiTao MaPinlong CaiMin DouBotian ShiLiang HeYu Qiao

编译:巴巴塔

审核:Los


导读:DiLU是首个利用GPT3.5和GPT4.0大模型进行自动驾驶决策的框架,它基于知识驱动(Knowledge-Driven)的范式,不仅性能超过基于强化学习的SOTA算法能力,且体现出良好的泛化能力和环境迁移能力。©️【深蓝AI】编译



最近几年自动驾驶技术的进展多是依赖于数据驱动(Data-Driven)的方法(如深度学习,模仿学习,强化学习),在标准和简单的驾驶场景下表现良好,但其面临的诸多挑战,如数据集偏差,过拟合,不可解释性等,使得其在复杂多变的真实世界环境中经常遇到问题。


以数据驱动方法依赖大量相似数据来适应各种场景,缺乏对环境理解并限制了其泛化能力;其根源在于现有系统缺乏对环境深层次理解和适应性,在面对未知或复杂场景时的表现远远不及人类驾驶员。相反,人类驾驶员从根本上是由知识驱动
(Knowledge-Driven)的, 可以利用丰富的驾驶经验和常识性知识,通过可解释的逻辑推理做出合理的驾驶决策。
 
1.1 知识驱动

如何将人类的这种知识驱动方式应用于自动驾驶系统,以使其能够不断积累经验,提升其在面对复杂环境时的表现?基于此,本文提出了知识驱动(Knownledge-Driven)的自动驾驶新范式。它正是利用了当前大火的大语言模型(LLM)所表现出的对多模态理解,学习的能力。


▲图1 | 知识驱动(Knownledge-Driven)范式©️【深蓝AI】编译

如图1所示,知识驱动(Knownledge-Driven)范式主要包含三个部分:

智能体可以交互的环境(Environment);

具有回忆、推理、反思能力的驾驶员代理人(Driver Agent);

持续经历的记忆成分(Memory)。

在不断的演变中,驾驶员代理观察环境,从记忆组件中查询和更新经验并执行决策。


■1.2 DiLU框架


基于Knownledge-Driven范式设计的名为DiLU框架(如图2所示),具体来说,驾驶员代理利用推理模块从记忆模块中查询经验,并利用 LLM 生成基于当前场景的决策结果。 该框架使用反思模块来识别推理模块产生的安全和不安全决策,随后使用LLM将决策结果细化为正确的决策。 然后,这些安全或修订的决策将被更新到记忆模块中。


▲图2 | DiLU框架©️【深蓝AI】编译



基于Transformer注意力机制的LLM模型,例如, GPT3、 LLaMA、 GPT4等,由于其具有巨大的参数量并在大量的文本数据集上进行训练,使得它能理解自然语言并且能通过文本生成和理解来执行各种复杂的任务,如in-context learning (ICL)、instruction following、reasoning with chainof-thought (CoT)。OpenAI 发布的ChatGPT和GPT4 大语言模型,显示了模型在自然能语言处理和生成方面的强大能力,推动了Artificial General Intelligence(AGI)领域发展。LLM对常识知识表现出的强大理解能力,使得其通过融入人类驾驶知识,并应用到理解驾驶环境和自动驾驶系统中来。



DiLU框架通过整合利用大语言模型(LLM),实现基于常识的决策和持续的驾驶经验累积。该框架由四个核心模块(如图2所示)组成:环境(Environment)、推理(Reasoning)、反思(Reflection)和记忆(Memory)。具体来说,利用推理模块观察环境并获取当前场景的描述。 同时,它使用提示生成器将该场景描述与从记忆模块检索的类似情况的少数经历相结合。 最后,将这些提示输入LLM,决策解码器通过解码 LLM 的响应来采取行动。


■3.1 记忆模块(Memory module)


记忆模块通过利用向量化的数据库将过去的驾驶场景经验(包含决策提示, 推理过程,和其他信息),以向量形式存入数据库,并用作未来检索使用。除此之外,矫正后的驾驶决策信息也会被存储在记忆模块中。


■3.2 推理模型(Reasoning Module)


作为框架中关键组成部分,推理模块利用LLM的常识知识和存储在记忆模块中的驾驶场景经验进行Few-shot决策。如图3所示,该推理过程首先通过从环境中获得场景描述并编码,然后结合记忆模块中相似的驾驶场景生成LLM所需的Prompt(提示词),并将提示输入LLM中,然后从LLM的解码器获得当前帧的驾驶决策信息。


▲图3 | DiLU 推理模块©️【深蓝AI】编译


图4(a)中所示,驾驶场景被组织成一种统一的文本描述语言,该场景描述遵循标准句子结构,并利用自然语言来全面描述正在进行的驾驶场景,且包含静态道路详细信息以及有关场景内自我车辆和周围车辆的动态信息。这些编码后的场景描述不仅用来提示器的输入还作为经验检索的key。


▲图4 | DiLU 推理模块©️【深蓝AI】编译


将提示词输入LLM中,然后生成出一系列的推理结果,最后通过解码器输出最终决策结果(如图4(b)所示)。其中动作解码器是将 LLM 的决策结果转换为自我车辆的动作,并向环境提供反馈。 通过重复上述过程,就建立了一个由LLM驱动的闭环决策系统。

■3.3 反思模块(Reflection module)


反思模块主要负责矫正推理模块产生的决策,不断从过去的驾驶经验中学习迭代。具体来说,它通过分析记录决策序列,并对几个关键决策帧中采样序列,来识别不安全或是不准确的决策,并利用LLM对这些错误的决策结果进行修正,并将正确的推理过程和从错误中学习修正后的决策结果保留到记忆模块中,从而实现系统的持续学习和进化。


▲图5 | DiLU 反思模块©️【深蓝AI】编译


图5展示了反思模块的工作流程,包括决策序列的评估、关键决策帧的采样和更新、错误帧的修正和经验的更新过程。



实验利用Highway-env作为模拟环境,它能够提供真实的多交通对象交互环境以及灵活改变车辆密度和车道数量。另一边,Dilu框架中利用OpenAI开发的GPT-3.5用于框架的推理模块,负责为自我车辆做出合理的决策,GPT-4 被更好地用于 Reflection 模块。Memory模块中采用开源嵌入向量数据库 Chroma1。


■4.1 有效性验证


结果如图6所示,DiLU框架的有效性跟有或没有 Memory 模块的推理和反射过程有强烈关联。实验结果表明随着 Memory 模块中经验数量的增加,DiLu 框架的性能在所有的少样本设置中都得到了提高。这也表明LLM不做任何适配就无法直接执行闭环驱动任务。此外,在固定数量的memory项时,框架的性能随着小样本经验数量的增加而提高(图6.(b)所示)。


▲图6 | DILu框架有效性验证结果©️【深蓝AI】编译


4.2 与GARD对比

在 DiLu 和最新最先进的强化学习 (RL) 方法 GRAD 之间进行了比较实验,结果如图 7 (a) 所示。 首先,在lane-4-密度-2设置中,DiLu仅使用Memory模块中的40个经验就实现了70% SR,而GRAD在600,000个训练集后收敛到69% SR。我们发现GRAD的很多故障都是因为刹车不及时,导致与前车相撞。 这是因为强化学习方法倾向于适应环境,而未能考虑到类人的驾驶知识。另外实验也表明(如图7(b)所示),DiLu在一种环境中积累的经验可以推广到另一种环境中,但基于强化学习的方法往往会过度拟合训练环境。

▲图7 |  与GARD对比实验结果©️【深蓝AI】编译


■4.3 泛化和迁移能力实验

如图6(b)所示,将更多的少量经验输入到LLM,DiLu的Memory模块能获得的经验具有泛化能力且更好。另外,由于 DiLu 的memory模块以自然语言文本的形式存储经验,因此它包含与环境无关的知识,可以轻松转移到不同的环境, 具有很强的鲁棒性。


■4.4 消融实验


通过消融研究探讨将成功经验和修订的不安全经验纳入反思模块的实验,实验结果表明(如表1所示),在Reflection过程中加入两种不同类型的体验是合理且有效的, 都提高了最小,中位数等数值。


▲表1 | 消融实验结果©️【深蓝AI】编译


最后说明,所提出的框架 DiLu 可以利用 LLM 为自动驾驶系统做出正确的决策。 在一个闭环驾驶环境,并证明DiLu凭借Memory模块中积累的经验可以表现得越来越好。 值得注意的是,DiLu 仅使用 40 个记忆项,就实现了与SOTA  强化学习 (RL) 的方法相当的性能,后者已广泛训练了超过 600,000 集,但具有有效泛化到不同场景的能力。 此外,DiLu 直接从现实数据集中获取经验的能力凸显了其部署在实际自动驾驶系统上的潜力。


本文提出的DiLu框架,是首个基于AI Agent范式的自动驾驶框架。简单来说,它利用了常识知识和LLM技术,通过记忆模块、推理模块、反思模块来模仿人类经验知识的积累过程,通过不断在与环境的交互中积累经验,并将经验用于未来的驾驶决策中。大量实验证明,DiLu框架跟基于强化学习(Reinforcement Learning)的方法对比后,Dilu表现出了强大的泛化和鲁棒能力。此外,DiLu还能够直接从真实世界数据集中获取经验,这将为其在实际自动驾驶系统中被采用提供了可能性。

Talk2BEV:大模型+自动驾驶,最热门的两方向会碰撞出什么火花?

2023-12-08

3D-GPT:大模型一句话就生成3D场景

2023-11-24

【深蓝AI】长期招募作者,欢迎各位想要把自己的科研技术经历及体会转化成文字,分享给更多人阅读交流~如想加入,请点击下方推文了解详情👇


深蓝学院作者团队强势招募中!期待你的加入

【深蓝AI】原创内容均由作者团队倾注个人心血制作而成,希望各位遵守原创规则珍惜作者们的劳动成果,转载请私信后台进行授权,发文时务必注明出自【深蓝AI】微信公众号,否则侵权必究。

*点击在看收藏并推荐本文*

点击阅读原文直通论文