本文是关于智猩猩举办的「智猩猩自动驾驶新青年讲座」的详细介绍,重点介绍了BEVGPT模型在自动驾驶中的应用。文章涵盖了开发背景、整体框架、模型训练、实验结果、总结与未来展望等内容。
讲座由智猩猩主办,主题为「智猩猩自动驾驶新青年讲座」,主讲人为上海交通大学ReThinkLab的博士李奇峰,介绍内容为《首解CARLA V2:基于隐世界模型的自驾强化模型Think2Drive》。直播时间为7月31日晚7点第37讲正式开讲,并欢迎大家扫码报名。
文章由深蓝AI的Penqin Wang(王鹏钦)全权翻译分享。文章详细介绍了自动驾驶中预测、决策和运动规划的重要性及其在传统算法架构中的处理方式。
文章介绍了BEVGPT模型,这是一种新的集成驾驶场景预测、决策和运动规划的生成式预训练模型。该模型以鸟瞰图像(BEV)作为唯一输入源,并根据周围的交通场景做出驾驶决策。
文章阐述了从人类驾驶员的角度重新评估自动驾驶系统框架的必要性,并介绍了BEVGPT的整体框架设计、轨迹表示以及运动规划的具体细节。
文章介绍了BEVGPT模型的训练过程,包括数据集的选择和处理、模型架构、预训练阶段和在线微调阶段的具体实施方式。
文章最后对BEVGPT的未来应用进行了展望,包括在极端情况下的鲁棒性测试、框架的进一步改进以及提高模型的实时性能等。
直播预告 |
「智猩猩自动驾驶新青年讲座」来啦~7月31日晚7点第37讲正式开讲,上海交通大学 ReThinkLab严骏驰组在读博士李奇峰将直播讲解
《首解CARLA V2:基于隐世界模型的自驾强化模型Think2Drive》
,欢迎扫码报名~
本文转载自深蓝AI,由原paper一作Pengqin Wang(王鹏钦)全权翻译分享。王鹏钦为香港科技大学博士生,师从沈劭劼教授、朱美新教授,研究方向为自动驾驶和机器人系统中的决策、预测和规划。他的研究成果发表于TMECH、RAL、IROS、TRB等一系列机器人和自动驾驶顶刊顶会。
预测、决策和运动规划对于自动驾驶至关重要。
在大多数传统算法架构中,它们被视为单独的模块或组合成具有共享主干但独立任务头的多任务学习范例。
然而,我们认为理想的算法是将它们整合到一个综合框架中,且这种整合过程不应受到复杂的输入表示(即输入解耦)和冗余框架设计的困扰。
为了解决上述问题,我们重新思考了自动驾驶任务中各个模块的必要性,并将所需的模块纳入到极简的自动驾驶框架中。
我们提出了BEVGPT,一种新的集成驾驶场景预测、决策和运动规划的生成式预训练模型。
该模型以鸟瞰图像(BEV)作为唯一输入源,并根据周围的交通场景做出驾驶决策。
最后通过基于优化的运动规划方法来保证驾驶轨迹的可行性和平滑性。
▲图1|BEVGPT整体框架
如图所示,BEVGPT采用两阶段训练过程。首先,我们使用大量自动驾驶数据来训练生成式大模型。随后,使用自动驾驶仿真模拟器通过在线学习对模型进行微调。具体来说,预训练阶段的目标是学习驾驶场景预测和决策,即自动驾驶任务中的BEV生成和自车轨迹预测。该模型能够输出未来4秒内的决策轨迹,并在长达6秒内预测未来驾驶场景。接下来是在线微调阶段,通过在线学习的方式实现模型微调,从而保证符合动力学的运动规划和更为精确的BEV预测。在微调阶段,运动规划器被设计为自动驾驶车辆生成平滑且可行的轨迹。
我们从人类驾驶员的角度重新评估每个模块的必要性,以设计自动驾驶系统框架。首先,人类驾驶员对环境地图有先验的知识,比如在使用导航软件时,每条道路的结构和路口位置都比较明显。其次,人类驾驶员并不会显示地追踪周围的其他车辆,并预测它们的未来轨迹。相反,他们更关注的是预测的自车轨迹是否会被其他车辆所占据。然后,他们会做出相应地驾驶决策。基于上述思考,我们设计了一个极简的自动驾驶框架,即包括决策,运动规划和驾驶场景预测,而把目标跟踪以及他车运动预测模块去掉了。在该框架中,决策输出的是自车未来T=4秒内的位置,在motion planner进一步处理后生成一个符合动力学和平滑的轨迹。考虑到静态环境信息可以从高清地图轻松获取,我们更加关注包括车辆和行人在内的动态物体的精确预测。驾驶场景预测通过环境地图和动态物体预测的组合获得,如下图所示。
▲图2|驾驶场景预测
我们采用分段多项式轨迹来表示我们的微分平坦输出,即
和
。为了在后续的motion planning模块中minimum Jerk,我们选择五次多项式表示。假设轨迹总共由
段组成。在这种情况下,便可以表示为下面的多项式:
这里的
表示轨迹的段数,每段具有相同的时间间隔
。
在我们的轨迹规划问题中,自车的初始状态和末状态已知。同时,决策模块的输出应当被包含在未来的轨迹中。另外,分段多项式轨迹的连续性也需要得到保证。因此,我们的运动规划问题被表达为了如下的minimum Jerk问题:
在这里,我们将自车的初始状态和最终状态考虑在内,同时确保了两个相邻轨迹段之间的连续性和光滑性,并且考虑了最大速度和最大加速度的限制,以确保动力学的可行性。
我们采用了Lyft Level 5 Dataset,这是一个由Houston等人于2021年提出的自动驾驶数据集,包含了超过1000个小时的驾驶数据,采集跨度4个月,采集车辆是由20辆车组成的车队。关于数据处理,我们从数据集中提取车辆姿态、语义BEV图像和静态环境地图图像。去除持续时间短于24秒(即240帧,时间间隔
秒)的驾驶情景。然后将自车的未来目标位置作为决策训练的label。我们将每帧的车辆位置、当前BEV图像、下一帧BEV图像和下一帧环境地图图像记录下来作为训练数据集。
GPT体系结构在自然语言处理(NLP)领域取得了很大的进展,它通过添加因果自关注掩码来修改变压器体系结构,从而自动回归生成预测tokens。由于其强大的理解和泛化能力,我们采用GPT架构来处理复杂的自动驾驶任务和各种场景。我们的超参数如下表所示。
在预训练阶段,BEVGPT进行了20个epochs的训练。为了提高模型的决策能力和预测能力,这里使用均方误差(MSE)作为Loss。
我们使用的是Woven Planet L5Kit进行自动驾驶仿真,以微调预训练模型。BEV输入模型后,输出未来时间间隔内的轨迹点。紧接着motion planner根据决策输出生成动态可行的轨迹,而后得到BEV的预测。回看上面的loss公式,模型要fine-tuning,需要地图的信息,这里我们开发了一种经验光栅化器(experience rasterizer),以帮助模型获得仿真驾驶场景的静态信息。这里的出发点是一旦知道静态全局地图、自车的初始世界坐标和世界坐标与光栅坐标之间的转换,就可以将所有车道和交叉口轻松映射到光栅化的BEV图像中。仿真器经过
时间间隔的仿真后,就可以获得接下来BEV图像的真实数据。这部分的loss如下:
因为这里仿真器是按照预测的轨迹进行走的,所以轨迹那项的loss是0。我们使用Woven Planet L5Kit模拟器进行在线微调,以适应运动规划和精确的BEV生成。
我们采用以下指标来评估的模型的决策能力和运动规划能力:
●最终位移误差指标(FDE),指的是最终预测位置与参考位置之间的距离。