9月6-7日,2024全球AI芯片峰会
将在北京举行。AMD人工智能事业部高级总监王宏强,云天励飞副总裁、芯片业务线总经理李爱军,清华大学交叉信息研究院助理教授、北极雄芯创始人马恺声,Habana中国区负责人于明扬等25+企业嘉宾已确认参会演讲。扫码报名或购票~
本篇文章转载自公众号深蓝AI,由原paper一作Shihao Wang(王仕豪)全权翻译分享,王仕豪为北京理工大学硕士毕业生,主要从事计算机视觉和自动驾驶相关工作。他提出了StreamPETR,Far3D和OmniDrive等方法,并在nuScenes的检测和跟踪榜单上多次获得第一名。
大语言模型在二维视觉任务中展现了出色的推理能力,它们在端到端自动驾驶中的应用已经呈现出丰富的可能性。然而,将这些模型从二维空间理解扩展到三维空间是一个重要挑战。对于自动驾驶车辆,对于三维世界理解的精确度会直接影响到车辆的决策规划能力。虽然以往的研究已经尝试地将大语言模型应用于自动驾驶,但仍然需要一种全面和原则性的方法,将视觉语言模型的二维理解和推理能力完全扩展到复杂的三维场景中。本次我们将介绍OmniDrive解决方案,主要分为三个部分:三维VLM数据集OmniDrive-nuScenes构建,OmniDrive-Agent模型框架以及实验与分析。
受LLaVA启发,OmniDrive-nuScenes特点是使用GPT-4V全自动生成问答对,所提出的流程将三维感知的真实信息作为通过提示输入的上下文信息。把交通规则和规划模拟进一步被用作额外的输入,从而减轻了GPT-4V在理解三维环境中所面临的挑战。所提出的基准测试涵盖了一系列问题,包括需要注意的物体、反事实推理和路径规划等。
GPT4-V直接处理多视图图像和数字信息会导致较差的结果。我们选择在nuScenes的原有三维标注的基础上,使用多个步骤迭代生成QA信息。
首先将多视图按照空间信息拼接为全景图像,然后生成整个场景的描述信息,提示GPT-4V在生成描述时包括以下细节:
●提及天气、一天中的时间(白天,夜晚等)、场景类型和其他图像内容;
●理解每个视图的大致方向(例如,第一个前视图为左前方);
●避免单独提及每个视图的内容,而是用相对于自车的位置替换。
之后我们把三维障碍物和车道线信息结构化表示,构建车道-物体关联,以文件树的形式表示物体和车道线之间的关系,并根据它们的三维边界框将物体的信息转化为自然语言描述。
为了增强模型的规划能力,我们分别利用模拟轨迹和专家轨迹,构建以规划为中心的QA。对于模拟轨迹:
1)根据三种驾驶意图:保持车道、左变道和右变道,选择初始车道。然后使用深度优先搜索(DFS)算法链接车道中线,获取所有可能的车辆轨迹路径。然后为各种车道(加速、减速和保持速度)选择不同的完成率和速度目标,创建模拟轨迹。
2)仅根据车道中线生成驾驶轨迹,很难模拟“超出可驾驶区域”的场景。因此,我们还对整个nuScenes数据集的自车轨迹进行了聚类,每次选择代表性的驾驶路径。然后我们将各个轨迹与三维标注进行规则式检查,判断轨迹是否安全,并给出相应的理由。
对于专家轨迹(来自nuScenes对应时刻的真实驾驶轨迹),我们先根据规则确定驾驶意图,并根据规则遍历物体标识“附近”目标,如果它到轨迹的最小距离在接下来的3秒内小于10米,就将对应的物体列在专家轨迹下面。
●注意的物体:给定模拟和专家轨迹,运行模拟以识别接近的物体。同时,也允许GPT-4V使用它自己的常识来识别威胁交通元素。
●反事实推理:给定模拟轨迹,模拟检查轨迹是否违反了交通规则,如闯红灯、与其他物体或道路边界发生碰撞。
●决策和规划:呈现高级决策以及专家轨迹,并使用GPT-4V来推理轨迹在给定轨迹的合理性。
●多轮对话:提示GPT-4V基于图像描述信息和图像内容生成多轮对话,涉及物体计数、颜色、相对位置和光学字符识别(Optical Character Recognition, OCR)等任务。这种方法有助于改善模型对长尾物体的识别。
通过以上策略,我们结合GPT4-V强大的视觉理解能力和规则式算法的安全保障,进行QA数据集的生成。
为了利用二维视觉语言模型的预训练知识,处理自动驾驶中的高分辨率多视角输入。我们设计了一种基于Q-Former的架构,该架构通过将视觉特征压缩成固定数量的查询(queries)后,再将其输入到一个大型语言模型中进行处理。这种架构与基于查询的三维感知框架StreamPETR之间有着相似性,因此可以将视觉语言模型的架构与三维目标检测架构StreamPETR进行对齐,使用查询来编码动态对象和静态地图元素,然后再输出到视觉语言模型中,可以有效提高模型的三维场景理解能力。
如上图所示, OmniDrive先使用共享视觉编码器提取多视图图像特征
。提取的特征
与位置编码
一起输入到Q-Former3D中。在Q-Former3D中,初始化检测查询
和文本查询
,并执行自注意力以交换它们的信息,这可以通过以下公式总结:
其中,
代表着向量拼接操作,为了简便忽略位置编码的表示。之后文本查询和感知查询利用交叉注意力提取多视图特征:
在此之后,感知查询用于预测前景元素的类别和坐标。文本查询被发送到一个单层的多层感知机(MLP),以与大语言模型的维度对齐(在LLaMA2-7B模型中为4096维),然后参照LLaVA的方式进一步用于文本生成。在模型中,文本查询扮演了视觉-语言对齐的角色。此外,这种设计使文本查询能够利用由三维位置编码提供的几何先验和文本表示。
该方法可以对多任务学习和时间序列进行建模。在多任务学习中,可以为每个感知任务集成特定任务的Q-Former3D模块。在不同的任务中,文本查询可以收集不同交通元素的信息。本研究涵盖了如在线地图构建和三维对象检测等任务。在训练和推理阶段,两个头部共享相同分类得分的感知查询存储到历史记忆模块中,并逐帧传播缓存的特征。传播的查询通过交叉注意力与当前帧的感知查询和文本查询互动,扩展了模型处理视频输入的能力。
下图展示了OmniDrive在反事实分析上的样本。车辆行驶驾驶场景为白天的路口,根据给定的三维轨迹点,模型首先识别出前方有红灯,继续前进会违反交通规则。不仅如此,模型也识别出继续驾驶会与前方停着的车辆发生碰撞,并给出了危险车辆的坐标为(+12.2,-0.2)。说明模型具有良好的三维场景理解能力,判断出了交通标志和道路的拓扑关系,以及和其它交通参与者的互动情况。