专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
目录
相关文章推荐
51好读  ›  专栏  ›  智驾实验室

清华 & 北大 & 商汤提出 AHMF | 用于注意力预测的自适应混合记忆融合模型,实现更类似人类的注意力预测!

智驾实验室  · 公众号  ·  · 2024-08-04 08:00

正文

点击下方卡片,关注 「AI视界引擎」 公众号


( 添加时备注:方向+学校/公司+昵称/姓名 )

准确预测驾驶员注意力可以作为智能车辆理解交通场景和做出明智驾驶决策的关键参考。尽管现有关于驾驶员注意力预测的研究通过结合先进的显著性检测技术提高了性能,但它们忽略了从认知科学角度分析驾驶任务以实现类人预测的机会。

在驾驶过程中,驾驶员的工作记忆和长期记忆分别在场景理解和经验检索中发挥着关键作用。它们共同形成了情境意识,使驾驶员能够快速理解当前交通状况并根据过去的驾驶经验做出最佳决策。

为了明确整合这两种类型的记忆,本文提出了一个自适应混合记忆融合(AHMF)驾驶员注意力预测模型,以实现更类似人类的预测。具体来说,该模型首先编码当前场景中特定危险刺激的信息以形成工作记忆。

然后,它自适应地从长期记忆中检索相似情境经验进行最终预测。利用领域自适应技术,该模型在多个数据集上进行并行训练,从而丰富了长期记忆模块中积累的驾驶经验。

与现有模型相比,作者的模型在多个公共数据集上的各种指标上均显示出显著改进,证明了在驾驶员注意力预测中整合混合记忆的有效性。

1 Introduction

人类驾驶员主要依赖视觉信息来驾驶。他们的视觉注意力分布反映了经验丰富的驾驶员对当前交通场景的认知理解,尤其是在存在碰撞风险的 safety-critical 场景中。对于智能车辆而言,准确预测驾驶员的注意力对于快速识别交通场景中的关键风险要素以及辅助决策系统有效做出避碰决策至关重要。

鉴于这种重要的研究意义,关于驾驶员注意力预测的研究如雨后春笋般涌现。这些研究通常采用基本的编码器-解码器模型架构,以 CNN 或 Transformer 作为核心组件。然而,当前注意力预测模型性能的提升主要归功于计算机视觉中 Backbone 网络的进步,而忽视了驾驶任务本身必要的认知机制分析。因此,这些模型尚未达到类似人类的驾驶员注意力预测。

在驾驶过程中,人类驾驶员必须实时处理复杂多变的交通信息,特别是在安全关键场景中。这一认知过程涉及工作记忆和长期记忆[7, 8]。工作记忆模块通过快速识别当前场景中的关键风险物体并评估其危险性来迅速处理视觉信息[9]。当潜在碰撞即将发生时,驾驶员会从长期记忆中迅速检索相关经验。这些过程共同帮助驾驶员形成情境意识,快速理解当前交通状况,并根据积累的驾驶经验做出最优决策[9,。

为了实现更类似人类的驾驶员注意力预测,本文提出了一种自适应混合记忆融合(Adaptive Hybrid-Memory-Fusion, AHMF)模型,通过明确将工作记忆和长期记忆融入驾驶员注意力预测中。此外,利用领域适应,作者的模型在多个数据集上进行并行训练,有效地丰富了长期记忆中的多样化驾驶经验。通过将场景中的特定危险刺激(由编码器作为工作记忆处理)与长期记忆中检索到的经验相结合,模型做出最终的最优预测。作者在多个公共数据集上进行了比较实验。结果表明,作者的模型在多项指标上超越了现有的SOTA模型。

本文的贡献如下:

  1. 作者从认知科学的视角出发,以与驾驶员对交通场景理解紧密一致的方式来预测驾驶员的视觉注意力。具体来说,模型首先编码当前场景中的特定危险刺激以形成工作记忆,然后将其与长期记忆整合以产生最终的场景编码。
  2. 利用领域适应,作者在多个数据集上进行并行训练,从而增强了长期记忆模块中信息的多样性,形成了一个全面的“驾驶经验”知识库,显著提高了模型的泛化能力。
  3. 实验表明,在多个公共数据集上,作者的模型在多项指标上达到了最先进的预测性能。

2 Related Work

Driver Attention Prediction

驾驶注意力预测的研究经历了三个阶段:早期机器学习方法、基于卷积神经网络(CNN)的方法和基于Transformer的方法。最初,经典的机器学习方法,如动态贝叶斯模型,采用了自下而上和自上而下的框架来模拟驾驶员的视觉注意力。随着卷积神经网络的发展,基于卷积的预测方法成为了主流。这些模型通常采用编码器-解码器结构,其中编码器处理当前场景信息,而解码器重构视觉注意力分布。最近,Transformer在计算机视觉中的出色表现促使基于Transformer的图像/视频显著性检测的发展。尽管取得了这些进展,但这些研究尚未达到启发于人类的预测水平,因为它们缺乏对驾驶任务中认知科学洞察的理解。预期与人类驾驶员场景理解机制更为一致的模型将进一步提高预测的准确性。

Memory-Augmented Deep Learning

认知科学与深度学习的综合发展催生了模拟外部记忆以克服工作记忆局限的记忆增强模型。一个著名的早期例子是长短期记忆(LSTM)模型[26]。随后的深度学习模型探索了各种外部记忆融合形式。在驾驶员注意力预测方面,FBLNet采用了反馈循环结构以实现递增的知识,这可以被看作是一种简单的长期记忆[24]。作者的方法有所不同,提出了分阶段的工作记忆和长期记忆建模以及有效的记忆融合方式。同时,融入领域适应显著丰富了长期记忆中积累的“驾驶经验”,并提高了模型的泛化能力。

3 Method

在本节中,作者提出了一种新颖的自适应混合记忆融合(AHMF)驾驶员注意力预测模型,该模型明确结合了驾驶员的工作记忆和长期记忆,以实现类似人类的预测。图1展示了AHMF的概览,它包含两个核心模块,即时间-空间工作记忆编码和基于注意力的混合记忆融合。此外,还融入了必要的特定领域模块,以丰富跨不同数据集积累的长期记忆。鉴于本文的篇幅限制,作者将主要使用文本描述,避免复杂的数学公式,以详细阐述所提出的AHMF模型。

Temporal-Spatial Working Memory Encoding

复杂交通场景,尤其是安全关键场景,不仅表现出强烈的时间相关性特征,而且关键风险目标在空间上分布不均,这两者都显著影响了驾驶员工作记忆的编码过程。因此,有必要采用时空调和编码模式以实现准确的驾驶员注意力预测。

在空间编码方面,作者首先采用Swin Transformer-tiny [32]作为主干网络提取基本语义特征。对不同 Level 的提取特征首先通过上采样归一化到同一维度,然后进行拼接以捕捉不同范围内的语义信息。接着,设计了一个基于空间注意力的卷积模块,以建模交通帧各种局部特征之间的内在关系,这已被证明有效增强了其空间表现能力[12, 33]。空间注意力模块可以表述如下:

其中 分别是位置索引为 的输入和输出像素, 表示沿着空间维度特征的一维扁平位置索引,矩阵 表示1x1卷积层的可学习参数。然后,将编码特征与预定义的特定领域高斯先验进行拼接,以增强在各种异构驾驶场景中的泛化能力。

在时间编码方面,作者利用卷积门控循环单元(Conv-GRUs)基于更新门和重置门[34, 35]实现时间交通信息的有效传输。作者选择Conv-GRUs而不是Conv-LSTM,因为其轻量级的网络结构更适合在安全关键场景下进行高效的在线推理。### 基于注意力的混合记忆融合

在驾驶过程中,人类驾驶员的工作记忆(用于场景理解)和长期记忆(用于经验检索)在AHMF中被独立建模。此外,作者设计了一个高效的适应性记忆融合模块,该模块采用注意力机制,其灵感来源于人类驾驶员的情境感知机制。

工作记忆建模。 在获取来自编码器的时空调和编码特征后,作者使用倒置残差块[36]减少通道维度,然后采用上采样层调整特征的空间维度。

长期记忆建模。 长期记忆模块被建模为一个离线知识库,并且它以与工作记忆相同的大小作为一组可学习参数进行初始化(即 )。在训练期间,它首先根据工作记忆中的 Query 检索关键的驾驶经验,然后不断更新以融合新编码的特征。

基于注意力的混合记忆融合。 作者采用了两个基于多头交叉注意力的融合模块来促进两个记忆之间的信息传递。由于注意力模块将序列化数据作为输入,工作记忆和长期记忆在空间和通道维度上被展平。

首先,为了用从长期记忆中检索到的“驾驶经验”增强工作记忆,作者使用线性层将工作记忆投射为 Query ,将长期记忆分别投射为键和值。采用了一个多头交叉注意力模块MHCA( )来建模两种记忆之间的内在关系,具体发展如下:







请到「今天看啥」查看全文