专栏名称: 计算机视觉工坊

专注于计算机视觉、VSLAM、目标检测、语义分割、自动驾驶、深度学习、AI芯片、产品落地等技术干货及前沿paper分享。这是一个由多个大厂算法研究人员和知名高校博士创立的平台，我们坚持工坊精神，做最有价值的事~

自动驾驶里程碑！决策力拉满！！AHMF：让车辆像人一样思考！

计算机视觉工坊 · 公众号 · · 2024-07-27 10:30

正文

点击下方卡片，关注 「计算机视觉工坊」 公众号
选择星标，干货第一时间送达

编辑：计算机视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入 3D视觉知识星球 ，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料： 近20门视频课程（星球成员免费学习） 、 最新顶会论文 、 3DGS系列 、 计算机视觉书籍 、 优质3D视觉算法源码 等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

人类驾驶员主要依赖视觉信息来驾驶。他们视觉注意力的分布反映了经验丰富的驾驶员对当前交通场景的认知理解，特别是在具有碰撞风险的关键安全场景中。对于智能车辆而言，准确预测驾驶员的注意力至关重要，因为这有助于快速识别交通场景中的关键风险因素，并协助决策系统做出有效的避撞决策。

鉴于其重要的研究意义，已涌现出大量关于驾驶员注意力预测的研究。这些研究通常采用基本的编码器-解码器模型架构，以卷积神经网络（CNN）或Transformer作为核心组件。然而，当前注意力预测模型性能的提升主要归功于计算机视觉领域骨干网络的进步，却忽视了驾驶任务本身所需的认知机制分析。因此，这些模型尚未实现类似人类的驾驶员注意力预测。

在驾驶过程中，人类驾驶员必须实时处理复杂多变的交通信息，特别是在关键安全场景中。这一认知过程既涉及工作记忆也涉及长期记忆。工作记忆模块通过快速识别当前场景中的关键风险对象并评估其危险性，来迅速处理视觉信息。当潜在碰撞即将发生时，驾驶员会迅速从长期记忆中检索相关经验。这些过程共同帮助驾驶员形成情境意识，快速理解当前的交通状况，并根据积累的驾驶经验做出最优决策。

为了实现更人性化的驾驶员注意力预测，本文提出了一种自适应混合记忆融合（AHMF）模型，该模型明确地将工作记忆和长期记忆纳入驾驶员注意力预测中。此外，利用域适应技术，我们的模型在多个数据集上进行并行训练，有效地利用多样化的驾驶经验来丰富长期记忆。通过将场景中的特定危险刺激（由编码器作为工作记忆处理）与从长期记忆中检索的经验相结合，该模型可以做出最终的优化预测。我们在多个公共数据集上通过对比实验评估了我们的模型。结果表明，我们的模型在多个指标上均优于现有的最先进（SOTA）模型。

下面一起来阅读一下这项工作~

1. 论文信息

标题：AHMF: Adaptive Hybrid-Memory-Fusion Model for Driver Attention Prediction

作者：Dongyang Xu, Qingfan Wang, Ji Ma, Xiangyun Zeng, Lei Chen

机构：清华大学、北京大学、商汤

原文链接：https://arxiv.org/abs/2407.17442

2. 摘要

准确的驾驶员注意力预测可以为智能车辆理解交通场景和做出明智的驾驶决策提供重要的参考。尽管现有的驾驶员注意力预测研究通过引入先进的显著性检测技术提高了性能，但它们忽视了从认知科学角度分析驾驶任务以实现类人预测的机会。在驾驶过程中，驾驶员的工作记忆和长期记忆分别在场景理解和经验检索中发挥着至关重要的作用。它们共同构成了情境意识，有助于驾驶员快速理解当前的交通状况，并根据过去的驾驶经验做出最佳决策。为了明确整合这两种记忆，本文提出了一种自适应混合记忆融合（AHMF）驾驶员注意力预测模型，以实现更类人的预测。具体而言，该模型首先对当前场景中的特定危险刺激信息进行编码，以形成工作记忆。然后，它自适应地从长期记忆中检索相似的情境经验，以进行最终预测。利用域适应技术，该模型在多个数据集上进行并行训练，从而丰富了长期记忆模块中积累的驾驶经验。与现有模型相比，我们的模型在多个公共数据集上的各项指标上均表现出显著的改进，证明了在驾驶员注意力预测中整合混合记忆的有效性。

3. 效果展示

4. 主要贡献

本文的贡献如下：

我们从认知科学的角度，以与驾驶员对交通场景的理解紧密一致的方式预测驾驶员的视觉注意力。具体来说，该模型首先对当前场景中的特定危险刺激进行编码以形成工作记忆，然后将工作记忆与长期记忆相结合以产生最终的场景编码。

利用域适应技术，我们在多个数据集上实现了并行训练，从而增强了长期记忆模块中信息的多样性，并形成了全面的“驾驶经验”知识库，显著提高了模型的泛化能力。

实验表明，我们的模型在多个公共数据集上的多个指标上均达到了最先进的预测性能。

5. 基本原理是啥？

我们提出了一种新颖的自适应混合记忆融合（AHMF）驾驶员注意力预测模型，该模型明确结合了驾驶员的工作记忆和长期记忆，以实现类似人类的预测。图1展示了AHMF的概述，该模型包含两个核心模块，即时空工作记忆编码和基于注意力的混合记忆融合。此外，我们还引入了必要的领域特定模块，以丰富各种数据集累积的长期记忆。

6. 实验结果

7. 总结 & 未来工作

在本文中，我们提出了一种新颖、更贴近人类的驾驶员注意力预测模型，该模型结合了工作记忆和长期记忆。

与现有方法不同，我们的方法显式地模拟了人类驾驶员在工作记忆中的场景理解和在长期记忆中的经验检索，以模仿他们在驾驶过程中定位视觉注意力时的情境感知机制。实验证明，所提出的记忆建模和融合方法显著提高了驾驶员注意力预测的性能。我们以非常直接的方式对这两种记忆进行了建模。未来应做出更多努力，通过认知科学与计算机视觉之间更深入的跨学科研究，找到更好的记忆建模方法。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括 2D计算机视觉 、 大模型 、 工业3D视觉 、 SLAM 、 自动驾驶 、 三维重建 、 无人机 等方向，细分群包括：

2D计算机视觉： 图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

最前沿：具身智能、Mamba、 NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉： 相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM ： 视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶： 深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建： 3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机： 四旋翼建模、无人机飞控等

除了这些，还有求职、 硬件选型 、 视觉产品落地 、 最新论文 、 3D视觉最新产品 、 3D视觉行业新闻 等交流群

添加小助理: dddvision，备注： 研究方向+学校/公司+昵称