专栏名称: 智能车情报局
聚焦智能汽车关键技术与创新产品
目录
相关文章推荐
惠安县市场监督管理局  ·  【开学“食”刻】惠安县市场监督管理局以“三心 ... ·  昨天  
中国药闻  ·  2025年国家药品抽检工作会召开 ·  昨天  
中国食品药品监管杂志  ·  合理用药 | 别乱吃!这些中成药不能联用 ·  2 天前  
甘南市场监管  ·  【走进3·15】开学季,这份校园食品安全温馨 ... ·  3 天前  
51好读  ›  专栏  ›  智能车情报局

阿里&西交MapDR新基准:填补在线地图空白!万级视频标注+多模态模型~

智能车情报局  · 公众号  ·  · 2025-02-20 20:15

正文

直播预告

智猩猩「DeepSeek大解读 」系列公开课第三期来啦! 2月24日19:00 ,阿里云三位技术专家将分别围绕云上智能算力支撑DeepSeek、智算场景的Kubernetes容器、DeepSeek一键部署及应用集成进行直播讲解。扫码报名申请观看直播或入群交流。

文章转载自公众号: 自动驾驶之心。 本文只做学术/技术分享,如有侵权,联系删文。


遵守交通规则行驶是实现自动驾驶系统的必要条件,车道级交通规则通常包含在高精地图中,为自动驾驶系统提供了准确、可靠的规则指导。受限于高精地图的更新频率低、更新成本高的局限,当前自动驾驶系统朝向 “在线感知建图” 的方向发展。而目前的在线建图方法主要关注于车道线、道路拓扑等道路结构的感知,忽视了对于包含更多语义信息的 交通规则 的理解,这一局限使自动驾驶系统仍然需要依赖离线地图获取交通规则,限制了自动驾驶系统的“在线化”趋势。


图片

交通标牌是道路上的“视觉语言”,在指示交通规则中发挥了关键作用。由人类驾驶过程的启发,从交通标志中理解交通规则需要完成两个任务,首先理解交通标志牌中指示的 车道级交通规则内容 ,同时要明确规则作用于具体哪一条车道 (关联到具体的车道中心线) 。同时完成上述两个任务,才能为自动驾驶系统提供准确的车道级交通规则作为指导。现有的相关工作往往关注于二者其一,缺乏对此项任务的全面研究。

为了填补当前研究的空白,本文组织了 MapDR 数据集,包含了超过 10,000 个真实驾驶场景以及18,000 条结构化车道级驾驶规则,并且提出了 Integrating traffic regulations into online HD maps 任务以及评测指标。同时,本文提出了一个模块化方法 VLE-MEE 和一个端到端方法 RuleVLM ,为此项任务提供了有效的 Baseline。数据集以及方法细节请见下文~

图片

论文链接:https://arxiv.org/abs/2410.23780v2

项目主页:https://xuanmaixue.github.io/Driving-by-the-Rules.github.io/

01

Integrating traffic regulations
into online HD maps

图片

本文所提出任务关注于将交通标志中的车道级交通规则整合至在线构建的高精地图中,需要完成两个子任务:

  • 从交通标志中抽取车道级交通规则

  • 建立交通规则与车道中心线之间的关联关系

如下图所示,本文将车道级交通规则定义为多个 key : value 构成的结构化表达,以便于整合至自动驾驶系统中服务于规控等下游步骤。现实场景中一个标志牌中可能包含多条车道级交通规则,同时每条交通规则也可能与多条车道中心线相关联,这也是解决此任务中的难点。


图片


02

Dataset & Benchmark


MapDR Dataset


图片

MapDR 数据均高德地图的真实采集数据,关注于来自于北京、上海、广州三座城市的常见交通标志牌以及道路信息。数据集包含了超过 10,000 个行车场景,其中超过 18,000 条驾驶规则。

图片

其中每个场景(一个 Clip)包含:

  • Raw Data

  • 30+ 帧连续前景图像
  • 关注交通标志的位姿(每个场景仅关注于一个标牌)
  • 以标牌为中心 100m * 100m 范围内的矢量化地图(包含矢量线型)
  • 相机内参以及每一帧对应的相机位姿
  • Annotation
  • 标牌中包含的若干条车道级交通规则以及对应的车道中心线
  • 每条交通规则对应的标牌内区域(以位姿表示)


数据表示如下图所示:


图片

图片


Evaluation Metric & Benchmark


图片

总体任务可以视为一个二分图匹配任务,如上图所示。其中抽取车道级交通规则视作对于图中 Rule Node 的预测,Rule 和 Centerline 之间的关联关系可以视作图中 Edge 的预测。评测时两个子任务分别关注于 Rule Node 和 Edge 的 Precision 和 Recall,总体任务关注于最小子图(由一个Rule Node、一个 Centerline Node 和 一条 Edge 组成)的 Precision 和 Recall

示例如下(R.E. 指规则抽取,C.R.指关联关系推理):
图片
图片
图片
图片

最终方法的评价指标以 F1 Score 为标准


03

Approach


Modular Approach


图片

模块化方法由三个级联模块构成:

  • Grouping: 融合标牌图像信息和 OCR 信息完成标牌上元素的车道级区域分组

  • Understanding: 依次融合单个分组的 OCR 和标牌图像信息,使用融合后的信息进行分类以预测交通规则中每个 key 对应的 value

  • Association: 对矢量地图进行特征编码并且与交通规则特征进行信息融合,通过二分类完成判定每条车道中心线是否与交通规则关联

图片

其中 MEE 模型专门用于对矢量地图进行特征编码,将每个矢量点进行 tokenize,使用 learnable query 配合 Intra & Inter Instance Attention 进行矢量特征的聚合,融合后每个 query 对应一条矢量的特征信息。通过 CrossAttention 进行矢量特征和交通规则特征的融合,使用融合后的 feature token 进行分类以判定中心线与规则的关联关系。


End-to-End Approach


图片

端到端方法在多模态大模型基础上进行了探索,以 Qwen-VL-Chat 7B 作为基础模型,如图所示分别以不同方式进行了LoRA SFT,令模型生成结构化文本形式的交通规则:

TextPrompt: 输入完整前景图像 + 标牌图像,将矢量点坐标以文本形式进行输入。
VisualPrompt: 输入包含矢量投影的完整前景图像 + 标牌图像
RuleVLM(best) 输入完整前景图像 + 标牌图像,使用 MEE 对矢量进行特征抽取并且对齐至 LLM

04

Experiment






请到「今天看啥」查看全文